用于查找文本的正则表达式

通过使用正则表达式,可以在 Microsoft Expression Web 中执行繁复的查找和替换操作。如果您不知道所要查找的确切文本或代码,或者要查找文本或代码字符串的多个匹配项,则可以使用正表达式。
正则表达式是一种文本模式,它可以描述所要查找的文本的一种或多种变体。正则表达式由特定字符(如字母“a”到“z”)和描述文本模式的特殊字符(如星号“”)组成。例如,要在网站中查找“page”的所有变体,可以搜索“page”。这样,Expression Web 将在网站中查找“page”、“pages”、“pager”以及以“page”开头的所有其他单词。
在搜索中使用正则表达式时,特定的规则将控制哪些字符组合将执行特定的匹配操作。每种正则表达式(或正则表达式的组合)都称为“语法”。可以在一个语法中使用多个正则表达式以精确匹配要搜索的目标。
若要使用正则表达式,请参阅查找和替换文本和代码

【Python】正则表达式 - 图2正则表达式语法

. 任何单个字符,用作换行符 (\n) 以外的任何单个打印或非打印字符的通配符。
例如,正则表达式 c.t 可匹配 cat、c t、cot 等字符串,但不能匹配 cost。在本例中,句号 (.) 是一个代表单个字符的通配符。它出现在字母“c”和“t”之间,因此字符“c”和“t”之间的任何单个字符都与表达式匹配 - 即使是空格也一样。
* 零或更多,用于匹配在此表达式之前出现零次或更多次的某个字符,可与尽可能多的字符相匹配。
正则表达式 . 用于匹配某个出现零次或更多次的字符。
例如,正则表达式 b.
k 可匹配 book、back、black、blank 和 buck。在本例中,将句号 (.) 和星号 () 组合成一个语法。句号 (.) 紧挨在星号 () 表达式之前。星号 (*) 可匹配“b”和“k”之间任意出现零次或更多次的字符。句号 (.) 用作“b”和“k”之间字符的通配符。在本例中,它表示“b”和“k”之间的任意字符都可以反复出现。
+ 一或更多,用于匹配在此表达式之前出现一次或更多次的某个字符,可与尽可能多的字符相匹配。
正则表达式 .+ 用于匹配某个出现一次或更多次的字符。
例如,正则表达式 bo+. 可匹配 bob、book 和 boot。在本例中,将句号 (.) 和加号 (+) 组合成一个语法。句号 (.) 紧挨在加号 (+) 表达式之后。加号 (+) 可与出现一次或更多次的字母“o”相匹配。句号 (.) 用作每个单词的最后一个字符的通配符。在本例中,该字符为“b”、“k”和“t”。
@ 最小为零或更多,用于匹配在此表达式之前出现零次或更多次的某个字符,可与尽可能少的字符相匹配。
正则表达式 .@ 用于匹配某个出现零次或更多次的字符。
例如,正则表达式 a.@x 可匹配“abxbxb”中的“abx”和“acxcxc”中的“acx”。在本例中,将句号 (.) 和 @ 符号组合成一个语法。句号 (.) 紧挨在 @ 符号表达式之前。@ 符号可与“a”和“x”之间出现零次或更多次的任意字符相匹配。在本例中,句号 (.) 用作字符“a”和“x”之间的字符“b”和“c”的通配符。
# 最小为一或更多,用于匹配在此表达式之前出现一次或更多次的某个字符,可与尽可能少的字符相匹配。
例如,正则表达式 si.#er 可匹配“sicker”或“silkier”。在本例中,将句号 (.) 和井号 (#) 组合成一个语法。句号 (.) 紧挨在井号 (#) 表达式之前。井号 (#) 可与“si”和“er”之间出现一次或更多次的任意字符相匹配。句号 (.) 用作单词 sicker 中字符“c”和“k”的通配符,以及单词 silkier 中“l”、“k”和“i”的通配符。
[ ] 任何一个属于该集合的字符,用于匹配括号 ([ ]) 内的任意一个字符。可以使用连字符 (-) 指定字符的范围,例如 [a-z]。
例如:
· 正则表达式 c[aou]t 可以匹配 cat、cot 和 cut,但不能匹配 cet 或 cit。
· 正则表达式 [0-9] 表示匹配任意一个数字。也可以指定多个字母范围。
· 正则表达式 [A-Za-z] 表示匹配所有大写和小写字母。
^ 行首,定位于行首匹配。
例如,正则表达式 ^When in 匹配以“When in”开头且出现于行首的任意字符串,例如“When in the course of human events”或“When in town, call me”。然而,此正则表达式不匹配出现于行首的“What and when in the course of human events”。
$ 行尾,定位于行尾匹配。
例如,正则表达式 professional$ 可匹配字符串“He is a professional”,但不能匹配字符串“They are a group of professionals”。
^^ 文件开头,定位于文件开头匹配。仅适用于在源代码或文本文件中搜索文本。
例如,若要匹配文件开头的第一个 HTML 标记,可使用此正则表达式:^^
$$ 文件末尾,定位于文件末尾匹配。仅适用于在源代码或文本文件中搜索文本。
例如,若要匹配文件末尾的最后一个 HTML 标记(标记后没有空格),可使用此正则表达式:$$
| 或,表示在两项之间进行选择,即匹配“或”符号 (|) 前面或后面的表达式。
例如,正则表达式 (him|her) 匹配下列各项:“it belongs to him”或者“it belongs to her”但不匹配行“it belongs to them”。
\ 转义特殊字符,用于匹配反斜线 (\) 后面的字符。这样,就可以查找正则表达式语法中使用的字符(如左大括号 ({) 或脱字号 (^))或其他一些特殊字符。
例如,使用 \$ 可匹配美元符号 ($) 字符,而不是执行用于“定位于行尾”的正则表达式。同样,使用 \. 可匹配句号 (.) 字符,而不是像句号 (.) 正则表达式一样匹配任意一个字符。
{} 标记表达式,对与括号内表达式匹配的文本加标记。可以使用 \N 在“查找”表达式中匹配出现在另一处的标记文本或者将标记文本插入“替换”表达式。
例如,假设要查找连续出现两次的单词。若要搜索,请使用此表达式:{.#} \1
假设连续出现的单词由一个空格隔开,则需要在右大括号 (}) 与反斜线 (\) 之间添加一个空格。
在本例中,将井号 (#)、句号 (.) 和大括号 ({}) 组合成一个语法。在此表达式中,.# 表示任何连续的字符。因为这部分表达式位于大括号 ({}) 内,所以连续的字符将被加上标记,并被引用为 \1。此表达式将查找后跟空格以及字符与其完全相同的任意连续字符。
\N 在“查找”表达式中第 N 个标记表达式中,\N 匹配由第 N 个标记表达式指定的文本,其中 N 是 1 到 9 的数字。
在“替换”表达式中,\N 插入由第 N 个标记表达式匹配的文本,其中 N 是 1 到 9 之间的数字。\0 插入整个“查找”表达式指定的文本。
例如,假设要查找连续出现两次的单词,并使用一个单词替换它们。若要搜索,请使用此表达式:.#} \l
假设连续出现的单词由一个空格隔开,则需要在右大括号 (}) 与反斜线 (\) 之间添加一个空格。在本例中,将井号 (#)、句号 (.) 和大括号 ({}) 组合成一个语法。
若要替换,请使用下列表达式:\l
\1 表示在查找字符串中的第一对大括号内找到的内容。通过在替换操作中使用 \1,实际上是将连续出现两次的单词替换为一个单词。
( ) 组表达式,标记子表达式的开始和结束。
子表达式指括在 ( ) 中的正则表达式,例如表达式:(ha)+。在本例中,将加号 (+) 与括号 ( ) 组表达式组合成一个语法。子表达式是 (ha),因为它括在括号 ( ) 内。添加加号 (+) 后,该表达式可查找重复的字母对。加号 (+) 表示“ha”出现一次或更多次。
此表达式可匹配下列各项:“haha”和“hahaha”。
~x 防止匹配,当 x 出现在表达式中的此位置时会防止匹配。
例如,正则表达式 real~(ity) 可匹配“realty”和“really”中的“real”,但不能匹配“reality”中的“real”。
\n 换行符,匹配“代码”视图中的新行,或“设计”视图中的

语法 (\n) 是匹配所有换行符的简便方法。
\t 制表符,匹配单个制表符。
例如,如果要查找所有位于行首的制表符,可使用此正则表达式:
^\t+
在本例中,将脱字号 (^)、加号 (+) 和制表符 (\t) 组合成一个语法。脱字号 (^) 位于单个制表符表达式之前,用于匹配位于行首的所有制表符。加号 (+) 表示匹配一个或多个制表符。
[^] 任何一个不属于该集合的字符,用于匹配不包含在脱字号 (^) 之后的字符集内的任何字符。
例如,若要匹配范围之外的任何字符,可使用脱字号 (^) 作为左括号后面的第一个字符。表达式 [^269A-Z] 匹配除 2、6、9 以及任何大写字母之外的所有字符。
n 重复表达式,与脱字号 (^) 之前出现 n 次的表达式相匹配。
例如,若 n 为 4,表达式 [0-9]^4 匹配任何 4 位数序列。在本例中,将字符集 ([ ]) 语法与重复 (^n) 语法组合,以展示正则表达式的更实用的方法。
:a 字母数字字符,用于匹配表达式 [a-zA-Z0-9]。
可以使用表达式 [a-zA-Z0-9] 匹配出现一次的字母(大写或小写)或数字。也称为“字母数字匹配项”。可使用简写表达式 :a 来代替 [a-zA-Z0-9]。
:b 空格,用于匹配代码或文本中的任何空格。
例如,若要匹配行首的单个空格字符,可使用此正则表达式:^:b
:c 字母字符,用于匹配表达式 [a-zA-Z]。使用此表达式可匹配所有大写或小写字母。
可以使用简写表达式 :c 来代替所有 [a-zA-Z]。
:d 数字,用于匹配表达式 [0-9]。此表达式可匹配任何数字。
例如,假设要在文本文件中查找美国的社会福利号。美国的社会福利号的格式为 999-99-9999。:d^3-:d^2-:d^4 或 [0-9]^3-[0-9]^2-[0-9]^4(使用 [0-9] 表示)可返回相同的结果。
可使用简写表达式 :d 来代替所有 [0-9]。
:h 十六进制数字,用于匹配表达式 [0-9a-fA-F]+
使用此表达式可匹配由“A”和“F”之间的大写或小写字母和任意数字组成的十六进制数。
例如,假设网站中的网页使用了多种不同的背景色,而您要将这些网页的颜色改为黑色(即 000000)。但是,您不知道现有颜色的十六进制值。使用此正则表达式可查找所有的现有十六进制值:
\#:h
可以使用 [0-9a-fA-F] 进行搜索,但在本例中,将反斜线 (\)、井号 (#) 和十六进制数字 (:h) 语法组合在一起。\# 匹配非表达式的井号 (#),而 :h 匹配任何十六进制字符序列。
若要替换现有十六进制数值,可键入所需背景颜色的十六进制数值: 000000
:i 标识符,用于匹配表达式 [a-zA-Z$][a-zA-Z0-9$]*
处理代码时,如果需要匹配所有程序标识符,可使用简写表达式 :i,而无需键入上述冗长的表达式。
:n 有理数,用于匹配表达式 ([0-9]+\.[0-9])|([0-9]\.[0-9]+)|([0-9]+)
如果需要匹配带小数点的整个数值,可使用简写表达式 :n,而无需键入上述冗长的表达式。
:q 带引号的字符串,用于匹配表达式 (“[~”]“)|(‘[~’]‘)
如果需要匹配加引号的所有引号,可使用简写表达式 :q,而无需键入上述冗长的表达式。
:w 字母字符串,用于匹配表达式 [a-zA-Z]+
此语法是一种可匹配一个或多个大写或小写字母字符的简便方法。
:z 整数,用于匹配表达式 [0-9]+
此语法是一种可匹配任何整数的简便方法。


查找和替换文本和代码

使用“查找和替换”对话框,可在一个网页、多个网页或整个网站中查找和替换文本或代码。您可以逐次查找出现的文本,也可以同时查找所有出现的文本。使用对话框中的任何选项卡,都可以在网页的代码中搜索文本。有关使用“HTML 标记”选项卡来搜索代码的详细信息,请参阅查找和替换标记

【Python】正则表达式 - 图3
若要在打开的文档中快速找到字符,请使用“编辑”菜单上的“渐进式搜索”命令,而不是“查找和替换”对话框。请参阅以渐进方式搜索网页

可以设置选项和规则,结果仅限于显示满足指定条件的项。例如,可以指定要搜索的网页和搜索方向,以及在这些网页中搜索文本或代码的方式。除了搜索出现的特定文本或代码以外,还可以使用正则表达式或 HTML 规则来搜索此类文本或代码。

【Python】正则表达式 - 图4
如果您经常执行同类搜索,可以将其保存为一个查询。这样,在下次要执行该搜索时,可以直接打开该查询,而不必重新输入搜索条件。使用“查找和替换”对话框中的所有选项卡上都可以找到的“查询”选项,可以创建新的查询或打开以前创建的查询。

在一个或多个网页中查找文本

  1. 执行下列操作之一:
  • 若要在单一网页中进行搜索,请打开该网页。
  • 若要在网站的所有网页中进行搜索,请打开该网站。
  • 若要在某网站的一个或多个网页中进行搜索,请在“文件夹列表”任务窗格或“网站”视图中,选择要搜索的网页。
  • 若要在某网站中的一个或多个网页中进行搜索,请打开想要搜索的网页。
  1. 在“编辑”菜单上,执行下列操作之一:
  • 若要查找而不替换文本,请单击“查找”。
  • 若要查找并替换文本,请单击“替换”。
  1. 在“查找和替换”对话框的“查找”或“替换”选项卡上,执行下列操作:
查找内容 键入要搜索的文本。
HTML 规则 若要仅查找满足所指定的 HTML 条件的文本,请设置所需的规则。有关详细信息,请参阅设置用于查找文本的 HTML 规则
查找范围 选择表明要搜索的网页的选项。
显示结果范围 选择要在其中显示结果的任务窗格。
方向 如果仅在当前网页中进行搜索,请选择搜索的方向。
区分大小写 仅当文本与所键入的文本的大小写匹配时,才会找到该文本。
全字匹配 仅当全字匹配时,才会找到该文本。
忽略空白差异 忽略词之间的空格和制表符,并将每一处视作一个空格。此选项在选中“正则表达式”复选框时不可用。
正则表达式 若要使用正则表达式,请执行下列操作之一:
· 单击“查找内容”框旁边指向右边的“正则表达式”箭头 【Python】正则表达式 - 图5,再选择一个表达式。
· 若要选择最近使用过的表达式,请单击指向下方的“最近使用过的”箭头 【Python】正则表达式 - 图6,再选择一个表达式。
有关详细信息,请参阅用于查找文本的正则表达式
在源代码中查找 在 HTML 代码中查找文本。例如,可以搜索在网页中无法看见或编辑的文本,如在网页属性中设置的网页标题。
  1. 执行下列操作之一:
  • 若要在搜索单个网页时逐一查找出现的文本,请单击“查找下一个”。在网页的“设计”视图和“代码”视图中将同时选中下一个出现的文本。
  • 若要在搜索单个网页时同时查找出现的所有文本,请单击“查找全部”。搜索结果将显示在“查找”任务窗格中。
  • 如果搜索的是网站中的多个网页或所有网页,请单击“查找全部”。搜索结果将显示在“查找”任务窗格中。
  1. 执行下列操作之一:
  • 若要查找下一个出现的文本,请在“查找和替换”对话框中,单击“查找下一个”。
  • 如果单击了“查找全部”,那么,若要打开并转到网页中的实例,请在“查找”任务窗格中,双击一行,或者右键单击一行后再单击“转到页”【Python】正则表达式 - 图7。若要替换当前实例,请在“查找”任务窗格中,单击“查找和替换”按钮 【Python】正则表达式 - 图8,以打开“查找和替换”对话框。
  • 若要替换该文本,请在“查找和替换”对话框中的“替换”选项卡上,在“替换为”框中键入要用来替换找到的文本的文字,然后单击“替换”来替换单个出现的文本,或单击“全部替换”来替换所有出现的文本。