正则表达式
正则表达式是一种描述字符模式(特征)的工具,是字符的高度抽象,被用于字符的搜索、匹配、替换、验证等多种场景。ESMAScript 中用 RegExp 类表示正则表达式。
1 | // RegExp 构造函数 |
RegExp 构造函数下 pattern 以字符串存在,跟字面量模式不同的是,字符串下 / 需要做两层转义,字符串中转义一次,正则中转义一次。以 '\\.' 为例,首先 \\. 在字符串中被转义 \. ,然后作为正则表达式字面量,\. 又被转义为 .,即字符串 .,如果在字符串中只写 \.,字符串转义为 .,作为正则表达式被解释时就变成匹配任意字符了。
1 | var reg1 = /^\w+$/; |
基本语法
正则表达式由两种基本字符类型组成,普通文本字符和元字符(Metacharacter)。元字符是有特殊含义的字符,转义字符、字符类、量词、定位符…都是元字符,元字符使正则表达式具有处理能力。反斜杠转义后的元字符将失去特殊含义。
| 元字符 | 含义 |
|---|---|
\ |
转移字符 |
[] |
字符类 |
{}、?、*、+ |
量词 |
^、$、\b、\B |
定位符 |
| |
可选项 |
. |
除新行(newline)外的任一字符(s 修饰符将使 . 匹配新行字符) |
() |
分组 |
转义字符
反斜杠 \ 通常用作转义字符,用于改变其后紧跟的字符的含义,使其表示本身,而不是它们的特殊含义,或者反之,使其表示特殊含义。
比如,带上转移字符的 \\、\.、\[、\] 表示 \、.、[、] 字符本身,而不是它们的特殊含义。\b、\B 表示单词边界和非单词边界,\n、\r、\t 表示换行符,回车字符和制表符,\0 表示 null 字符。
1 | var reg = /\?/ |
字符类(Character classes)
将直接量字符放进 [] 方括号内就组成了字符类,一个字符类可以匹配它所包含的任意字符。由于某些字符类非常常用,因此使用了些特殊字符的转义来表示它们,例如 \s,方括号内也可以放这些简写的特殊转义字符,例如 [\s\d]。
| 字符类 | 匹配情况 |
|---|---|
[abc] |
简单类:(或) 匹配中括号中的字符集中任意字符 |
[a-z] |
范围类:(到) 匹配中括号中的字符集中任意字符 |
[^a-z] |
负向类:(非) 匹配非中括号中的字符集中任意字符 |
[^a-z0-9] |
组合类:(组合) |
. |
预定义类:匹配除换行符外的任意字符,[^\n\r] |
\d |
预定义类:匹配数字 [0-9] |
\D |
预定义类:匹配非数字 [^0-9] |
\s |
预定义类:匹配空白字符 [\t\n\x0B\f\r] |
\S |
预定义类:匹配非空白字符 [^\t\n\x0B\f\r] |
\w |
预定义类:匹配字母数字下划线 [a-zA-Z_0-9] |
\W |
预定义类:匹配非字母数字下划线 [^a-zA-Z_0-9] |
[\b] |
退格直接量(特例) |
1 | // 计算元音的个数 |
注:[] 字符类中,除了 ^、-、] 是元字符外,其他都是普通字符,比如,[^.] 中的 . 是字符 .,而不是字符类 .,不要将其与 [\n\r] 等效了。
量词(Quantifiers)
量词用于指定匹配的次数。
| 贪婪 | 惰性 | 支配 | 描述 |
|---|---|---|---|
? |
?? |
?+ |
零次或一次出现 |
* |
*? |
*+ |
零次或多次出现 |
+ |
+? |
++ |
一次或多次出现 |
{n} |
{n}? |
{n}+ |
恰好 n 次出现 |
{n,m} |
{n,m}? |
{n,m}+ |
至少 n 次至多 m 次出现 |
{n,} |
{n,}? |
{n,}+ |
至少 n 次出现 |
三种不同类型量词的区别:
1 | var str = 'abbbaabbbaaabbb1234'; |
- 贪婪量词
贪婪量词先看整个的字符串是否匹配。如果没有发现匹配,则去掉该字符串中最后一个字符,并再次尝试。如果还是没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复直到发现一个匹配或者字符串不剩任何字符。
| 量词 | 含义 |
|---|---|
? |
{0,1},0 个或 1 个 |
* |
{0,} |
+ |
{1,} |
{n} |
n 个 |
{n,} |
最少 n 次,, 后没有空格 |
{n,m} |
n 到 m 之间 |
{,m} |
没有这种量词 |
- 惰性量词
惰性量词先看字符串中的第一个字母是否匹配。如果单独这一个字符还不够,就读入下一个字符,组成两个字符的字符串。如果还是没有发现匹配,惰性量词继续从字符串中添加字符直到发现匹配或者整个字符都检查过也没有匹配。惰性量词和贪婪量词的工作方式相反。
贪婪量词后接 ? 便是惰性量词。
- 支配性量词
支配量词只尝试匹配整个字符串,如果整个字符串不能产生匹配,不进行回溯,不做进一步尝试。支配性量词并不是所有正则表达式引擎都支持,比如,JavaScript。
贪婪量词后接 + 便是支配量词。
定位符
定位符是用于指定匹配的位置而不是匹配字符本身的特殊字符。
| 定位符 | 含义 |
|---|---|
^ |
行首 |
$ |
行尾 |
\b |
单词边界 |
\B |
非单词边界 |
使用 $ 和 ^,查找字行中第一个单词和最后一个单词:
1 | var str = 'Important word is the last one.'; |
1 | var str = 'Important word is the last one.'; |
也可以用单词边界实现:
1 | var str = 'Important word is the last one.'; |
使用单词边界可以方便地从字符串中抽取单词:
1 | var str = 'First second third fourth fifth sixth'; |
修饰符(标记)
| 修饰符 | 含义 | 描述 |
|---|---|---|
i |
ignore 不区分大小写 | 将匹配设置为不区分大小写,搜索时不区分大小写: A 和 a 没有区别 |
g |
global 全局匹配 | 查找所有的匹配项 |
m |
multi line 多行匹配 | 使边界字符 ^ 和 $ 匹配每一行的开头和结尾,注意是多行,不是整个字符串的开头和结尾 |
s |
特殊字符圆点 . 中包含换行符 \n |
默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n |
m 多行匹配,会让 $ 边界匹配换行符 \n 以及字符串真正的结尾。
1 | var str = 'First second\nthird fourch\nfifth sixth'; |
多行模式同样会改变 ^ 边界的行为,这时它会匹配换行之后的位置。
1 | var str = 'First second\nthird fourch\nfifth sixth'; |
匹配模式(pattern)
根据元字符的复杂程度,可将正则表达式分为简单模式和复杂模式。复杂模式不仅由字符类和量词组成,还由分组、引用、前瞻等一系列强大的正则表达式功能组成。
分组
分组是通过用一系列括号包围一系列字符、字符类以及量词来使用的。例如,假设想匹配字符串 “dogdog”。使用目前获得的知识,可能估计表达式应该类似:
1 | var reg = /dogdog/g; |
尽管这是可以的,但有是点儿浪费,如果不知道dogh在字符串中到底出现几次时该怎么办?如果 dog 重复次数过多呢?你可以使用分组来重写这个表达式,如下:
1 | var reg = /(dog){2}/g; |
表达式中的括号的意思是字符序列“dog”将在一行上连续出现两次。但是不并不限制在分组后使用花托号,可以使用任意量词:
1 | var reg1 = /(dog)?/; // 匹配出现零次或一次 dog |
通过混合使用字符、字符类和量词,甚至可以实现一些相当复杂的分组:
1 | var reg = /[(bd)ad?]*/; // 匹配出现零次或多次 ”ba”,”da”,”bad”,”dad” |
同时也不介意将分组放在分组中间:
1 | var reg = /(mom( and dad)?)/; // 匹配 ”mom” 或者 ”mon and dad” |
这个表达式要求 ”mon” 是必要的,但是字符串 ” and dad” 可以出现零次或一次。分组还可以用来弥补一些 JavaScript 所缺乏的一些语言功能。
反向引用
| 反向引用 | 含义 |
|---|---|
| (string) | 用于反向引用的分组 |
\1 或 $1 |
匹配第一个分组中的内容 |
\2 或 $2 |
匹配第二个分组中的内容 |
\3 或 $3 |
匹配第三个分组中的内容 |
反向引用是按照从左到右遇到的左括号字符的顺序进行创建和编号的。例如,表达式 (A?(B?(C?))) 将产生编号从 1~3 的三个反向引用:
1 | (A?(B?(C?))) |
反向可以有几种不同的使用方法。
使用正则表达式对象的 test()、match() 或 search() 方法后,反向引用的值可以从 RegExp 构造函数中获得。例如:
1 | var str = '#123456789'; |
在 test() 方法后,所有的反向引用都被保存在 RegExp 构造函数中,从 RegExp.$1(它保存了第一个反向引用)开始,如果还有第二个反向引用,就是 RegExp.$2,如果第三个反向引用存在,就是 RegExp.$3,依此类推。因为该组匹配了 ”123456789”,所以 RegExp.$1 中就存储了这个字符串。
还可以直接在定义分组的表达式中包含反向引用。这可以通过使用特殊转义字符序列如 \1、\2 等等实现。例如:
1 | var str = 'dogdog'; |
正则表达式 reg 首先创建单词 dog 的组,然后又被特殊转义序列 \1 引用,使得这个正则表达式等于 /dogdog/。
第三,反向引用可以用在 replace() 方法中,这通过使用特殊字符序列 $1、$2 等等来实现。描述这种功能的最佳例子是调换字符串中的两个单词的顺序。假设想将字符串 “1234 5678” 变成 “5678 1234”。可以通过下面的代码来实现
1 | var str = '1234 5678'; |
在这个例子中,正则表达式有两个分组,每一个分组有四个数字。在 replace() 方法的第二个参数中,$2 等同于 “5678”,而 $1 等同于 “1234”,对应于它们在表达式中出现的顺序。
候选
如果要对同一个表达式同时匹配 ”red” 和 ”black” 时要怎么做呢?这些单词完全没有相同的字符,这样就要写两个不同的正则表达式,并分别对两个字符串进行匹配,像这样:
1 | var str1 = 'red'; |
这虽然完成了任务,但是十分冗长。还有另一种方式就是使用正则表达式的候选操作符。
候选操作符和 ECMAScript 的二进制异或一样,是一个管道符 |,它放在两个单独的柜式之间。正如下面的例子:
1 | var str1 = 'red'; |
在这里,reg 匹配 ”red” 或者 ”black”,同时测试每个字符串都返回 true。因为两个备选项存放在一个分组中,不管哪个被匹配了,都会存在 RegExp.$1 中以备将来使用(同时也可以在表达式中使用 \1)。在第一个测试中,RegExp.$1 等于 ”red”,在第二个中,它等于 ”blue”。
OR 模式在实践中以一种通常的用法是从用户输入中删除不合适的单词,这对于在线论坛来说是非常重要的。通过针对这些敏感单词使用 OR 模式和 replace() 方法,则可以很方便地在帖子发布之前去掉敏感内容。
1 | var reg = /badword|anotherbadword/gi; |
也可以用星号替换敏感词中每一个字母,也就是说最后出现的文本中星号的数量和敏感词中的字符数量是一样的,使用函数来作为 replace() 方法的第二个参数,就可以达到这个目的:
1 | var reg = /badword|anotherbadword/gi; |
非捕获性分组
非捕获性分组即不保存反向引用的分组。在较长的正则表达式中,存储反向引用会降低匹配速度。通过使用非捕获性分组,仍然可以拥有与匹配字符串序列同样的能力,而无需存储结果的开销。创建一个非捕获性分组,只要在左括号的后面加上 ?:。
1 | var str = '#123456789'; |
这个例子的最后一行代码输出一个空字符,因为该分组是非捕获性的。正因如此,replace()方法就不能通过 RegExp.$x 变量为使用任何反向引用,或在正则表达式中使用它。看看运行下面的代码会怎样:
1 | var str = '#123456789'; |
这段代码输出 abcd$1 而不是 abcd123456789,因为 $1 在这里并不被看成是一个反向引用,而被直接翻译成字符。
正则表达式有一个十分常用的方式是去掉文本中所有的 HTML 标签,尤其是在论坛和BBS上,这可以防止游客在他们的发帖中插入恶意或是无意错误的 HTML。删除HTML标记的正则表达式很简单,只要用一个简单的表达式:
1 | var reg = /<(?:.|\s)*?>/g; |
这个表达式匹配一个小括号 < 后面跟着任何文本,然后跟着一个大于号 >,这有效地匹配了所有的 HTML 标签,这里使用非捕获性分组是因为在小于号和大于号之间出现的内容并不重要(这些都是要删除的)。
1 | String.prototype.innerHTML = function() { |
前瞻
有时候,可能希望,当某个特定的字符分组出现在另一个字符串之前时,才去捕获它。
前瞻就是告诉正则表达式运算器向前看一些字符而不移动其位置。有正向前瞻和负向前瞻。正向前瞻检查的是接下来的出现的是不是某个特定字符集。而负向前瞻则是检查接下来的不应该出现的特定字符集。
创建正向前瞻是要将模式放在 (?= 和 ) 之间。注意这不是分组,虽然它也用到括号。事实上,分组不会考虑前瞻的存在(无论是正向的还是负向的)。
1 | var str1 = 'bedroom'; |
在这个例子中,reg 只匹配后面跟着 “room” 的 “bed”。因此,它能匹配 str1 而不能匹配 str2。在用表达式测试 str1 后,这段代码输出 RegExp.$1 的内容是 “bed”,而不是 “bedroom”。模式的 “room” 的部分是包含在前瞻中的,所以没有作为分组的一部分返回。
创建负向前瞻是要将模式放在 (?! 和 ) 之间。
1 | var str1 = 'bedroom'; |
这里,表达式变成只匹配后面不跟着 “room” 的 “bed”,所以模式匹配 “bedding” 而不是 “bedroom”。在测试 str2,RegExp.$1 还是包含 “bed”,而不是 “bedding”。
尽管 JavaScript 支持正则表达式前瞻,但它不支持后瞻。后瞻可以匹配这种模式:“匹配 b 当且仅汉它前面没有 a”。
JavaScript 中正则表达式属性和方法
RegExp 和 String 都定义了使用正则表达式进行强大的模式匹配和文本检索、替换的方法。
正则表达式属性和方法
- test
test() 方法用于检测字符串是否符合正则表达式描述的规则,返回布尔值。用该方法测试字符串时要注意“行首和行尾”,表单在验证时基本会加上行首行尾。
1 | /^[\w-]+@[a-zA-Z0-9]+\.[A-Za-z]{2,4}$/.test('xwblearn2008@hotmail.com') |
- exec
exec() 方法也用于在字符串中查找指定正则表达式,如果 exec() 方法执行成功,则返回包含该查找字符串的相关信息数组,如果失败,则返回 null。
1 | var str = 'a bat , a Cat , a fAt ,a baT , a faT cat'; |
- 静态属性
| 属性 | 短名 | 含义 |
|---|---|---|
input |
$_ |
当前要匹配的字符串 |
lastMatch |
$& |
最后一次匹配字符串 |
lastParen |
$+ |
最后一次匹配的捕获组(圆括号内) |
leftContext |
$" |
lastMatch 前的子串 |
rightContext |
$" |
lastMatch 后的子串 |
multiline |
$* |
是否所有的表达式都使用多行模式,是一个布尔值 |
注:每一个静态属性都对应着一个短名。
1 | var str = 'this is a google!'; |
- 实例属性
| 属性 | 含义 |
|---|---|
global |
Boolean 值,表示 g 是否已设置 |
ignoreCase |
Boolean 值,表示i是否已设置 |
lastIndex |
整数,代表下次匹配将从哪里字符位置开始 |
Multiline |
Boolean 值,表示 m 是否已设置 |
Source |
正则表达式的源字符串形式 |
1 | var reg = /google/; |
字符串方法
字符串中支持正则表达式的方法有以下:
1 | * match() --- 匹配则放回数组,没有匹配则返回 null。 |
常用正则
1 | // 由字母数字下划线组成的字符串 |
1 | // 和谐字符 |
1 | // 删除首尾空格 |
1 | // 过滤 HTML 标签 |
注:也可写为 /<(?:[\s\S])*?>/g 或 /<(?:\S|\s)*?>/g,[\s\S]、(\S|\s) 表示所有字符。
1 | // trim |
1 | // 插入千分符 |
1 | // 00:00--23:59 |
1 | // 首字母大写 |
1 | // 字符串内部倒置 |
1 | // 连续英文单词去重 |
附:正则表达式语法,正则表达式快速学习指南,regex101 正则表达式在线测试工具。