原生js进阶教程 - 12. 正则捕获、正则捕获细节、正则简单应用 - 《原生 JavaScript 教程》

正则捕获、正则捕获细节、正则简单应用

正则捕获、正则捕获细节、正则简单应用

一、方括号的细节问题

[] 正则中的方括号：表示方括号中的元字符中的任意一个

特殊元字符：在正则中有特殊含义的字符串如 . ，在正则中表示匹配除 \n 之外的任意其他字符，原义是小数点

1. 在方括号中的部分特殊元字符代表的是该字符的原义，不再具有特殊含义

如： [.] [?] [*] [+]

let reg = /./;
let reg1 = /[.]/; // 方括号中的 . 表示普通小数点
console.log(reg.test('abc')); // true
console.log(reg.test('.')); // true
console.log(reg1.test('abc')); // false
console.log(reg1.test('.')); // true

let reg2 = /[?]/; // 方括号中的 ? 表示问号，不是两次元字符
console.log(reg2.test('?'));
let reg3 = /[*]/; // 方括号中的 * 表示星号，不是量词源字符串
console.log(reg.test('*')); // true
let reg4 = /[+]/; // 方括号中的 + 表示加号，不是量词元字符
console.log(reg4.test('+')); // true

2. 方括号不能识别多位数

let reg5x = /^183$/; // 只能匹配 183
let reg5 = /^[183]$/; // 代表 1 或者 8 或者 3 中的任意一个数字
console.log(reg5.test('1')); // true
console.log(reg5.test('8')); // true
console.log(reg5.test('3')); // true
console.log(reg5.test('18')); // false
console.log(reg5.test('13')); // false
console.log(reg5.test('183')); // false

中括号限制范围 [0-9] [a-z] [A-Z]

let reg6 = /^[23-68]$/; // 这个正则表示匹配 2 或 3-6 或 8
console.log(reg6.test('23')); // false
console.log(reg6.test('34')); // false
console.log(reg6.test('67')); // false
console.log(reg6.test('2')); // true
console.log(reg6.test('4')); // true
console.log(reg6.test('9')); // false

? 思考：为什么会有这种情况？因为中括号中连续出现的多位数不是表示一个多位数，而是表示多个一位数字；

? 思考：此时真的需要一个数字范围的话怎么办？

我们可以把这个范围拆分，如 23-68，然后再两位数分别表示这些段 23 - 29 2[3-9] 30-59 [3-5][0-9] 60-68 6[0-8]

let reg7 = /^(2[3-9]|[3-5]\d|6[0-8])$/;
console.log(reg7.test('22')); // false
console.log(reg7.test('23')); // true
console.log(reg7.test('34')); // true
console.log(reg7.test('67')); // true
console.log(reg7.test('2')); // false
console.log(reg7.test('4')); // false
console.log(reg7.test('9')); // false

二、正则捕获

正则的捕获：把正则匹配到内容捕获到：

RegExp.prototype.exec() 方法

let str = 'hello2019 zhufeng2019 zhufeng9021';
let reg = /zhufeng\d+/;
let execs = reg.exec(str);
console.log(execs);
/*
* [
*   "zhufeng2019", 捕获到的内容
*   index: 10, 捕获的起始索引位置
*   input: "hello2019 zhufeng2019 zhufeng9021", 原始字符串
*   groups: undefined 命名匹配
* ]
*
* */
let reg2 = /xxxx/;
console.log(reg2.exec(str)); // null
// 如果捕获不到不到会返回null

正则捕获的懒惰性

console.log(reg.exec(str)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg.exec(str)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]

正则的懒惰性

如果不做特殊处理，正则每次捕获的时候都是从索引 0 开始，捕获到第一个符合条件的就停止捕获，后面有多少都不去捕获。
// 解决方案：在正则后加修饰符 g

let reg3 = /zhufeng\d+/g;
console.log(reg3.exec(str)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg3.exec(str)); // ["zhufeng9021", index: 22, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg3.exec(str)); // null
console.log(reg3.exec(str)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg3.exec(str)); // ["zhufeng9021", index: 22, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg3.exec(str)); // null

? 为啥捕获到最后一次会是 null 呢？

lastIndex属性

正则对象有一个 lastIndex 的属性，记录着下一次匹配或者捕获的起始位置，下一次再匹配或者捕获，它会从这个索引位置开始往后查找。

上面之所以是最后一次，是因为最后一次从索引 33 开始查找，后面没有了，所以会返回 null

console.log(reg3.exec(str)); // ["zhufeng2019", index: 10,....]
console.log(reg3.lastIndex); // 21
console.log(reg3.exec(str)); // ["zhufeng9102", index: 22, ....]
console.log(reg3.lastIndex); // 33
console.log(reg3.exec(str)); // null
console.log(reg3.exec(str)); // ["zhufeng2019", index: 10,....]

lastIndex 属性记录着下一次匹配的开始位置。当匹配或者捕获到达末尾后，下一次再匹配或者捕获会从头再来；

let str2 = 'hello zhufeng2019 zhufeng9201';
let reg5 = /zhufeng\d+/g;
console.log(reg5.test(str2)); // true
console.log(reg5.lastIndex); // 17
console.log(reg5.test(str2)); // true
console.log(reg5.lastIndex); // 29
console.log(reg5.test(str2)); // false

使用匹配时，也是从 lastIndex 开始的位置去匹配；最后一次是false是因为从索引 29 向后查找时没有查找到符合规则的字符串，所以返回 false；

match 方法配合正则

String.prototype.match()

let mstr = str.match(reg5);
console.log(mstr); //  ["zhufeng2019", "zhufeng9021"]
let mstrs = str.match(/xxxx/); // null
// match 方法匹配不到是返回 null 而不是空数组

let reg6 = /zhufeng\d+/;
console.log(str.match(reg6)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(str.match(reg6)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]

match 使用的正则不加 g 时返回值和 exec 是一样的。但是如果有 g 时，match 方法会一次性把所有符合条件的都匹配到，而 exec 每次只能匹配到一个；

三、正则分组捕获

正则捕获：正则除了匹配还可以把符合条件的捕获到

let str = 'hello2019 zhufeng2019 zhufeng9021';
let reg = /zhufeng(\d+)/g; // () 是分组，相当于小正则
// 正则捕获方法：RegExp.prototype.exec() 方法
console.log(reg.exec(str));
//  ["zhufeng2019", "2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]
console.log(reg.exec(str)); // ["zhufeng9021", "9021", index: 22, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined]

捕获到的内容是一个数组，数组的第一项是大正则匹配到的内容，如果有分组的话从第二项开始就是分组正则捕获到的内容；所以捕获的内容返回值： [“大正则捕获到的”, “分组1捕获内容”, “分组2捕获内容”…..]
字符串的 match 方法，匹配符合规则的字符串，但是 match 方法不能进行分组匹配

console.log(str.match(reg)); // ["zhufeng2019", "zhufeng9021"]

取消分组：(?:) 表示当前小括号改变优先级，而不用作用分组捕获

let reg2 = /zhufeng(?:\d+)/;
console.log(reg2.exec(str)); // ["zhufeng2019", index: 10, input: "hello2019 zhufeng2019 zhufeng9021", groups: undefined] 取消分组捕获后，exec的返回值中不再包含分组捕获的内容

? 的作用

? 表示量词元字符出现0次到1次可以有可以没有
(?:) 取消分组捕获

四、小括号的细节问题

1. 分组捕获

let str = 'hello2019 zhufeng2019 zhufeng9021';
let reg = /zhufeng(\d+)/g; // () 是分组，相当于小正则
console.log(reg.exec(str)); // 使用 exec 方法符合条件的字符串捕获到

2. 分组引用 \数字表示引用前面分组某个分组的内容

let reg2 = /^(\d)\1$/; // 匹配一个数字，个位数和十位数相同; \1 表示引用第一个分组中的内容
console.log(reg2.test('11'));
console.log(reg2.test('99'));
console.log(reg2.test('12'));

练习：写一个正则匹配四个字母的单词，其中第二个和第四个字母相同；

let reg3 = /[a-z]([a-z])[a-z]\1/;
console.log(reg3.test('tara'));

3. 改变优先级

// 写一个正则匹配 18 或者 19
let reg4 = /^18|19$/;
console.log(reg4.test('18')); // true
console.log(reg4.test('19')); // true
console.log(reg4.test('189')); // true
console.log(reg4.test('1819')); // true
console.log(reg4.test('181223419')); // true

? 思考：为什么会这样？因为这个正则不是被识别成18或者19，而是识别成以18开头或者以19结尾；

let reg5 = /^(18|19)$/;
console.log(reg5.test('18')); // true
console.log(reg5.test('19')); // true
console.log(reg5.test('189')); // false
console.log(reg5.test('1819')); // false
console.log(reg5.test('181223419')); // false

五、正则捕获的贪婪性

正则捕获的贪婪性：如果正则匹配到符合规则的字符串，那么捕获的时候会按照最长的捕获；

let str = '12345678'
let reg = /\d{2,8}/g;
let reg2 = /\d+/;
let reg3= /\d*/;
console.log(reg.exec(str)); // ["12345678", index: 0, input: "12345678", groups: undefined]
console.log(reg2.exec(str)); // ["12345678", index: 0, input: "12345678", groups: undefined]
console.log(reg3.exec(str)); // ["12345678", index: 0, input: "12345678", groups: undefined]

如何解决贪婪性？
在量词元字符后面增加 ? 增加问号后会按照最少的匹配

let reg4 = /\d{2,8}?/g;
let reg5 = /\d+?/;
let reg6= /\d*?/;
console.log(reg4.exec(str)); // ["12", index: 0, input: "12345678", groups: undefined]
console.log(reg5.exec(str)); // ["1", index: 0, input: "12345678", groups: undefined]
console.log(reg6.exec(str)); // ["", index: 0, input: "12345678", groups: undefined]

六、正则简单应用

1. 验证中国大陆手机号以1开头的11位数字

let reg1 = /^1\d{10}$/;
console.log(reg1.test('16601046931')); // true

2. 验证某些号段的手机号验证，例如188 170 156

let reg2 = /^1(88|70|56)\d{8}$/;
console.log(reg2.test('18801046931')); // true

3. 匹配尾号是连续的三位豹子号 666 777 111

let reg3 = /^1\d{7}(\d)(\1{2})$/;
console.log(reg3.test('15912345666')); // true

4. 靓号中间四位相同后面四位相同

let reg5 = /^1\d{2}(\d)\1{3}(\d)\2{3}$/;
console.log(reg5.test('17733332222'));

5. 有效数字验证：

10 +10 -10 0.12 10.02

+或-最多出现一次
如果是一位数字可以是0-9
多位数不能以0开头
如果有小数点，后面必须跟至少一位小数

let reg6 = /^[+-]?(\d|[1-9]\d+)(\.\d+)?$/;

5. 验证数字在某个范围内 18 - 60

18 - 19 1[89]|
20-59 2[0-9]
60 60

let reg7 = /^(1[89]|[2-5]\d|60)$/;
console.log(reg7.test('17')); // true
console.log(reg7.test('18')); // true
console.log(reg7.test('19')); // true
console.log(reg7.test('59')); // true
console.log(reg7.test('60')); // true
console.log(reg7.test('61')); // false

6. 匹配中文姓名

中文的 Unicode 编码范围 \u4e00-\u9fa5
出现 2 位到 6 位

let reg8 = /^[\u4d00-\u9fa5]{2,6}$/;
console.log(reg8.test('马宾')); // true

6. 邮箱验证(简单验证)

雅虎邮箱：xxx@yahoo.com.cn
google xxx@gmain.com
qq邮箱 xxx@qq.com
网易 xxx@163.com
网易 xxx@126.com
开头部分 [a-zA-Z\d]+
中间部分 [-\w]+
结尾部分 [a-zA-Z\d]

let reg9 = /^[a-zA-Z\d]+@[a-zA-Z\d]+(\.[a-z]+){1,2}$/;
console.log(reg9.test('mabinbingo@163.com')); // true
console.log(reg9.test('mabinbingo@163@.com')); // false
console.log(reg9.test('1164664451@qq.com')); // true
console.log(reg9.test('1164664451@sina.com.cn')); // true
console.log(reg9.test('1164664451@sina.com.cn.cn')); // false

7. 数据类型检测

Object.isTypeOf = function (val) {
    let res = Object.prototype.toString.call(val); // "[object Xxxx]"
    let reg = /^\[object ([a-zA-Z]+)\]$/; // 在正则使用某些特殊元字符的原义时需要转义
    let exec = reg.exec(res)[1];
    return exec.toLowerCase();
};
console.log(Object.isTypeOf(1));

七、正向预查和负向预查

正向预查：(?=元字符) 不发生分组捕获
负向预查: (?!元字符) 不发生分组捕获

正向预查：/x(?=y)/ 匹配x，仅当x后面紧跟着y（匹配后面跟着y的x）；

let reg1 = /[a-z](?=3|4)/g;
let str1 = 'a1 b2 c3 d4';
console.log(str1.match(reg1)); // ["c", "d"]

负向预查：/x(?!y)/ 匹配x，仅当x后面不是y（匹配后面不是y的x）；

let reg2 = /[a-z](?!3|4)/g;
console.log(str1.match(reg2));

12. 正则捕获、正则捕获细节、正则简单应用