正则表达式
一、概念
用于规范字符串的表达式。
对字符串的作用有三:
- 验证字符串是否满足某种规则
- 从字符串中满足规则的部分提取出来
- 将字符串中满足规则的部分替换成新的部分
正则表达式,其实就是上述作用中提到的规则。
二、定义
规则的定义方式有两种:
var reg = /具体的规则/
var reg = new RegExp(规则字符串)
我们要学习的终点,就是具体规则的语法。
三、组成部分
具体规则的组成部分分为2部分:
- 字符:表示字符串组成部分的字符
- 普通字符:普通字符串中的字符
- 元字符:具有特殊含义的特殊字符
- 修饰符:修饰字符的规则
例:
var reg = /a{2}/ // 这个规则表示字符串中必须要有2个a字符
四、使用
1、验证字符串
正则表达式有独属于自己的使用方法,test方法是用来验证字符串是否满足某种规则的,使用语法:
reg.test(被验证的字符串)
test方法返回布尔值,表示字符串是否满足规则。
例:
var reg = /a{2}/
var str1 = 'abc'
var bool1 = reg.test(str1)
console.log(bool1) // false
var str2 = 'aabb'
var bool2 = reg.test(str2)
console.log(bool2) // true
字符串方法search也可以用来验证:
字符串.search(正则表达式)
search方法本质上是在从字符串中查找满足规则部分在字符串中的下标,找到就返回下标,找不到返回-1。
类似于字符串的indexOf方法,所以也可以用来验证字符串。例:
var reg = /a{2}/
var str1 = 'abc'
var index1 = str1.search(reg)
console.log(index1) // -1
var str2 = 'aabb'
var index2 = str2.search(str2)
console.log(index2) // 0
2、提取字符串
正则表达式.exec(字符串)
exec返回数组,数组的第一个元素是满足规则的部分。如果字符串中没有满足规则的,则返回null
例:
var reg = /a{2}/
var str1 = 'abaacc'
var arr1 = reg.exec(str1)
console.log(arr1) // ['aa']
var str2 = 'abcde'
var arr2 = reg.exec(str2)
console.log(arr2) // null
字符串方法match也可以用来提取字符串中满足规则的部分:
字符串.match(正则表达式)
返回值跟exec一样。
例:
var reg = /a{2}/
var str1 = 'abaacc'
var arr1 = str1.match(reg)
console.log(arr1) // ['aa']
var str2 = 'abcde'
var arr2 = str2.match(reg)
console.log(arr2) // null
3、替换字符串
替换字符串只有字符串的replace方法可以实现,replace方法可以将满足规则的部分替换成新的部分:
字符串.replace(正则表达式, 新的部分)
返回替换后的字符串。例:
var str = 'abaac'
var reg = /a{2}/
var str1 = str.replace(reg, '66')
console.log(str1) // 'ab66c'
五、元字符
元字符 |
说明 |
\d |
匹配任意一个数字 |
\D |
匹配任意一个非数字的字符 |
\w |
匹配一个字母或数字或下划线 |
\W |
匹配任意一个不非字母,数字,下划线 |
\s |
匹配一个空格 |
\S |
匹配任意一个非空格字符 |
. |
匹配除换行符以外的任意一个字符 |
\b |
匹配字符串中边缘(换行和空格) |
[] |
匹配[]中的任意一个字符 |
例:
// \d
var reg = /\d/
var str1 = 'abcd'
var arr1 = reg.exec(str1)
console.log(arr1) // null
var str2 = 'a3bc'
var arr2 = reg.exec(str2)
console.log(arr2) // ['3']
// \w
var reg = /\w/
var str1 = 'abcd'
var arr1 = reg.exec(str1)
console.log(arr1) // ['a']
var str2 = '3bc'
var arr 2 = reg.exec(str2)
console.log(arr2) // ['3']
var str3 = '_bc'
var arr3 = reg.exec(str3)
console.log(arr3) // ['_']
// \s
var reg = /\s/
var str1 = 'abcd'
var bool1 = reg.test(str1)
console.log(bool1) // false
var str2 = 'a bc'
var bool2 = reg.test(str2)
console.log(bool2) // true
// \b
var reg = /b\b/
var str1 = 'abcd'
var bool1 = reg.test(str1)
console.log(bool1) // false
var str2 = 'ab c'
var bool2 = reg.test(str2)
console.log(bool2) // true
// []
var reg = /[abc]/ // 可以简写成[a-c]
var str1 = 'add'
var bool1 = reg.test(str1)
console.log(bool1) // true
var reg = /[abc]/
var str2 = 'bdd'
var bool2 = reg.test(str2)
console.log(bool2) // true
var reg = /[abc]/
var str3 = 'cdd'
var bool3 = reg.test(str3)
console.log(bool3) // true
六、修饰符
限定符 |
说明 |
* |
重复零次或更多次 |
+ |
重复一次或更多次 |
? |
重复零次或一次 |
{n} |
重复n次 |
{n,} |
重复n次或更多次 |
{n,m} |
重复n到m次 |
^ |
通常放在开头,表示字符串必须以他后面的字符开头 |
$ |
通常放结尾,表示字符串必须以他前面的字符结尾 |
例:
// *
var reg = /\d*/
var str1 = 'abc'
var bool1 = reg.test(str1)
console.log(bool1) // true
var str2 = 'a5bc'
var bool2 = reg.test(str2)
console.log(bool2) // true
// +
var reg = /\d+/
var str1 = 'abc'
var arr1 = reg.exec(str1)
console.log(arr1) // null
var str2 = 'a5bc'
var arr2 = reg.test(str2)
console.log(arr2) // ['5']
var str2 = 'a5678bc'
var arr3 = reg.test(str2)
console.log(arr3) // ['5678']
// ?
var reg = /\d?/
var str1 = 'abc'
var bool1 = reg.test(str1)
console.log(bool1) // true
var str2 = '8abc'
var bool2 = reg.test(str2)
console.log(bool2) // true
// {}
var reg = /\d{2}/
var str1 = 'abc'
var arr1 = reg.exec(str1)
console.log(arr1) // null
var str2 = 'a5bc'
var arr2 = reg.test(str2)
console.log(arr2) // null
var str2 = 'a5678bc'
var arr3 = reg.test(str2)
console.log(arr3) // ['56']
var reg = /\d{2,}/
var str1 = 'a5678bc'
var arr1 = reg.test(str1)
console.log(arr1) // ['5678']
var reg = /\d{2,4}/
var str1 = 'a56789bc'
var arr1 = reg.test(str1)
console.log(arr1) // ['5678']
// ^
var reg = /^\d\w+/
var str1 = 'a9bc'
var bool1 = reg.test(str1)
console.log(bool1) // false
var str2 = '8abc'
var bool2 = reg.test(str2)
console.log(bool2) // true
// $
var reg = /\w+\d$/
var str1 = 'a9bc'
var bool1 = reg.test(str1)
console.log(bool1) // false
var str2 = 'abc8'
var bool2 = reg.test(str2)
console.log(bool2) // true
七、模式修正符
模式修正符是用来修饰整个正则表达式的,当我们对字符串进行提取和替换的时候,默认是值匹配一次、区分大小写、只匹配第一行的,模式修正符可以让我们在匹配的时候开启贪婪模式、忽略大小写、多行匹配。模式修正符在使用的时候需要放在正则表达式的两个斜杠后面:
var reg = /具体规则/模式修正符
模式修正符如下:
符号 |
含义 |
g |
开启贪婪模式 |
i |
忽略大小写 |
m |
多行匹配。本来一个字符串只有一个开头和结尾,如果字符串中间有换行,就可以让一个行有一个开头和结尾了。 |
例:
// 默认的不贪婪
var reg = /\d/
var str = 'a1b2c3def'
var arr = str.match(reg)
console.log(arr); // ['1', index: 1, input: 'a1b2c3def', groups: undefined]
// 开启贪婪模式后
var reg = /\d/g
var str = 'a1b2c3def'
var arr = str.match(reg)
console.log(arr);// ['1', '2', '3']
// 默认的区分大小写
var str = 'i love Html and HTML is very good'
var reg = /html/
str = str.replace(reg, 'js')
console.log(str); // 'i love Html and HTML is very good'
// 忽略大小写
var str = 'i love Html and HTML is very good'
var reg = /html/i
str = str.replace(reg, 'js')
console.log(str); // 'i love js and HTML is very good'
// 一起使用
var str = 'i love Html and HTML is very good'
var reg = /html/gi
str = str.replace(reg, 'js')
console.log(str); // 'i love js and js is very good'
// 整个字符串只有一个开头和结尾
var str = `
a666b
a888b
`
var reg = /^a\d+b$/
var arr = str.match(reg)
console.log(arr) // null
// 让一个字符串能有多个开头和结尾
var reg = /^a\d+b$/m
var arr = str.match(reg)
console.log(arr) // ['a666b']
// 一起使用
var reg = /^a\d+b$/mg
var arr = str.match(reg)
console.log(arr) // ['a666b', 'a888b']
八、其他符号
符号 |
意义 |
[^] |
匹配除中括号中内容以外的字符 |
\ |
转义符,将特殊含义的字符的特殊含义去掉 |
() |
从两个直接量中选择一个,分组。例:gr(a|e)y匹配gray和grey |
[\u4e00-\u9fa5] |
匹配任意一个中文汉字 |
| |
或者 |
例:
网易邮箱的规则:
规则:由字母开头,数字字母下划线组成,共6~18位,后面是@163.com
或@126.com
或@yeah.net
var reg = /^[a-zA-Z]\w{5,17}@126或163\.com$/
表示或者使用:|
,应该写成下面的形式:
var reg = /^[a-zA-Z]\w{5,17}@126|163\.com$/
|
加上后有歧义,所以,我们需要将或者表示的一部分单独列出来,使用()
,表示独立的范围:
var reg = /^[a-zA-Z]\w{5,17}@(126|163)\.com$/
还应该包含@yeah.net
,也需要做或者:
var reg = /^[a-zA-Z]\w{5,17}@((126|163)\.com|yeah\.net)$/
提取字符串中所有的中文姓名:
var str = "张三:1000,李四:50000,王五:800。";
var reg = /[\u4e00-\u9fa5]+/g
var arr = str.match(reg)
console.log(arr); // ['张三', '李四', '王五']
匹配任意一个中文汉字,使用[\u4e00-\u9fa5]
表示。
提取字符串中除了a
字符和b
字符以外的所有字符
var str = 'abcd123456@#$%fasdioaefgaijhaaaa'
var reg = /[^ab]/g // 除了字符a和字符b
var arr = str.match(reg)
console.log(arr);
排除某些字符,利用[]
中的^
表示,[^字符]
表示除了[]
中字符的任意一个字符。
八、案例
手机号的正则
规则:由1开头,第二位数字:3456789,剩下的9个数字,是任意数字,共11位
var reg = /^1[3-9]\d{9}$/
qq号的正则
规则:由1-9开头,剩下的是4-9个任意数字,总长度5~10位
var reg = /^[1-9]\d{4,9}$/
qq邮箱的正则
规则:在qq好的基础上,添加@qq.com
var reg = /^[1-9]\d{4,9}@qq.com$/
上述正则表达式中的.
是有特殊含义的,就需要将.
的特殊含义去掉,变成普通字符.
,进行转义
var reg = /^[1-9]\d{4,9}@qq\.com$/
邮箱(qq邮箱和网易)的正则
规则:qq邮箱或网易邮箱
var reg = /(^[1-9]\d{4,9}@qq\.com$)|(^[a-zA-Z]\w{5,17}@((126|163)\.com|yeah\.net)$)/
提取字符串中所有的工资
var str = "张三:1000,李四:50000,王五:800。";
var reg = /\d+/g
var arr = str.match(reg)
console.log(arr); // ['1000', '50000', '800']
引用替换
var str = '10月27日2022年' // 转成2022年10月27日
var reg = /(\d+月\d+日)(\d+年)/ // 表示上面整个字符串的规则
// 字符串替换
var newStr = str.replace(reg, '$2$1')
console.log(newStr); // 2022年10月27日
var str = '10月27日2022年' // 转成 2022-10-27
var reg = /(\d+)月(\d+)日(\d+)年/
var newStr = str.replace(reg, '$3-$1-$2')
console.log(newStr); // 2022-10-27