freeBuf
主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

正则表达式与在Python中使用正则表达式(原创)
2021-02-25 18:41:31

正则表达式

正则表达式的作用和使用

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。

正则表达式可以用来检索、替换那些符合某个模式(规则)的文本;可以通过一些设定的规则来匹配一些字符串,是一个强大的字符串匹配工具。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

所以我们判断一个字符串是否是合法的Email的方法是:

1.创建一个匹配Email的正则表达式;

5.用该正则表达式去匹配用户的输入来判断是否合法。

!常用操作符

操作符说明实例
.表示任何单个字符
[]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z单个字符
[^]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符
*前一个字符0次或无限次扩展abc*表示 ab、abc、abcc、abccc等
+前一个字符1次或无限次扩展abc+ 表示 abc、abcc、abccc等
?前一个字符0次或1次扩展abc? 表示 ab、abc
|左右表达式任意一个abc|def 表示 abc、def
{m}扩展前一个字符m次ab{2}c表示abbc
{m,n}扩展前一个字符m至n次(含n)ab{1,2}c表示abc、abbc
^匹配字符串开头^abc表示abc且在一个字符串的开头
$匹配字符串结尾abc$表示abc且在一个字符串的结尾
( )分组标记,内部只能使用|操作符(abc)表示abc,(abc|def)表示abc、def
\d匹配一个数字字符,等价于[0-9]
\D匹配一个非数字字符。等价于[^0-9]。
\w匹配包括下划线的任何单词字符,等价于[A-Za-z0-9_]
\W匹配任何非单词字符。等价于[^A-Za-z0-9_]

!正则表达式经典实例

表达式说明
^[A-Za-z]+$由26个字母组成的字符串
^[A-Za-z0-9]+$由26个字母和数字组成的字符串
^-?\d+$整数形式的字符串
^[0-9]*[1-9][0-9]*$正整数形式的字符串
[1-9]\d{5}中国境内邮政编码,6位
[\u4e00-\u9fa5]匹配中文字符
>>> z = re.search(r'[\u4e00-\u9fa5]', 'zjs郑')
>>> z
结果:<re.Match object; span=(3, 4), match='郑'>
>>> z.group()
结果:'郑'
>>> z.string
结果:'zjs郑'

\u4e00-\u9fa5是用来判断是不是中文的一个条件,采用的是unicode编码。
中文的unicode的中文编码表中,第一个“4e00”,最后一行从“9fa0”,有5个,故为“9fa5”。

正则表达式的方法

1、因为正则表达式也是用字符串表示的,所以,我们要首先了解如何用字符来描述字符。

在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,所以:

'00\d'可以匹配'007',但无法匹配'00A'

'\d\d\d'可以匹配'010'

'\w\w\d'可以匹配'py3'

.可以匹配任意字符,所以:

'py.'可以匹配'pyc''pyo''py!'等等。

2、要匹配变长的字符,在正则表达式中,用*表示匹配前面的任意个字符(包括0个),例如,zo*能匹配“z”以及“zoo”, 这里表示匹配0个o,或者多个o。用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符:

来看一个复杂的例子:\d{3}\s+\d{3,8}

我们来从左到右解读一下:

1.\d{3}表示匹配3个数字,例如'010'

2.\s可以匹配一个空格(也包括Tab等空白符),所以\s+表示至少有一个空格,例如匹配' '' '等;

3.\d{3,8}表示3-8个数字,例如'1234567'

综合起来,上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

如果要匹配'010-12345'这样的号码呢?由于'-'是特殊字符,在正则表达式中,要用'\'转义,所以,上面的正则是\d{3}\-\d{3,8}

但是,仍然无法匹配'010 - 12345',因为带有空格。所以我们需要更复杂的匹配方式。

要做更精确地匹配,可以用[]表示范围,比如:

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线;

[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'a100''0_Z''Py3000'等等;

[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

^表示行的开头,^\d表示必须以数字开头。

$表示行的结束,\d$表示必须以数字结束。

你可能注意到了,py也可以匹配'python',但是加上^py$就变成了整行匹配,就只能匹配'py'了。

分组

除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。比如:

^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

如果正则表达式中定义了组,就可以在match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串,group(1)group(2)……表示第1、2、……个子串。

提取子串非常有用。来看一个更凶残的例子:

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

这个正则表达式可以直接识别合法的时间。但是有些时候,用正则表达式也无法做到完全验证,比如识别日期:

'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'

对于'2-30''4-31'这样的非法日期,用正则还是识别不了,或者说写出来非常困难,这时就需要程序配合识别了。

!贪婪匹配

最后需要特别指出的是,正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。举例如下,匹配出数字后面的0

import re
print(re.match(r'^(\d+)(0*)$', '102300').groups())
结果:('102300', '')

由于\d+采用贪婪匹配,直接把后面的0全部匹配了,结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配(也就是尽可能少匹配),才能把后面的0匹配出来,加个?就可以让\d+采用非贪婪匹配:

import re
print(re.match(r'^(\d+?)(0*)$', '102300').groups())
结果:('1023', '00')

在Python中使用正则表达式

re模块

有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意:

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成:
# 'ABC\-001'

因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了:

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变:
# 'ABC\-001'

先看看如何判断正则表达式是否匹配:

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<re.Match object; span=(0, 9), match='010-12345'>
>>>print(re.match(r'^\d{3}\-\d{3,8}$', '010 12345'))
结果:None
>>>print(re.match(r'^\d{3}\-\d{3,8}$','010-12'))
结果:None

match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')
例子:
test = input('用户输入的字符串:')
if re.match(r'^\d{3}\-\d{3,8}$', test):
    print('ok')
else:
    print('failed')
过程:用户输入的字符串:010-12345
结果:ok

re库的使用

raw string类型(原生字符串类型)

re库采用raw string类型表示正则表达式,表示为:r'text'

raw string是不包含对转义符再次转义的字符串

re库的另一种等价用法

函数式用法:一次性操作

>>> a = re.search(r'[1-9]\d{5}', 'ZZZ 100421')
>>> a
结果:<re.Match object; span=(4, 10), match='100421'>

↕↕↕↕↕

面向对象用法:编译后的多次操作

>>> pat = re.compile(r'[1-9]\d{5}')
>>> rst = pat.search('ZZZ 100421')
>>> rst
结果:<re.Match object; span=(4, 10), match='100421'>

Re库主要功能函数

1.re.search(pattern,string,flags=0)

在一个字符串中搜索匹配正则表达式的第一个位置返回match对象

>>> m = re.search(r'\d+','zzz123')
>>> m
结果:<re.Match object; span=(3, 6), match='123'>
>>> m.string
结果:'zzz123'

>>> m = re.match(r'\d+','zzz123')
>>> m
>>> m.string
结果:Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'string'

re.match与re.search的区别:
re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,而 re.search 匹配整个字符串,直到找到一个匹配。

pattern:正则表达式的字符串或原生字符串表示

string:待匹配字符串

flags:正则表达式使用时的控制标记
flags:
(1)re.I 全写(re.IGNORECASE)
表示使匹配时,忽略大小
(2)re.M 全写(re.MULTILINE)
多行匹配,影响 ^ 和 $的行为
(3)re.S 全写(re.DOTALL)
使点(.)匹配包括换行在内的所有字符
(4)re.X 全写(re.VERBOSE)
这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。
(5)除以上标志外还有re.L和re.U,但不常用
(6)可以通过使用运算符“|“来指定多个标志,表示同时生效。
如: re.I | re.M被设置成I和M标志

>>> content = 'My username is zeke999!'
>>> import re
>>> re.search(r'zeke\d{3}', content, re.I | re.M)
结果:<re.Match object; span=(15, 22), match='zeke999'>

2.re.findall(pattern,string,flags=0)

搜索字符串,以列表类型返回全部能匹配的子串

>>> z = re.findall(r'\d+','xixixi 123 wowowo 456')
>>> z
结果:['123', '456']

pattern,string,flags同re.search的

3.re.split(pattern, string, maxsplit=0, flags=0)

split 方法按照能够匹配的子串将字符串分割后返回列表,如果用户输入了一组标签,可以用正则表达式来把不规范的输入转化成正确的数组。

用正则表达式切分字符串比用固定的字符更灵活,请看正常的切分代码:

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

无法识别连续的空格,用正则表达式试试:

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

无论多少个空格都可以正常分割。加入,试试:

>>> re.split(r'[\s\,]+', 'a,b, c  d')
['a', 'b', 'c', 'd']

再加入;试试:

>>> re.split(r'[\s\,\;]+', 'a,b;; c  d')
['a', 'b', 'c', 'd']

单独:

>>> re.split('\W+', ' wowowo, xixixi.', 1)
结果:['', 'wowowo, xixixi.']
>>> re.split('\W+', ' wowowo, xixixi.')
结果:['', 'wowowo', 'xixixi', '']
>>> re.split('(\W+)', ' wowowo, xixixi.')
结果:['', ' ', 'wowowo', ', ', 'xixixi', '.', '']

前两个为必选参数,后两个为可选参数。

pattern,string,flags同re.search的

maxsplit: 最大分割数,剩余部分作为最后一个元素输出

4.re.finditer(pattern, string, flags=0)

和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

import re

z = re.finditer(r'\d+','xixixi 123 wowowo 456')
for match in z:
    print(match.group())
结果:
123
456

pattern,string,flags同re.search的

5.re.sub(pattern, repl, string, count=0, flags=0)

用于替换字符串中的匹配项

>>> temp = '20210224xixixi'
>>> z = re.sub(r'\D',"",temp)  #\D:匹配一个非数字字符。等价于[^0-9]。
>>> z
结果:'20210224'

前三个为必选参数,后两个为可选参数。

pattern,string,flags同re.search的

repl : 替换匹配字符串的字符串

count : 匹配的最大替换次数

# web安全 # python # python3 # 正则表达式 # Python基础
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
  • 0 文章数
  • 0 关注者
文章目录