Python实战之正则表达式

常用匹配规则

字符	作用
\w	匹配字母、数字、下划线
\W	匹配不是字母和数字以及下划线
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字
\D	匹配任意f非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，若存在换行，只匹配到换行前的结束字符
\z	匹配字符串结尾，同时能匹配换行符
\G	匹配到最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配除换行符之外的任意字符
[ … ]	匹配表示一组字符，例如[amk]匹配a、m、或者k
[^ … ]	匹配不在[]中的字符，例如[^abc]匹配除了abc之外的字符
*	匹配0或者多个表达式
+	匹配1或者多个表达式
?	匹配0或者1个前面的正则表达式定义的片段，非贪婪方式（是否存在）
{n}	精确匹配n个前面的表达式
{n,m}	匹配n到m次前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或者b
()	匹配括号内的表达式，也表示一个组

常用匹配方法

1.match()

在match（）方法中，第一个参数传入正则表达式，第二个参数传入要匹配的的内容。从打印结果中可以看出，输出了re_Match对象，该对象有两个方法，group（）方法可以输出匹配到的内容，span（）方法输出匹配的范围。

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(len(content))
print(result)
print(result.span())
print(result.group())

结果:

41

<re.Match object; span=(0, 25), match=‘Hello 123 4567 World_This’>

(0, 25)

Hello 123 4567 World_This

1.1匹配目标

如上我们用match（）方法得到匹配的内容，可以用（）将想要的字符提取出来，（）标记了一个子表达式的开始和结束位置，被标记的每个表达式会对应每一个分组，调用group（）方法传入分组的引索就能获取提前到的结果。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld',content)

print(len(content))
print(result)
print(result.span())
print(result.group(1))

结果：

40

<re.Match object; span=(0, 19), match=‘Hello 1234567 World’>

(0, 19)

123456

1.2通用匹配

.（点）可以匹配任意的字符，*（星）代表匹配前面字符的无限次，因为可以将其组合匹配任意的字符。

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo',content)

print(result)
print(result.span())
print(result.group())

结果：

<re.Match object; span=(0, 41), match=‘Hello 123 4567 World_This is a Regex Demo’>

(0, 41)

Hello 123 4567 World_This is a Regex Demo

1.3贪婪与非贪婪

贪婪：尽可能匹配多的内容

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)

print(result)
print(result.group(1))

结果：

<re.Match object; span=(0, 41), match=‘Hello 123 4567 World_This is a Regex Demo’>

7

非贪婪：尽可能匹配少的内容

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)

print(result)
print(result.group(1))

结果

<re.Match object; span=(0, 40), match=‘Hello 1234567 World_This is a Regex Demo’>

1234567

注意：

如果匹配的结果是字符串的结尾，.*?就有可能匹配不到任何内容，因为它会尽可能的匹配更加少的内容。

import re

content = 'Hello 1234567 World_This is a Regex/Demo'
result1 = re.match('^.*?Regex/(.*?)',content)
result2 = re.match('^.*?Regex/(.*)',content)
print('result1',result1.group(1))
print('result2',result2.group(1))

结果：

result1

result2 Demo

1.4修饰符

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）
re.M	多行匹配，影响^和$
re.S	使.(点)匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符，这个标志影响\w、\W、\b、\B
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

import re

content = '''Hello 1234567 World_Thisis
a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result.group(1))

结果：

1234567

1.5转义匹配

import re

content = '(百度)www.baidu.com'

result = re.match('\(百度\)www\.baidu\.com',content)
print(result)

结果：

<re.Match object; span=(0, 17), match=’(百度)www.baidu.com’

2.search()

2.1用search（）方法可以不用从头开始进行匹配：

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

result = re.search('Hello.*?(\d+).*?Demo ',content)
print(result.group(1))

结果：

1234567

2.2 提取歌手和歌名(此方法只返回匹配表达式的第一个内容)

import re

html ="""
<div id="song-list">
    <h2 class="title">经典老歌</h2>
    <p class="inrtoduction">
    经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-veiw="7">
            <a href="2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-veiw="5">
            <a href="6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>
"""
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result.group(1),result.group(2))

结果：

齐秦往事随风

3.findall()

此方法可以返回匹配正则表达式的所有内容：

import re

html ="""
<div id="song-list">
    <h2 class="title">经典老歌</h2>
    <p class="inrtoduction">
    经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-veiw="7">
            <a href="2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-veiw="5">
            <a href="6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>
"""
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

结果：

[(‘2.mp3’, ‘任贤齐’, ‘沧海一声笑’), (‘3.mp3’, ‘齐秦’, ‘往事随风’), (‘4.mp3’, ‘beyond’, ‘光辉岁月’), (‘5.mp3’, ‘陈慧琳’, ‘记事本’), (‘6.mp3’, ‘邓丽君’, ‘但愿人长久’)]

<class ‘list’>

(‘2.mp3’, ‘任贤齐’, ‘沧海一声笑’)

2.mp3 任贤齐沧海一声笑

(‘3.mp3’, ‘齐秦’, ‘往事随风’)

3.mp3 齐秦往事随风

(‘4.mp3’, ‘beyond’, ‘光辉岁月’)

4.mp3 beyond 光辉岁月

(‘5.mp3’, ‘陈慧琳’, ‘记事本’)

5.mp3 陈慧琳记事本

(‘6.mp3’, ‘邓丽君’, ‘但愿人长久’)

6.mp3 邓丽君但愿人长久

4.sub()

将第一个参数传入\d+来匹配所有的数字，第二个参数为替换的字符串（可以为空）

import re

content = '45jjjkfd8Jjfs99FDSjffs2f24fFF'
content = re.sub('\d+','sa',content)
print(content)

结果：

sajjjkfdsaJjfssaFDSjffssafsafFF

如果需要替换的字符是原字符串本身或者包含原字符串，需要加\1：

import re
content = 'Edeej stifn Hello 1233 WIE strings'
content = re.sub('(\d+)',r'\1 678',content)
print(content)

结果：

Edeej stifn Hello 1233 678 WIE strings

提取所有歌名方法1：

import re

html ="""
<div id="song-list">
    <h2 class="title">经典老歌</h2>
    <p class="inrtoduction">
    经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-veiw="7">
            <a href="2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-veiw="5">
            <a href="6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>
"""
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
for result in results:
    # print(result[0],result[1],result[2])
    print(result[1])

结果：

一路上有你

沧海一声笑

往事随风

光辉岁月

记事本

但愿人长久

提取所有歌名方法2：

import re

html ="""
<div id="song-list">
    <h2 class="title">经典老歌</h2>
    <p class="inrtoduction">
    经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-veiw="7">
            <a href="2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-veiw="5">
            <a href="6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>
"""
html = re.sub('<a.*?>|</a>','',html,re.S)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
for result in results:
    print(result.strip())