五 正则匹配分组
示例1:|
需求:在列表中["apple", "banana", "orange", "pear"],匹配apple和pear
import re # 水果列表 fruit_list = ["apple", "banana", "orange", "pear"] # 遍历数据 for value in fruit_list: # | 匹配左右任意一个表达式 match_obj = re.match("apple|pear", value) if match_obj: print("%s是我想要的" % match_obj.group()) else: print("%s不是我要的" % value)
运行:
apple是我想要的
banana不是我要的
orange不是我要的
pear是我想要的
进程已结束,退出代码为 0
示例2:( )
需求1:匹配出163、126、qq等邮箱
import re match_obj = re.match("[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com", "hello@163.com") if match_obj: print(match_obj.group()) # 获取分组数据 print(match_obj.group(1)) else: print("匹配失败")
运行:
hello@163.com
163
进程已结束,退出代码为 0
需求2: 将 qq:10567这样的数据,提取出qq文字和qq号码
import re match_obj = re.match("(qq):([1-9]\d{4,10})", "qq:10567") if match_obj: print(match_obj.group()) # 分组:默认是1一个分组,多个分组从左到右依次加1 print(match_obj.group(1)) # 提取第二个分组数据 print(match_obj.group(2)) else: print("匹配失败")
运行:
qq:10567
qq
10567
进程已结束,退出代码为 0
示例3:\num
需求1:匹配出<html>hh</html>
import re match_obj = re.match("<[a-zA-Z1-6]+>.*</[a-zA-Z1-6]+>", "<html>hh</div>") if match_obj: print(match_obj.group()) else: print("匹配失败") match_obj = re.match("<([a-zA-Z1-6]+)>.*</\\1>", "<html>hh</html>") if match_obj: print(match_obj.group()) else: print("匹配失败")
运行:
<html>hh</div>
<html>hh</html>
进程已结束,退出代码为 0
需求2:匹配出<html><h1>www.itcast.cn</h1></html>
import re match_obj = re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.itcast.cn</h1></html>") if match_obj: print(match_obj.group()) else: print("匹配失败")
运行:
<html><h1>www.itcast.cn</h1></html>
进程已结束,退出代码为 0
示例4:(?P<name>)
(?P=name)
需求:匹配出<html><h1>www.itcast.cn</h1></html>
import re match_obj = re.match("<(?P<name1>[a-zA-Z1-6]+)><(?P<name2>[a-zA-Z1-6]+)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>") if match_obj: print(match_obj.group()) else: print("匹配失败")
运行:
<html><h1>www.itcast.cn</h1></html>
进程已结束,退出代码为 0
小结
| 表示匹配左右任意一个表达式
(ab) 表示将括号中字符作为一个分组
\num 表示引用分组num匹配到的字符串
(?P<name>) 表示分组起别名
(?P=name) 表示引用别名为name分组匹配到的字符串
(分组数据):分组数是从左到右的方式进行分配的,最左边的是第一个分组,依次类推
本文作者为BUG之神,转载请注明。