Python学习之-正则表达式

news/2024/5/9 23:51:12

目录

    • 前言:
    • 1.re.serach
      • 1.1例子:
    • 2.re.match
      • 2.1示例1:
      • 2.2 示例2:
    • 3.re.findall
      • 3.1 示例
    • 4.re.fullmatch
      • 4.1 示例1:
      • 4.2 示例2:
    • 5.re.split
      • 5.1 示例1:
      • 5.2 示例2:
      • 5.3 示例3:
    • 6.re.sub
      • 6.1 示例:
    • 7.re.compile
      • 7.1 示例:
    • 8 总结

前言:

在python中使用的是re模块对正则表达式提供支持,下面我来讲解一些日常中比较常用的几种正则表达式的方法,希望对各位日常的工作中有帮助。

常见的正则表达式的操作:
\d
匹配任何十进制数字,相当于[0-9]。

示例:\d+ 匹配一个或多个连续的数字。

\D
匹配任何非数字字符,相当于[^0-9]。

\w
匹配任何字母数字字符,包括下划线,相当于[A-Za-z0-9_]。

示例:\w+ 匹配一个或多个字母数字字符或下划线。

\W
匹配任何非字母数字字符,不包括下划线,相当于[^A-Za-z0-9_]。

\s
匹配任何空白字符,包括空格、制表符、换页符等,相当于[ \t\n\r\f\v]。

\S
匹配任何非空白字符,相当于[^ \t\n\r\f\v]。

. (点)
匹配除换行符以外的任何单个字符。

[…]
匹配方括号内的任何单个字符。例如,[abc] 会匹配"a"、“b"或"c”。

[^…]
匹配不在方括号内的任何单个字符。例如,[^abc] 会匹配任何不是"a"、"b"或"c"的字符。

| (竖线)
A|B可以匹配A或B,所以(P|p)ython可以匹配"Python"或"python"。

^
匹配字符串的开始。在多行模式中,它还可以匹配每一行的开头。

$
匹配字符串的结尾。在多行模式中,它还可以匹配每一行的结尾。
*

匹配前面的子表达式零次或多次。例如,bo* 可以匹配 “b”、“bo” 或 “booo”。
+
匹配前面的子表达式一次或多次。例如,bo+ 可以匹配 “bo” 或 “booo”,但不会匹配 “b”。

?
匹配前面的子表达式零次或一次。例如,bo? 可以匹配 “b” 或 “bo”。

{n}
精确匹配 n 次前面的子表达式。例如,o{2} 不能匹配 “Bob” 中的 “o”,但能匹配 “food” 中的两个 o。

{n,}
匹配前面的子表达式至少 n 次。

{n,m}
匹配前面的子表达式至少 n 次,但不超过 m 次。
有需要详细了解的可以看re的官方文档:
re正则表达式操作

1.re.serach

该方法会根据传入的正则去扫描整个字符串,若能找到对应的子字符串,则返回该Match对象,否则返回None。这里返回的Match对象保存的是从左到右匹配到的第一个子字符串的信息。

re.search(pattern, string, flags=0)

1.1例子:

import re
result = re.search(r'\d+', 'abc123def')
if result:print(result.group())  # 输出: 123

在这里插入图片描述
注意:下图显示 re.serach 这里他只会匹配从左到右第一个连续的数字,第二个不会匹配到
在这里插入图片描述

2.re.match

这个方法从字符串的开始处进行匹配,如果匹配成功,返回一个匹配对象;失败则返回None。

re.match(pattern, string, flags=0)

pattern 表示传进来的正则表达式
string 表示被匹配的字符串
flags 正则表达式匹配的模式

2.1示例1:

import re
result = re.match(r'\d+', '123abc')
if result:print(result.group())  # 输出: 123

在这里插入图片描述

2.2 示例2:

import re
result = re.match(r'\d+', 'abc123')
print(result)
if result:print(result.group())  # 输出: None

在这里插入图片描述

Match对象是一个包含关于搜索和结果的信息的特殊类型的对象。为了获取实际匹配的字符串,你需要调用Match对象的.group()方法。.group()方法返回模式匹配的子串。
Match对象的.group()方法可以接受一个或多个参数(称为group numbers)。如果没有提供参数,.group()方法默认返回第0组,即整个匹配的字符串。

示例:

import repattern = r"(\d+).(\d+)"
match = re.match(pattern, "123.456")if match:# 获取整个匹配的字符串print(match.group())  # 输出: "123.456"# 获取第一个括号内匹配的分组(组1)print(match.group(1))  # 输出: "123"# 获取第二个括号内匹配的分组(组2)print(match.group(2))  # 输出: "456"

在这里插入图片描述
在上面的例子中,我们使用了两组括号来创建两个分组:
(\d+) 第一个分组匹配一个或多个数字。
(\d+) 第二个分组再次匹配一个或多个数字。
当我们调用.group()方法时:
.group() 或 .group(0) 返回整个匹配的字符串,即"123.456"。
.group(1) 返回第一个分组匹配的字符串,即"123"。
.group(2) 返回第二个分组匹配的字符串,即"456"。

3.re.findall

找到字符串中所有非重叠匹配的列表。意思就是
pattern 没有捕获组的话,该方法会返回所有匹配结果的list
pattern 包含一个或多个捕获组的话,list保存的结果是这些捕获组的匹配结果,且list里面的各项都是一个tuples

re.findall(pattern, string, flags=0)

3.1 示例

import re
result=re.findall(r"[a-z]+\d+","abc11kk22k34")
print(result) 
# 匹配一个或多个小写字母 [a-z]+ 后面跟一个或多个数字 \d+。
# 输出: ['abc11', 'kk22', 'k34'] 因为它匹配了连续的字母和数字的组合。
result=re.findall(r"[a-z]+(\d+)","abc11kk22k34")
print(result)
#这个模式类似于第一个,但是这次数字部分被括号 (\d+) 包围,这意味着使用括号的分组功能。
# 在 findall 方法中,当模式包含分组时,只有分组内的内容会被返回。
# 输出: ['11', '22', '34'] 这是因为只有分组中的数字被返回。result=re.findall(r"([a-z]+)(\d+)","abc11kk22k34")
print(result)
# 这个模式有两个分组 ([a-z]+) 和 (\d+),分别匹配一系列字母和数字。
# 由于有两个分组,findall 会返回包含每个分组匹配的元组列表。
# 输出: [('abc', '11'), ('kk', '22'), ('k', '34')] 每对括号内的匹配分别作为元组的元素。result=re.findall(r"([a-z]+)(\d+)()()()","abc11kk22k34")
print(result)
# 这个模式现在包含两个有效的分组 ([a-z]+) 和 (\d+),以及三个空的分组 ()()()。
# 空的分组不会捕获任何内容,但它们仍然作为结果的一部分出现。
# 输出: [('abc', '11', '', '', ''), ('kk', '22', '', '', ''), ('k', '34', '', '', '')] 
# 每个匹配现在都返回一个包含两个有效匹配和三个空字符串的元组。

在这里插入图片描述

4.re.fullmatch

该方法需要整个字符串跟正则完全匹配才会返回一个Match对象,否则返回None

4.1 示例1:

这里需要完全匹配字符串是数字

import re
result=re.fullmatch(r"\d+","123abc")
print(result)

在这里插入图片描述

4.2 示例2:

import re
result=re.fullmatch(r"\d+", "123")
print(result)
print(result.group())

在这里插入图片描述

5.re.split

re.split(pattern, string, maxsplit=0, flags=0

pattern: 这是用于分割字符串的正则表达式模式。字符串会在匹配这个模式的所有地方被分割。
string: 这是需要被分割的输入字符串。
maxsplit (可选): 这个参数指定了分割的最大次数。默认值为0,表示不限制分割次数,即分割可以在每次匹配到模式时发生。如果maxsplit被设置为一个正整数n,那么分割会在前n次匹配到模式之后停止,剩余的字符串会作为列表的最后一个元素返回。
flags (可选): 这个参数允许你指定正则表达式的一些额外选项,如忽略大小写(re.IGNORECASE)、多行模式(re.MULTILINE)等。默认值为0,表示没有特殊标志。
如果pattern没有捕获组的话,则按照正则分割后,返回一个list结果集;如果pattern里面包含捕获组的话,list结果集里面包含捕获组获取到的内容

5.1 示例1:

import re
result = re.split(r'\d+', 'abc123def456ghi')
print(result)  # 输出: ['abc', 'def', 'ghi']

在这里插入图片描述

5.2 示例2:

不带 maxsplit:

import reresult = re.split(r'\d+', 'one1two2three3four4')
print(result)

输出:
在这里插入图片描述

5.3 示例3:

带有 maxsplit:
import re

result = re.split(r’\d+', ‘one1two2three3four4’, maxsplit=2)
print(result)
输出:
在这里插入图片描述
在这个例子中,由于maxsplit被设置为2,所以分割只在前两次匹配到数字时发生,剩余的字符串(‘three3four4’)作为列表的最后一个元素返回。

6.re.sub

re.sub(pattern, repl, string, count=0, flags=0)

pattern: 一个字符串或者一个预编译的正则表达式对象(通过 re.compile 创建)。这是你想要在原始字符串中查找的正则表达式模式。
repl: 替换匹配项的字符串或者一个函数。如果是一个字符串,任何正则表达式中的分组引用(如 \1, \2 等)都会被匹配项中对应的分组替换。如果是一个函数,它应该接受一个匹配对象作为参数,并返回一个用来替换的字符串。
string: 要进行搜索和替换操作的原始字符串。
count (可选): 一个表示替换次数的整数,默认为0,表示替换所有匹配项。如果指定了这个参数,则最多替换 count 次匹配。
flags (可选): 正则表达式标志,例如 re.IGNORECASE、re.MULTILINE 等。这些标志用于修改正则表达式的行为。默认为0,表示没有标志被设置。
这个方法的作用是字符串替换,其中,rep1可以是字符串,也可以是一个方法。

6.1 示例:

import re# 替换所有数字为 #
result = re.sub(r'\d+', '#', "12 apples, 34 oranges, 56 bananas")
print(result)  # 输出: "# apples, # oranges, # bananas"# 使用函数来替换匹配项
def to_upper(match):return match.group().upper()result = re.sub(r'[a-z]+', to_upper, "hello world")
print(result)  # 输出: "HELLO WORLD"# 替换前两个匹配项
result = re.sub(r'\d+', '#', "12 apples, 34 oranges, 56 bananas", count=2)
print(result)  # 输出: "# apples, # oranges, 56 bananas"# 使用标志忽略大小写
result = re.sub(r'[a-z]+', 'X', "Hello World", flags=re.IGNORECASE)
print(result)  # 输出: "X X"

输出结果:
在这里插入图片描述

7.re.compile

编译正则,返回一个Pattern对象。 这样做的目的是可以重复使用该正则模式对象

pattern: 正则表达式字符串,即你希望编译的模式。
flags (可选): 正则表达式标志,可以改变正则表达式的行为。常见的标志包括:
re.IGNORECASE 或 re.I: 使匹配对大小写不敏感。
re.MULTILINE 或 re.M: 影响 ^ 和 $ 的行为。^ 匹配每一行的开始,$ 匹配每一行的结束,而不仅是整个字符串的开始和结束。
re.DOTALL 或 re.S: 使.(点)特殊字符匹配任何字符,包括换行符。
re.UNICODE 或 re.U: 根据Unicode字符属性数据库使 \w, \W, \b, \B, \d, \D, \s 和 \S 起作用。
re.ASCII 或 re.A: 使 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII字符。
re.LOCALE 或 re.L: 使 \w, \W, \b, \B, \s 和 \S 受当前区域设置的影响(不推荐使用,因为re.UNICODE通常是更好的选择)。
re.VERBOSE 或 re.X: 允许你通过忽略空白和添加注释来编写更易读的正则表达式。

7.1 示例:

import re# 编译一个正则表达式对象
pattern = re.compile(r'\d+', flags=re.IGNORECASE)# 使用编译后的对象进行匹配操作
match = pattern.match("123abc")if match:print(match.group())  # 输出: 123# 使用编译后的对象进行搜索操作
search = pattern.search("abc123def")if search:print(search.group())  # 输出: 123# 使用编译后的对象进行查找所有匹配项的操作
findall = pattern.findall("123abc456def")print(findall)  # 输出: ['123', '456']

输出
在这里插入图片描述

8 总结

re.search, re.match, 和 re.findall 是Python中用于正则表达式匹配的三个不同的函数,它们有着不同的用途和行为。下面是每个函数的作用、相似之处和不同之处:
re.search(pattern, string, flags=0)
作用: 在字符串中查找第一个匹配正则表达式pattern的位置。
返回: 如果找到匹配,返回一个Match对象;如果没有找到匹配,则返回None。
行为: re.search会扫描整个字符串,直到找到一个匹配项。
re.match(pattern, string, flags=0)
作用: 从字符串的开始处检查是否有匹配正则表达式pattern的内容。
返回: 如果字符串开始的字符匹配正则表达式,返回一个Match对象;如果不匹配或匹配不是在字符串的开始处,返回None。
行为: re.match仅在字符串的开始处进行匹配检查。
re.findall(pattern, string, flags=0)
作用: 查找字符串中所有匹配正则表达式pattern的非重叠匹配项。
返回: 返回一个列表,包含所有匹配项的字符串。如果正则表达式中包含了一个或多个捕获组,将返回一个元组列表。
行为: re.findall会扫描整个字符串,并返回所有匹配的完整列表。
相同点
它们都是re模块提供的函数,用于执行正则表达式匹配。
它们都可以接受flags参数,该参数可以改变正则表达式的行为(如忽略大小写等)。
它们都从左到右扫描字符串进行匹配。
不同点
re.match只在字符串的起始处检查匹配,而re.search在整个字符串中搜索第一个匹配项。
re.findall返回的是一个列表,包含所有的匹配项,而re.match和re.search返回的是Match对象。
如果正则表达式包含捕获组,re.match和re.search返回的Match对象可以通过.group()方法访问各个捕获组,而re.findall将直接返回一个包含捕获组内容的元组列表。


http://www.mrgr.cn/p/32625422

相关文章

房地产防飞单系统是什么

房地产防飞单系统是一种基于客户关系管理(CRM)的应用系统,旨在防止销售人员的客户资源流失和泄露,确保客户资源的安全和追踪跟进。该系统通过实现信息的精准掌握和资源的有效分配,为企业提供更稳定、更高效、更优质的业务服务。 具体而言,房地产防飞单系统具备以下功能:…

笔记本作为其他主机显示屏(HDMI采集器)

前言: 我打算打笔记本作为显示屏来用,连上工控机,这不是贼方便吗 操作: 一、必需品 HDMI采集器一个 可以去绿联买一个,便宜的就行,我的大概就长这样 win10下载 PotPlayer 软件 下载链接:h…

c# 窗体自适应

原文:https://blog.csdn.net/qq_57798018/article/details/127952468

淘宝详情数据采集(商品上货,数据分析,属性详情,价格监控),海量数据值得get

淘宝详情数据采集涉及多个环节,包括商品上货、数据分析、属性详情以及价格监控等。在采集这些数据时,尤其是面对海量数据时,需要采取有效的方法和技术来确保数据的准确性和完整性。以下是一些关于淘宝详情数据采集的建议: 请求示…

bpf,ebpf,libbpf,libbpf_bootstarp概念介绍(如何安装libbpf_bootstarp库),以及四者关系,ebpf程序执行流程(代码分层,具体如何编译,后续操作,关系总结)

目录 概念介绍 bpf ​编辑 ebpf eBPF 虚拟机 libbpf libbpf-bootstrap 如何安装 源码目录 ebpf, libbpf 和libbpf-bootstrap之间的关系 ebfp程序数据流程 介绍 代码 用户层函数 编译 查看 生成内核层的.o文件 第一模块 第二模块 第三模块 第四模块 第五…

项目绩效域

项目绩效域概述价值驱动的项目管理知识体系关注价值的实现,包含了项目管理原则、绩效域、项目生命周期、工程组、10大知识领域和价值交付系统。在整个生命周期中,项目管理者通过涵盖10大知识领域的项目管理工程组对项目进行管理,同时需要密切关注干系人、团队、开发方法和生…

Happus:给准备离职成为独立开发者的你 5 点建议

名字:Happus 开发者 / 团队:Regina Dan 平台:iOS, visionOS请简要介绍下这款产品 Happus 是你追寻幸福健康关系、甚至提高婚姻生活品质的贴心助手。无论是关系维系、情侣问答、聊天话题、趣味事实、生活窍门、休闲游戏,还是约会灵感,App 中的一切都希望让你们成为更加幸福…

电脑安装双系统windows和ubuntu server

1.创建Ubuntu-server的启动盘 首先要从官网下载Ubuntu-server18.04的ISO文件,用rufs烧录到U盘。如下所示 2. 磁盘分区 在windows创建两个盘(linuxboot 和linuxroot),后面一个一个用于boot,一个用于root. 3.开机U盘启…

macos下 jupyter服务安装和vscode链接密码设置 .ipynb文件

最近收到了一些后缀为.ipynb的文件, 这个文件就是使用jupyter编辑的,于是就需要安装一个jupyter服务, 对于最新版本的jupyter 网上很多的资料都已经过期了,这里以最新版本的jupyter为例。 jupyter lab安装 jupyter 这个工具包含…

介绍部署esxi8.0产品的方式

什么是esxi esxi的中文叫裸机虚拟机管理器 ESXi是由VMware公司开发的一种裸机虚拟机管理器,全称为VMware ESXi。 ESXi是一种虚拟化技术,专门设计用于在物理服务器上运行虚拟机,它的主要特点是能够最大限度地降低硬件配置要求并简化部署过程…

2017蓝桥杯省赛b组

2017蓝桥杯省赛b组#include<bits/stdc++.h> using namespace std; //用一个map,存放余数,和同余数的前缀和 typedef long long int ll; map<int,vector<ll>>p; int main(){ int n,k;//n个数, cin>>n>>k; ll cnt=0; ll sum=0;//前缀和 int a; …

计算机票.java

题目&#xff1a;机票价格按照淡季旺季&#xff0c;头等舱和经济舱收费&#xff0c;输入机票原价&#xff0c;月份&#xff0c;头等舱或经济舱 。按照如下规则计算机票价格&#xff1a;旺季&#xff08;5-10月&#xff09;头等舱九折&#xff0c;经济舱8.5折&#xff0c;淡季&a…

CF494C Helping People

\(CF494C\ \ Helping People\) 题目描述 给一个序列 \(a_1,a_2,a_3,\dots a_n\) 和 \(m\) 次操作,每次可将区间 \([a_i,b_i]\) 加上 \(1\) ,操作成功的概率是 \(p_i\) ,求最后序列中最大值的期望。对于两个区间 \([a,b],[c,d]\) ,保证 以下条件之一成立:这两个段完全不相交…

nexus 代理 yum 源

环境说明服务 ip 端口 备注nexus 192.168.80.129 (内网) 8081 内网地址无法访问外网nginx192.168.80.128 (内网) 192.168.174.126 (外网)19000 192.168.174.126 地址可以访问外网创建 Blob Stores创建 Repositoriesnginx 配置 server {listen 19000;server_name localho…

Digital Image processing (DIP)

Camera FOV: Filed of view DOV: deep of view 景深 被F f/D 衡量&#xff0c;f 是焦距&#xff0c;D 是光圈大小。 当确定好了景深后&#xff0c;如何光线较暗&#xff0c;则需要补光&#xff0c;或者适当延长曝光时间&#xff08;快门&#xff09; 分辨率、像素尺寸&…