首頁 > 軟體

Python進階篇之正規表示式常用語法總結

2022-08-02 18:04:42

正規表示式概述

正規表示式是一個特殊的字元序列,它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組,它提供 Perl 風格的正規表示式模式。 re 模組使 Python 語言擁有全部的正規表示式功能。正規表示式是一個強大的字元處理工具,其本質是一個字元序列,可以方便檢查一個字串是否與我們定義的字元序列的某種模式相匹配

在python中,正規表示式可以通過import re模組使用,本文將全面介紹正規表示式的使用方法

寫在正規表示式裡面的普通字元都是表示:直接匹配他們;

但是有一些特殊字元,術語metacharacters(元字元)。它們出現在正規表示式字串中,不上表示直接匹配他們,而是表達一些特別含義

這些特殊的元字元包括下面這些:

. * + ? [ ] ^ $ { } | ( )

我們來分別介紹一下他們的含義:

1、點-匹配所有字元

. 表示要匹配除了換行符之外的任何單個字元

比如,你要從下面的文字中,選擇所有的顏色。

蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的

也就是要找到所有以色結尾,並且包括前面的一個字元的詞語。也就可以這樣寫正規表示式.色

其中點代表了任意一個字元,注意是任一個字元。

.色合起來就是表示要找到任意一個字元后面是色這個字,合起來兩個字的字串
範例:

# 匯入re模組
import re
#輸入文字內容
content='''蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的'''
p=re.compile(r'.色')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(content):
    print(one)

2、星號-重複匹配任意次

*-表示匹配前面的子表示式任意次,包括0次

比如,你要從下面的文字中,選擇每行逗號後面的字串內容,包括逗號本身。注意,這裡的逗號是文字的逗號。

蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,

就可以這樣寫正規表示式,.*。

範例:

# 匯入re模組
import re
#輸入文字內容
content='''蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,'''
p=re.compile(r',.*')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(content):
    print(one)

這樣就包括逗號在內的後面的字串都匹配進來了

3、加號-重複匹配多次

+表示匹配前面的子表示式一次或多次,不包括0次

比如,還是上面的例子,你要從文字中,選擇每行後面的字串,包括逗號本身。但是新增一個條件,如果逗號後面沒有內容,就不要選擇了。

下面的文字中最後一行逗號後面沒有內容,就不要選擇了

蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,

就可以這樣寫正規表示式,.+

範例:

# 匯入re模組
import re
#輸入文字內容
content='''蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,'''
p=re.compile(r',.+')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(content):
    print(one)

這樣最後一行逗號後面沒有內容,所以最後一行也就不會匹配

4、 花括號-匹配指定次數

花括號表示前面的字元匹配指定的次數

比如,下面文字

紅彤彤,綠油油,黑乎乎,綠油油油油

表示式油{3,4}就表示匹配連續的油字至少3次,至多4次

範例:

# 匯入re模組
import re
#輸入文字內容
content='''紅彤彤,綠油油,黑乎乎,綠油油油油'''
p=re.compile(r'綠油{3,4}')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(content):
    print(one)

這裡就匹配綠後面匹配油至少3次,至多4次的字串

5、 問號-貪婪模式和非貪婪模式

我們要把下面的字串中的所有html標籤提取出來

得到這樣一個列表

很容易想到使用正規表示式<.*>

寫出如下程式碼

# 匯入re模組
import re
#輸入文字內容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')#r表示不要進行python語法中對字串的轉譯
print(p.findall(source))

但是執行結果,卻是把整個字串全部匹配上了

怎麼回事?原來在正規表示式中,’*’,’+’,’?'都是貪婪的,使用他們時,會盡可能多的匹配內容,所以,<.*>中的星號(表示任意次數的重複),一直匹配到了字串最後</tlitle>裡面同樣符合匹配模式。

為了解決整個問題,就需要使用非貪婪模式,也就是在星號後面加上?,變成這樣<.*?>

程式碼改為

# 匯入re模組
import re
#輸入文字內容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')#r表示不要進行python語法中對字串的轉譯
print(p.findall(source))

這樣就單獨去匹配出來了每一個標籤

6、方括號-匹配幾個字元之一

方括號表示要匹配某幾種型別字元。

比如

[abc]可以匹配a,b,c裡面的任意一個字元。等價於[a-c]

a-c中間的-表示一個範圍從a到c

如果你想匹配所有小寫字母,可以使用[a-z]

一些元字元在方括號內便失去了魔法,變得和普通字元一樣了。

比如

[akm.]匹配a k m .裡面的任意一個字元

在這裡. 在括號不再表示匹配任意字元了,而就是表示匹配.這個字元

例如:

範例描述
[pP]ython匹配“Python”或者“python”
rub[ye]匹配“ruby”或者“rube”

7、起始位置和單行、多行模式

^表示匹配文字的起始位置

正規表示式可以設定單行模式和多行模式

如果是單行模式,表示匹配整個文字的開頭位置。

如果是多行模式,表示匹配文字每行的開頭位置。

比如,下面的文字中,每行最前面的數位表示水果的編號,最後的數位表示價格

001-蘋果價格-60,
002-橙子價格-70,
003-香蕉價格-80,

範例:

# 匯入re模組
import re
#輸入文字內容
source='''001-蘋果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^d+')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(source):
    print(one)

執行結果如下

如果去掉complie的第二個引數re.M,執行結果如下

就只進行一行匹配,

因為在單行模式下,^只會匹配整個文字的開頭位置

$表示匹配文字的結束位置

如果是單行模式,表示匹配整個文字的結束位置。

如果是多行模式,表示匹配文字每行的結束位置。

比如,下面的文字中,每行最前面的數位表示水果的編號,最後的數位表示價格

001-蘋果價格-60,
002-橙子價格-70,
003-香蕉價格-80,

如果我們要提取所有的水果編號,用這樣的正規表示式d+$

範例:

# 匯入re模組
import re
#輸入文字內容
source='''001-蘋果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^d+$',re.M)#re.M進行多行匹配
for one in p.findall(source):
    print(one)

成功匹配到每行最後的價格

8、括號-組選擇

主括號稱之為正規表示式的組選擇。是從正規表示式匹配的內容裡面扣取出其中的某些部分

前面,我們有個例子,從下面的文字中,選擇每行逗號前面的字串,也包括逗號本身。

蘋果,蘋果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的

就可以這樣寫正規表示式個^.*,。

但是,如果我們要求不要包括逗號呢?

當然不能直接這樣寫^.*

因為最後的逗號是特徵所在,如果去掉它,就沒法找逗號前面的了。

但是把逗號放在正規表示式中,又會包含逗號。

解決問題的方法就是使用組選擇符:括號。

我們這樣寫^(.*),

我們把要從整個表示式中提取的部分放在括號中,這樣水果的名字就被單獨的放在組group中了。

對應的Python程式碼如下

# 匯入re模組
import re
#輸入文字內容
source='''蘋果,蘋果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的'''
p=re.compile(r'^(.*),',re.M)#re.M進行多行匹配
for one in p.findall(source):
    print(one)

這樣我們就可以把,前的字元取出來了

9、反斜槓-對元字元的跳脫

反斜槓在正規表示式中有多種用途

比如,我們要在下面的文字中搜尋所有點前面的字串,也包括點本身

蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的

如果,我們這樣寫正規表示式.*.,聰明的你肯定發現不對勁。

因為點是一個元字元,直接出現在正規表示式中,表示匹配任意的單個字元,不能表示.這個字元的本身的意思了

怎麼辦呢?

如果我們要搜尋的內容本身就包含元字元,就可以使用反斜槓進行跳脫

這裡我們就應用這樣的表示式.*.

範例:

# 匯入re模組
import re
#輸入文字內容
source='''蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的'''
p=re.compile(r'.*.')#r表示不要進行python語法中對字串的轉譯
for one in p.findall(source):
    print(one)

成功匹配!

利用反斜槓還可以匹配某種字元型別

反斜槓後面接一些字元,表示匹配某種型別的一個字元

字元功能
d匹配0~9之間的任意一個數位字元,等價於表示式[0-9]
D匹配任意一個不上0-9之間的數位字元,等價於表達是[^0-9]
s匹配任意一個空白字元,包括空格、tab、換行符等、等價於[tnrfv]
S匹配任意一個非空白字元,等價於[^ttnrfv]
w匹配任意一個文字字元,包括大小寫、數位、下劃線、等於[a-zA-A0-9]
W匹配任意一個非文字字元,等價於表示式[^a-zA-Z0-9]

反斜槓也可以用在方括號裡面,比如[s,.]:表示匹配任何空白字元,或者逗號,或者點

10、修飾符-可選標誌

正規表示式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。多個標誌可以通過按位元OR(I)它們來指定。如re.l | re.M被設定成Ⅰ和M標誌:

修飾符描述
re.I使匹配對大小寫不敏感
re.L做在地化識別(locale-aware)匹配
re.M多行匹配,影響^和$
re.S使匹配包括換行在內的所有字元
re.U根據Unicode字元集解析字元。這個標誌影響lw,W,Nb,B.
re.X該標誌通過給予你更靈活的格式以便你將正規表示式寫得更易於理解

11、使用正規表示式切割字串

字串物件的split()方法只適應於非常簡單的字串分割情形。當你需要更加靈活的切割字串的時候,就不好用了。

比如,我們需要從下面字串中提取武將的名字。

我們發現這些名字之間,有的是分號隔開,有的是逗號隔開,有的是空格隔開,而且分割符號周圍還有不定數量的空格

names =“關羽;張飛,趙雲,馬超,黃忠 李逵”

這時,最好使用正規表示式裡面的split方法:

範例:

# 匯入re模組
import re
#輸入文字內容
names ="關羽;張飛,趙雲,馬超,黃忠  李逵"
namelist=re.split(r'[;,s]s*',names)
print(namelist)

正規表示式[;,ls]s*指定了,分割符為分號、逗號、空格里面的任意一種均可,並且該符號周圍可以有不定數量的空格。

以上就是Python進階篇之正規表示式常用語法總結的詳細內容,更多關於Python正規表示式的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com