Python正則表達re模組之findall()函數詳解

2022-07-07 14:03:32

一、re.findall函數介紹

它在re.py中有定義：

def findall(pattern, string, flags=0):
    """Return a list of all non-overlapping matches in the string.

    If one or more capturing groups are present in the pattern, return
    a list of groups; this will be a list of tuples if the pattern
    has more than one group.

    Empty matches are included in the result."""

    return _compile(pattern, flags).findall(string)

返回string中所有與pattern匹配的全部字串,返回形式為陣列。

findall()函數的兩種表示形式

import re
kk = re.compile(r'd+')
kk.findall('one1two2three3four4')
#[1,2,3,4]
 
#注意此處findall()的用法，可傳兩個引數;
kk = re.compile(r'd+')
re.findall(kk,"one123")
#[1,2,3]

二、範例程式碼

後面會講解程式碼裡的各個部分，先列出來~

import re
 
str = 'aabbabaabbaa'

# 一個"."就是匹配除 n (換行符)以外的任意一個字元
print(re.findall(r'a.b',str))#['aab', 'aab']

# *前面的字元出現0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']

# 貪婪，匹配從.*前面為開始到後面為結束的所有內容
print(re.findall(r'a.*b',str))#['aabbabaabb']

# 非貪婪，遇到開始和結束就進行擷取，因此擷取多次符合的結果，中間沒有字元也會被擷取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']

# 非貪婪，與上面一樣，只是與上面的相比多了一個括號，只保留括號的內容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']
 
str = '''aabbab
         aabbaa
         bb'''     #後面多加了2個b

# 沒有把最後一個換行的aab算進來
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']

# re.S不會對n進行中斷
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aan         b']

三、re.findall中正規表示式(.*?)

字串是

str = 'aabbabaabbaa'

1. 符號 . 就是匹配除 n (換行符)以外的任意一個字元

print(re.findall(r'a.b',str))
#['aab', 'aab']

2.符號 * 前面的字元出現0次或以上

print(re.findall(r'a*b',str))
#['aab', 'b', 'ab', 'aab', 'b']

3.符號.* 貪婪，匹配從.*前面為開始到後面為結束的所有內容

print(re.findall(r'a.*b',str))
#['aabbabaabb']

4.符號.*? 非貪婪，遇到開始和結束就進行擷取，因此擷取多次符合的結果，中間沒有字元也會被擷取

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

5.符號(.*?) 非貪婪，與上面一樣，只是與上面的相比多了一個括號，只保留括號的內容

print(re.findall(r'a(.*?)b',str))
#['a', '', 'a']

關於帶括號與不帶括號的區別

import re

string="abcdefg  acbdgef  abcdgfe  cadbgfe"

#不帶括號
regex=re.compile("((w+)s+w+)")
print(regex.findall(string))
#輸出：[('abcdefg  acbdgef', 'abcdefg'), ('abcdgfe  cadbgfe', 'abcdgfe')]

regex1=re.compile("(w+)s+w+")
print(regex1.findall(string))
#輸出：['abcdefg', 'abcdgfe']

regex2=re.compile("w+s+w+")
print(regex2.findall(string))
#輸出：['abcdefg  acbdgef', 'abcdgfe  cadbgfe']

第一個 regex 中帶有2個括號，其輸出list 中包含2個 tuple
第二個 regex 中帶有1個括號，其輸出內容是括號匹配到的內容，而不是整個表示式所匹配到的結果。
第三個 regex 中不帶括號,其輸出的內容就是整個表示式所匹配到的內容。

實際上這並不是python特有的，這是正則所特有的，任何一門高階語言使用正則都滿足這個特點：有括號時只能匹配到括號中的內容，沒有括號【相當於在最外層增加了一個括號】。在正則裡面 "()" 代表的是分組的意思，一個括號代表一個分組，你只能匹配到 "()" 中的內容。

四、re.findall中引數re.S的意義

1.字串變為（後面多加了2個b）

str = '''aabbab
         aabbaa
         bb'''

2.引數無re.S，沒有把最後一個換行的aab算進來

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

3.引數有re.S，不會對n進行中斷

print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aan         b']

參考

Python re.findall中正規表示式(.*?)和引數re.S使用

2. python re模組findall()詳解

3. Python 正則re模組之findall()詳解

總結

到此這篇關於Python正則表達re模組之findall()函數詳解的文章就介紹到這了,更多相關Python正則表達re模組findall()內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

Python正則表達re模組之findall()函數詳解

一、re.findall函數介紹

二、範例程式碼

三、re.findall中正規表示式(.*?)

四、re.findall中引數re.S的意義

參考

總結

熱門文章