掌握Python中的正則表達(dá)式，輕松應(yīng)對文本處理難題！

網(wǎng)摘文苑 2023-04-27 發(fā)布于新疆

展開全文

當(dāng)今軟件開發(fā)中，正則表達(dá)式是一個非常重要的工具，能夠幫助我們在字符串中查找、匹配和替換文本。Python是一種功能強(qiáng)大的編程語言，提供了內(nèi)置的正則表達(dá)式模塊re，可以方便地使用正則表達(dá)式進(jìn)行文本處理。本文將介紹Python中的正則表達(dá)式，以及如何使用re模塊進(jìn)行字符串匹配和替換。

1.基本介紹

正則表達(dá)式是一種描述字符串模式的語言，可以用于匹配、搜索和替換字符串。在Python中，可以使用re模塊來處理正則表達(dá)式。下面是一些基本的正則表達(dá)式元字符：

元字符	描述
.	匹配任何字符（除了換行符）
^	匹配字符串的開頭
$	匹配字符串的結(jié)尾
*	匹配前一個字符的零個或多個實(shí)例
+	匹配前一個字符的一個或多個實(shí)例
?	匹配前一個字符的零個或一個實(shí)例
{n}	匹配前一個字符的n個實(shí)例
{m,n}	匹配前一個字符的m到n個實(shí)例
[...]	匹配方括號中的任何一個字符
[^...]	不匹配方括號中的任何一個字符
( )	標(biāo)記一個子表達(dá)式，并返回匹配結(jié)果的子字符串

2.匹配郵箱的正則表達(dá)式

現(xiàn)在，讓我們來看一個簡單的例子，假設(shè)我們有一個包含電子郵件地址的字符串列表，我們想要從中提取所有的郵件地址。我們可以使用re模塊的findall()函數(shù)來實(shí)現(xiàn)這個功能：

  import re    text = 'To contact me, please email john@example.com or info@example.com'  emails = re.findall(r'\b\w+@\w+\.\w+\b', text)  print(emails)

輸出結(jié)果：

    ['john@example.com', 'info@example.com']

如下圖所示。

在上面的代碼中，我們使用了正則表達(dá)式\b\w+@\w+\.\w+\b，它可以匹配所有的電子郵件地址。下面是這個正則表達(dá)式的分解：

\b 表示單詞邊界，確保電子郵件地址前面沒有其他字符。
\w+ 表示匹配一個或多個字母、數(shù)字或下劃線字符。
@ 表示匹配一個 @ 符號。
\w+ 表示匹配一個或多個字母、數(shù)字或下劃線字符。
\. 表示匹配一個點(diǎn)號。
\w+ 表示匹配一個或多個字母、數(shù)字或下劃線字符。
\b 表示單詞邊界，確保電子郵件地址后面沒有其他字符。

3.一些函數(shù)介紹

除了findall()函數(shù)，re模塊還提供了其他一些有用的函數(shù)，包括search()、match()、sub()和split()。接下來，我們將一一介紹它們。

search()函數(shù)用于在文本中查找第一個匹配的子字符串。如果找到匹配的子字符串，則返回一個匹配對象；否則返回None。下面是一個使用search()函數(shù)的例子：

    import re    text = 'The quick brown fox jumps over the lazy dog'  match = re.search(r'fox', text)  if match:      print('Found a match:', match.group())  else:      print('No match')

輸出結(jié)果：

    Found a match: fox

在上面的代碼中，我們使用了正則表達(dá)式fox來查找文本中的子字符串。因?yàn)槲谋局写嬖?fox'，所以search()函數(shù)返回了一個匹配對象，我們可以使用group()方法來獲取匹配的子字符串。

match()函數(shù)用于在文本的開頭查找第一個匹配的子字符串。如果找到匹配的子字符串，則返回一個匹配對象；否則返回None。下面是一個使用match()函數(shù)的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  match = re.match(r'the', text)  if match:      print('Found a match:', match.group())  else:      print('No match')

輸出結(jié)果：

  No match

運(yùn)行結(jié)果如下所示，在上面的代碼中，我們使用了正則表達(dá)式the來查找文本開頭的子字符串。雖然文本開頭是'The'，但是區(qū)分大小寫，同時雖然整句話中有小些的“the”，但是match函數(shù)不進(jìn)行匹配。

注意match和search的區(qū)別如下所示。

前者是對給定的字符串的起始位置 就進(jìn)行匹配判斷，如果不符合返回None。

后者是對給定的字符串整體進(jìn)行匹配判斷 ，如果無符合條件的返回None。

舉例如下：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  search = re.search(r'the', text)  if search:      print('Found a match:', search.group())  else:      print('No match')

最后運(yùn)行結(jié)果如下所示，找到匹配的字符“the”。

sub()函數(shù)用于替換文本中的子字符串。它可以將一個正則表達(dá)式匹配到的子字符串替換為另一個字符串。下面是一個使用sub()函數(shù)的例子：

    import re    text = 'The quick brown fox1 and fox2  jumps over the lazy dog'  new_text = re.sub(r'fox', 'cat', text)  print(new_text)

輸出結(jié)果：

The quick brown cat1 and cat2 jumps over the lazy dog

在上面的代碼中，我們使用了正則表達(dá)式fox來查找文本中的子字符串，并將其替換為字符串'cat'。在上面匹配到了兩個fox,sub()函數(shù)返回一個新的字符串，其中所有的匹配子字符串都被替換為了新的字符串。

split()函數(shù)用于根據(jù)正則表達(dá)式分割文本。它可以將一個字符串分割為多個子字符串，每個子字符串都是由正則表達(dá)式匹配到的部分。下面是一個使用split()函數(shù)的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  words = re.split(r'\s+', text)  print(words)

輸出結(jié)果：

['The', 'sun', 'was', 'just', 'beginning', 'to', 'rise', 'over', 'the',  'distant', 'hills,', 'casting', 'a', 'warm', 'orange', 'glow', 'across', 'the', 'landscape.', '']

在上面的代碼中，我們使用了正則表達(dá)式\s+來匹配所有的空白字符。

4.匹配特殊字符的正則表達(dá)式

正則表達(dá)式還可以使用特殊的字符類來匹配特定類型的字符。下面是一些常用的特殊字符類：

\d：匹配任意數(shù)字字符（0-9）
\D：匹配任意非數(shù)字字符
\w：匹配任意字母、數(shù)字或下劃線字符
\W：匹配任意非字母、數(shù)字或下劃線字符
\s：匹配任意空白字符（空格、制表符、換行符等）
\S：匹配任意非空白字符

下面是一個使用特殊字符類的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. 123'  numbers = re.findall(r'\d+', text)  print(numbers)

輸出結(jié)果：

['123']

在上面的代碼中，我們使用了正則表達(dá)式\d+來匹配文本中的數(shù)字。因?yàn)槲谋局兄挥幸粋€數(shù)字'123'，所以findall()函數(shù)返回一個包含一個元素的列表。

5.匹配特定長度字母

除了特殊字符類之外，還有一些常用的限定符可以用來限制匹配的數(shù)量。下面是一些常用的限定符：

*：匹配0個或多個前面的字符
+：匹配1個或多個前面的字符
?：匹配0個或1個前面的字符
{n}：匹配前面的字符恰好n次
{m,n}：匹配前面的字符至少m次，最多n次

下面是一個使用限定符的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills'  words = re.findall(r'\w+', text)  short_words = re.findall(r'\b\w{1,3}\b', text)  print(words)  print(short_words)

輸出結(jié)果：

    ['The', 'sun', 'was', 'just', 'beginning', 'to', 'rise', 'over', 'the', 'distant', 'hills']  ['The', 'sun', 'was', 'to', 'the']

在上面的代碼中，我們使用了正則表達(dá)式\w+來匹配文本中的單詞。然后，我們使用了正則表達(dá)式\b\w{1,3}\b來匹配長度為1到3的單詞,使用\b來匹配單詞的邊界，\w來匹配單詞中的字母，{1,3}來表示重復(fù)1到3次。這將匹配所有長度為1到3的單詞，例如 The, sun, 和 the。由于這個限定符只匹配了長度為1到3的單詞，所以findall()函數(shù)返回了一個包含部分單詞的列表。 注意若直接寫成\w{1,3}會出錯，把長度大于3的單詞截斷，取其中每個單詞的前三個字符。如下所示錯誤。

正則表達(dá)式還有很多其他的用法和功能，例如分組、反向引用、零寬斷言等。如果想深入了解正則表達(dá)式的使用，請參考Python官方文檔或其他相關(guān)資源呀。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：網(wǎng)摘文苑 > 《正則表達(dá)式》

舉報/認(rèn)領(lǐng)