1.我們已經(jīng)了解了正則表達(dá)式中的一些特殊符號(hào),如\b、\d、.、\S等等。這些具有特殊意義的專用字符被稱作“元字符”。常用的元字符還有:
\w - 匹配字母或數(shù)字或下劃線或漢字(我試驗(yàn)下了,發(fā)現(xiàn)3.x版本可以匹配漢字,但2.x版本不可以)
\s - 匹配任意的空白符
^ - 匹配字符串的開始
$ - 匹配字符串的結(jié)束
2.
\S其實(shí)就是\s的反義,任意不是空白符的字符。同理,還有:
\W - 匹配任意不是字母,數(shù)字,下劃線,漢字的字符
\D - 匹配任意非數(shù)字的字符
\B - 匹配不是單詞開頭或結(jié)束的位置
[a]的反義是[^a],表示除a以外的任意字符。[^abcd]就是除abcd以外的任意字符。
3.
之前我們用過*、+、{}來表示字符的重復(fù)。其他重復(fù)的方式還有:
? - 重復(fù)零次或一次
{n,} - 重復(fù)n次或更多次
{n,m} - 重復(fù)n到m次
正則表達(dá)式不只是用來從一大段文字中抓取信息,很多時(shí)候也被用來判斷輸入的文本是否符合規(guī)范,或進(jìn)行分類。來點(diǎn)例子看看:
^\w{4,12}$
這個(gè)表示一段4到12位的字符,包括字母或數(shù)字或下劃線或漢字,可以用來作為用戶注冊(cè)時(shí)檢測(cè)用戶名的規(guī)則。(但漢字在python2.x里面可能會(huì)有問題)
\d{15,18}
表示15到18位的數(shù)字,可以用來檢測(cè)身份證號(hào)碼
^1\d*[x]?
以1開頭的一串?dāng)?shù)字,數(shù)字結(jié)尾有字母x,也可以沒有。有的話就帶上x。
另外再說一下之前提到的轉(zhuǎn)義字符\。如果我們確實(shí)要匹配.或者*字符本身,而不是要它們所代表的元字符,那就需要用\.或\*。\本身也需要用\\。
比如"\d+\.\d+"可以匹配出123.456這樣的結(jié)果。
留一道稍稍有難度的習(xí)題:
寫一個(gè)正則表達(dá)式,能匹配出多種格式的電話號(hào)碼,包括
(021)88776543
010-55667890
02584453362
0571 66345673
|