詞庫(kù)軟件 的應(yīng)用
[正則表達(dá)式基本知識(shí)】
1.匹配單個(gè)單詞:\b單詞\b he→\bhe\b
2.將每行第一個(gè)字符刪除:^.→空 行首:^ 任意單個(gè)字符:.
3.將每行第一個(gè)字母刪除:^[a-z]或^\l→空 匹配范圍內(nèi)的字符:[ ] 匹配單個(gè)字母:[a-z](可不區(qū)分大小寫(xiě))或\l(小寫(xiě))或\u(大寫(xiě)) 匹配數(shù)字:[0-9]或\d 匹配中文:[\x{4e00}-\x{9fa5}]
4.將每行前兩個(gè)字母刪除:^\l{2}→空 最少匹配n次,最多匹配m次:{n,m} 匹配n次:{n}
5.將所有編碼刪除:^\l{1,4}_或^\l+_→空(“_”指空格) 匹配1次或多次:+ 匹配0次或多次:* 匹配0次或1次:? 非貪婪模式:+?或*?或??或{n,m}? 【貪婪模式】:在整個(gè)表達(dá)式匹配成功的前提下,盡可能多地匹配; 【非貪婪模式】:在整個(gè)表達(dá)式匹配成功的前提下,盡可能少地匹配。
6.將所有空行刪除:^[_\t]*\n→空 【空行】:含有零個(gè)或零個(gè)以上空格或制表符,不含其他字符的行) 將行末的空格刪除:_+$→空(行末:$) 換行符:\n
7.每行前面加兩個(gè)全角空格:^→(兩個(gè)全角空格)
8.轉(zhuǎn)義符 匹配 ^$.*+?\ 等字符需要用轉(zhuǎn)義符: \^ \$ \. \* \+ \? \\ 其他轉(zhuǎn)義符:\n換行 \t制表符
9.將前300字調(diào)整為每字一行:.→\0\n 引用整個(gè)表達(dá)式:\0
10.將前300調(diào)整為每字一/兩行交替:(.{2})(.)→\1\n\2\n 子表達(dá)式分組:( ) 引用第z個(gè)表達(dá)式(z=1,2,3...):\z
11.去掉詞庫(kù)中的生僻字 ①~.→空(去掉生僻字) ?、?+$→空(去掉行末空格) ?、踍\l{1,4}\n(去掉純編碼行)
|