使用正規(guī)表達(dá)式編寫(xiě)更好的 SQL 作者:Alice Rischert Oracle Database 10g 中的正規(guī)表達(dá)式特性是一個(gè)用于處理文本數(shù)據(jù)的強(qiáng)大工具 Oracle Database 10g 的一個(gè)新特性大大提高了您搜索和處理字符數(shù)據(jù)的能力。這個(gè)特性就是正規(guī)表達(dá)式,是一種用來(lái)描述文本模式的表示方法。很久以來(lái)它已在許多編程語(yǔ)言和大量 UNIX 實(shí)用工具中出現(xiàn)過(guò)了。 Oracle 的正規(guī)表達(dá)式的實(shí)施是以各種 SQL 函數(shù)和一個(gè) WHERE 子句操作符的形式出現(xiàn)的。如果您不熟悉正規(guī)表達(dá)式,那么這篇文章可以讓您了解一下這種新的極其強(qiáng)大然而表面上有點(diǎn)神秘的功能。已經(jīng)對(duì)正規(guī)表達(dá)式很熟悉的讀者可以了解如何在 Oracle SQL 語(yǔ)言的環(huán)境中應(yīng)用這種功能。 什么是正規(guī)表達(dá)式? 正規(guī)表達(dá)式由一個(gè)或多個(gè)字符型文字和/或元字符組成。在最簡(jiǎn)單的格式下,正規(guī)表達(dá)式僅由字符文字組成,如正規(guī)表達(dá)式 cat。它被讀作字母 c,接著是字母 a 和 t,這種模式匹配 cat、location 和 catalog 之類的字符串。元字符提供算法來(lái)確定 Oracle 如何處理組成一個(gè)正規(guī)表達(dá)式的字符。當(dāng)您了解了各種元字符的含義時(shí),您將體會(huì)到正規(guī)表達(dá)式用于查找和替換特定的文本數(shù)據(jù)是非常強(qiáng)大的。 驗(yàn)證數(shù)據(jù)、識(shí)別重復(fù)關(guān)鍵字的出現(xiàn)、檢測(cè)不必要的空格,或分析字符串只是正規(guī)表達(dá)式的許多應(yīng)用中的一部分。您可以用它們來(lái)驗(yàn)證電話號(hào)碼、郵政編碼、電子郵件地址、社會(huì)安全號(hào)碼、IP 地址、文件名和路徑名等的格式。此外,您可以查找如 HTML 標(biāo)記、數(shù)字、日期之類的模式,或任意文本數(shù)據(jù)中符合任意模式的任何事物,并用其它的模式來(lái)替換它們。 用 Oracle Database 10g 使用正規(guī)表達(dá)式 您可以使用最新引進(jìn)的 Oracle SQL REGEXP_LIKE 操作符和 REGEXP_INSTR、REGEXP_SUBSTR 以及 REGEXP_REPLACE 函數(shù)來(lái)發(fā)揮正規(guī)表達(dá)式的作用。您將體會(huì)到這個(gè)新的功能如何對(duì) LIKE 操作符和 INSTR、SUBSTR 和 REPLACE 函數(shù)進(jìn)行了補(bǔ)充。實(shí)際上,它們類似于已有的操作符,但現(xiàn)在增加了強(qiáng)大的模式匹配功能。被搜索的數(shù)據(jù)可以是簡(jiǎn)單的字符串或是存儲(chǔ)在數(shù)據(jù)庫(kù)字符列中的大量文本。正規(guī)表達(dá)式讓您能夠以一種您以前從未想過(guò)的方式來(lái)搜索、替換和驗(yàn)證數(shù)據(jù),并提供高度的靈活性。 正規(guī)表達(dá)式的基本例子 在使用這個(gè)新功能之前,您需要了解一些元字符的含義。句號(hào) (.) 匹配一個(gè)正規(guī)表達(dá)式中的任意字符(除了換行符)。例如,正規(guī)表達(dá)式 a.b 匹配的字符串中首先包含字母 a,接著是其它任意單個(gè)字符(除了換行符),再接著是字母 b。字符串 axb、xaybx 和 abba 都與之匹配,因?yàn)樵谧址须[藏了這種模式。如果您想要精確地匹配以 a 開(kāi)頭和以 b 結(jié)尾的一條三個(gè)字母的字符串,則您必須對(duì)正規(guī)表達(dá)式進(jìn)行定位。脫字符號(hào) (^) 元字符指示一行的開(kāi)始,而美元符號(hào) ($) 指示一行的結(jié)尾(參見(jiàn)表 1)。因此, 正規(guī)表達(dá)式 ^a.b$ 匹配字符串 aab、abb 或 axb。將這種方式與 LIKE ²Ù×÷·û提供的類似的模式匹配 a_b 相比較,其中 (_) 是單字符通配符。 默認(rèn)情況下,一個(gè)正規(guī)表達(dá)式中的一個(gè)單獨(dú)的字符或字符列表只匹配一次。為了指示在一個(gè)正規(guī)表達(dá)式中多次出現(xiàn)的一個(gè)字符,您可以使用一個(gè)量詞,它也被稱為重復(fù)操作符。.如果您想要得到從字母 a 開(kāi)始并以字母 b 結(jié)束的匹配模式,則您的正規(guī)表達(dá)式看起來(lái)像這樣:^a.*b$。* 元字符重復(fù)前面的元字符 (.) 指示的匹配零次、一次或更多次。LIKE 操作符的等價(jià)的模式是 a%b,其中用百分號(hào) (%) 來(lái)指示任意字符出現(xiàn)零次、一次或多次。 表 2 給出了重復(fù)操作符的完整列表。注意它包含了特殊的重復(fù)選項(xiàng),它們實(shí)現(xiàn)了比現(xiàn)有的 LIKE 通配符更大的靈活性。如果您用圓括號(hào)括住一個(gè)表達(dá)式,這將有效地創(chuàng)建一個(gè)可以重復(fù)一定次數(shù)的子表達(dá)式。例如,正規(guī)表達(dá)式 b(an)*a 匹配 ba、bana、banana、yourbananasplit 等。 Oracle 的正規(guī)表達(dá)式實(shí)施支持 POSIX (可移植操作系統(tǒng)接口)字符類,參見(jiàn)表 3 中列出的內(nèi)容。這意味著您要查找的字符類型可以非常特別。假設(shè)您要編寫(xiě)一條僅查找非字母字符的 LIKE 條件 — 作為結(jié)果的 WHERE 子句可能不經(jīng)意就會(huì)變得非常復(fù)雜。 POSIX 字符類必須包含在一個(gè)由方括號(hào) ([]) 指示的字符列表中。例如,正規(guī)表達(dá)式 [[:lower:]] 匹配一個(gè)小寫(xiě)字母字符,而 [[:lower:]]{5} 匹配五個(gè)連續(xù)的小寫(xiě)字母字符。 除 POSIX 字符類之外,您可以將單獨(dú)的字符放在一個(gè)字符列表中。例如,正規(guī)表達(dá)式 ^ab[cd]ef$ 匹配字符串 abcef 和 abdef。必須選擇 c 或 d。 除脫字符 (^) 和連字符 (-) 之外,字符列表中的大多數(shù)元字符被認(rèn)為是文字。正規(guī)表達(dá)式看起來(lái)很復(fù)雜,這是因?yàn)橐恍┰址哂须S上下文環(huán)境而定的多重含義。^ 就是這樣一種元字符。如果您用它作為一個(gè)字符列表的第一個(gè)字符,它代表一個(gè)字符列表的非。因此,[^[:digit:]] 查找包含了任意非數(shù)字字符的模式,而 ^[[:digit:]] 查找以數(shù)字開(kāi)始的匹配模式。連字符 (-) 指示一個(gè)范圍,正規(guī)表達(dá)式 [a-m] 匹配字母 a 到字母 m 之間的任意字母。但如果它是一個(gè)字符行中的第一個(gè)字符(如在 [-afg] 中),則它就代表連字符。 之前的一個(gè)例子介紹了使用圓括號(hào)來(lái)創(chuàng)建一個(gè)子表達(dá)式;它們?cè)试S您通過(guò)輸入更替元字符來(lái)輸入可更替的選項(xiàng),這些元字符由豎線 (|) 分開(kāi)。 例如,正規(guī)表達(dá)式 t(a|e|i)n 允許字母 t 和 n 之間的三種可能的字符更替。匹配模式包括如 tan、ten、tin 和 Pakistan 之類的字,但不包括 teen、mountain 或 tune。作為另一種選擇,正規(guī)表達(dá)式 t(a|e|i)n 也可以表示為一個(gè)字符列表 t[aei]n。表 4 匯總了這些元字符。雖然存在更多的元字符,但這個(gè)簡(jiǎn)明的概述足夠用來(lái)理解這篇文章使用的正規(guī)表達(dá)式。 REGEXP_LIKE 操作符 REGEXP_LIKE 操作符向您介紹在 Oracle 數(shù)據(jù)庫(kù)中使用時(shí)的正規(guī)表達(dá)式功能。表 5 列出了 REGEXP_LIKE 的語(yǔ)法。 下面的 SQL 查詢的 WHERE 子句顯示了 REGEXP_LIKE 操作符,它在 ZIP 列中搜索滿足正規(guī)表達(dá)式 [^[:digit:]] 的模式。它將檢索 ZIPCODE 表中的那些 ZIP 列值包含了任意非數(shù)字字符的行。 SELECT zip 這個(gè)正規(guī)表達(dá)式的例子僅由元字符組成,更具體來(lái)講是被冒號(hào)和方括號(hào)分隔的 POSIX 字符類 digit。第二組方括號(hào)(如 [^[:digit:]] 中所示)包括了一個(gè)字符類列表。如前文所述,需要這樣做是因?yàn)槟豢梢詫?POSIX 字符類用于構(gòu)建一個(gè)字符列表。 REGEXP_INSTR 函數(shù) 這個(gè)函數(shù)返回一個(gè)模式的起始位置,因此它的功能非常類似于 INSTR 函數(shù)。新的 REGEXP_INSTR 函數(shù)的語(yǔ)法在表 6 中給出。這兩個(gè)函數(shù)之間的主要區(qū)別是,REGEXP_INSTR 讓您指定一種模式,而不是一個(gè)特定的搜索字符串;因而它提供了更多的功能。接下來(lái)的示例使用 REGEXP_INSTR 來(lái)返回字符串 Joe Smith, 10045 Berry Lane, San Joseph, CA 91234 中的五位郵政編碼模式的起始位置。如果正規(guī)表達(dá)式被寫(xiě)為 [[:digit:]]{5},則您將得到門牌號(hào)的起始位置而不是郵政編碼的,因?yàn)?10045 是第一次出現(xiàn)五個(gè)連續(xù)數(shù)字。因此,您必須將表達(dá)式定位到該行的末尾,正如 $ 元字符所示,該函數(shù)將顯示郵政編碼的起始位置,而不管門牌號(hào)的數(shù)字個(gè)數(shù)。 SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234', 編寫(xiě)更復(fù)雜的模式 讓我們?cè)谇耙粋€(gè)例子的郵政編碼模式上展開(kāi),以便包含一個(gè)可選的四位數(shù)字模式。您的模式現(xiàn)在可能看起來(lái)像這樣:[[:digit:]]{5}(-[[:digit:]]{4})?$。如果您的源字符串以 5 位郵政編碼或 5 位 + 4 位郵政編碼的格式結(jié)束,則您將能夠顯示該模式的起始位置。 SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234-1234', 在這個(gè)示例中,括弧里的子表達(dá)式 (-[[:digit:]]{4}) 將按 ? 重復(fù)操作符的指示重復(fù)零次或一次。此外,企圖用傳統(tǒng)的 SQL 函數(shù)來(lái)實(shí)現(xiàn)相同的結(jié)果甚至對(duì) SQL 專家也是一個(gè)挑戰(zhàn)。為了更好地說(shuō)明這個(gè)正規(guī)表達(dá)式示例的不同組成部分,表 7 包含了一個(gè)對(duì)單個(gè)文字和元字符的描述。 REGEXP_SUBSTR 函數(shù) ·Ç³£ÀàËÆÓÚ SUBSTR 函數(shù)的 REGEXP_SUBSTR 函數(shù)用來(lái)提取一個(gè)字符串的一部分。表 8 顯示了這個(gè)新函數(shù)的語(yǔ)法。在下面的示例中,匹配模式 [^,]* 的字符串將被返回。該正規(guī)表達(dá)式搜索其后緊跟著空格的一個(gè)逗號(hào);然后按 [^,]* 的指示搜索零個(gè)或更多個(gè)不是逗號(hào)的字符,最后查找另一個(gè)逗號(hào)。這種模式看起來(lái)有點(diǎn)像一個(gè)用逗號(hào)分隔的值字符串。 SELECT REGEXP_SUBSTR('first field, second field , third field', REGEXP_REPLACE 函數(shù) 讓我們首先看一下傳統(tǒng)的 REPLACE SQL 函數(shù),它把一個(gè)字符串用另一個(gè)字符串來(lái)替換。假設(shè)您的數(shù)據(jù)在正文中有不必要的空格,您希望用單個(gè)空格來(lái)替換它們。利用 REPLACE 函數(shù),您需要準(zhǔn)確地列出您要替換多少個(gè)空格。然而,多余空格的數(shù)目在正文的各處可能不是相同的。下面的示例在 Joe 和 Smith 之間有三個(gè)空格。REPLACE 函數(shù)的參數(shù)指定要用一個(gè)空格來(lái)替換兩個(gè)空格。在這種情況下,結(jié)果在原來(lái)的字符串的 Joe 和 Smith 之間留下了一個(gè)額外的空格。 SELECT REPLACE('Joe Smith',' ', ' ') REGEXP_REPLACE 函數(shù)把替換功能向前推進(jìn)了一步,其語(yǔ)法在表 9 中列出。以下查詢用單個(gè)空格替換了任意兩個(gè)或更多的空格。( ) 子表達(dá)式包含了單個(gè)空格,它可以按 {2,} 的指示重復(fù)兩次或更多次。 SELECT REGEXP_REPLACE('Joe Smith', |
|