Oracle Database 10g 中的正規(guī)表達(dá)式

dazheng 2007-11-13

展開(kāi)全文

使用正規(guī)表達(dá)式編寫(xiě)更好的 SQL

作者：Alice Rischert

Oracle Database 10g 中的正規(guī)表達(dá)式特性是一個(gè)用于處理文本數(shù)據(jù)的強(qiáng)大工具

Oracle Database 10g 的一個(gè)新特性大大提高了您搜索和處理字符數(shù)據(jù)的能力。這個(gè)特性就是正規(guī)表達(dá)式，是一種用來(lái)描述文本模式的表示方法。很久以來(lái)它已在許多編程語(yǔ)言和大量 UNIX 實(shí)用工具中出現(xiàn)過(guò)了。

Oracle 的正規(guī)表達(dá)式的實(shí)施是以各種 SQL 函數(shù)和一個(gè) WHERE 子句操作符的形式出現(xiàn)的。如果您不熟悉正規(guī)表達(dá)式，那么這篇文章可以讓您了解一下這種新的極其強(qiáng)大然而表面上有點(diǎn)神秘的功能。已經(jīng)對(duì)正規(guī)表達(dá)式很熟悉的讀者可以了解如何在 Oracle SQL 語(yǔ)言的環(huán)境中應(yīng)用這種功能。

什么是正規(guī)表達(dá)式？

正規(guī)表達(dá)式由一個(gè)或多個(gè)字符型文字和/或元字符組成。在最簡(jiǎn)單的格式下，正規(guī)表達(dá)式僅由字符文字組成，如正規(guī)表達(dá)式 cat。它被讀作字母 c，接著是字母 a 和 t，這種模式匹配 cat、location 和 catalog 之類的字符串。元字符提供算法來(lái)確定 Oracle 如何處理組成一個(gè)正規(guī)表達(dá)式的字符。當(dāng)您了解了各種元字符的含義時(shí)，您將體會(huì)到正規(guī)表達(dá)式用于查找和替換特定的文本數(shù)據(jù)是非常強(qiáng)大的。

驗(yàn)證數(shù)據(jù)、識(shí)別重復(fù)關(guān)鍵字的出現(xiàn)、檢測(cè)不必要的空格，或分析字符串只是正規(guī)表達(dá)式的許多應(yīng)用中的一部分。您可以用它們來(lái)驗(yàn)證電話號(hào)碼、郵政編碼、電子郵件地址、社會(huì)安全號(hào)碼、IP 地址、文件名和路徑名等的格式。此外，您可以查找如 HTML 標(biāo)記、數(shù)字、日期之類的模式，或任意文本數(shù)據(jù)中符合任意模式的任何事物，并用其它的模式來(lái)替換它們。

用 Oracle Database 10g 使用正規(guī)表達(dá)式

您可以使用最新引進(jìn)的 Oracle SQL REGEXP_LIKE 操作符和 REGEXP_INSTR、REGEXP_SUBSTR 以及 REGEXP_REPLACE 函數(shù)來(lái)發(fā)揮正規(guī)表達(dá)式的作用。您將體會(huì)到這個(gè)新的功能如何對(duì) LIKE 操作符和 INSTR、SUBSTR 和 REPLACE 函數(shù)進(jìn)行了補(bǔ)充。實(shí)際上，它們類似于已有的操作符，但現(xiàn)在增加了強(qiáng)大的模式匹配功能。被搜索的數(shù)據(jù)可以是簡(jiǎn)單的字符串或是存儲(chǔ)在數(shù)據(jù)庫(kù)字符列中的大量文本。正規(guī)表達(dá)式讓您能夠以一種您以前從未想過(guò)的方式來(lái)搜索、替換和驗(yàn)證數(shù)據(jù)，并提供高度的靈活性。

正規(guī)表達(dá)式的基本例子

在使用這個(gè)新功能之前，您需要了解一些元字符的含義。句號(hào) (.) 匹配一個(gè)正規(guī)表達(dá)式中的任意字符（除了換行符）。例如，正規(guī)表達(dá)式 a.b 匹配的字符串中首先包含字母 a，接著是其它任意單個(gè)字符（除了換行符），再接著是字母 b。字符串 axb、xaybx 和 abba 都與之匹配，因?yàn)樵谧址须[藏了這種模式。如果您想要精確地匹配以 a 開(kāi)頭和以 b 結(jié)尾的一條三個(gè)字母的字符串，則您必須對(duì)正規(guī)表達(dá)式進(jìn)行定位。脫字符號(hào) (^) 元字符指示一行的開(kāi)始，而美元符號(hào) ($) 指示一行的結(jié)尾（參見(jiàn)表 1）。因此，正規(guī)表達(dá)式 ^a.b$ 匹配字符串 aab、abb 或 axb。將這種方式與 LIKE ²Ù×÷·û提供的類似的模式匹配 a_b 相比較，其中 (_) 是單字符通配符。

默認(rèn)情況下，一個(gè)正規(guī)表達(dá)式中的一個(gè)單獨(dú)的字符或字符列表只匹配一次。為了指示在一個(gè)正規(guī)表達(dá)式中多次出現(xiàn)的一個(gè)字符，您可以使用一個(gè)量詞，它也被稱為重復(fù)操作符。.如果您想要得到從字母 a 開(kāi)始并以字母 b 結(jié)束的匹配模式，則您的正規(guī)表達(dá)式看起來(lái)像這樣：^a.*b$。* 元字符重復(fù)前面的元字符 (.) 指示的匹配零次、一次或更多次。LIKE 操作符的等價(jià)的模式是 a%b，其中用百分號(hào) (%) 來(lái)指示任意字符出現(xiàn)零次、一次或多次。

表 2 給出了重復(fù)操作符的完整列表。注意它包含了特殊的重復(fù)選項(xiàng)，它們實(shí)現(xiàn)了比現(xiàn)有的 LIKE 通配符更大的靈活性。如果您用圓括號(hào)括住一個(gè)表達(dá)式，這將有效地創(chuàng)建一個(gè)可以重復(fù)一定次數(shù)的子表達(dá)式。例如，正規(guī)表達(dá)式 b(an)*a 匹配 ba、bana、banana、yourbananasplit 等。

Oracle 的正規(guī)表達(dá)式實(shí)施支持 POSIX （可移植操作系統(tǒng)接口）字符類，參見(jiàn)表 3 中列出的內(nèi)容。這意味著您要查找的字符類型可以非常特別。假設(shè)您要編寫(xiě)一條僅查找非字母字符的 LIKE 條件 — 作為結(jié)果的 WHERE 子句可能不經(jīng)意就會(huì)變得非常復(fù)雜。

POSIX 字符類必須包含在一個(gè)由方括號(hào) ([]) 指示的字符列表中。例如，正規(guī)表達(dá)式 [[:lower:]] 匹配一個(gè)小寫(xiě)字母字符，而 [[:lower:]]{5} 匹配五個(gè)連續(xù)的小寫(xiě)字母字符。

除 POSIX 字符類之外，您可以將單獨(dú)的字符放在一個(gè)字符列表中。例如，正規(guī)表達(dá)式 ^ab[cd]ef$ 匹配字符串 abcef 和 abdef。必須選擇 c 或 d。

除脫字符 (^) 和連字符 (-) 之外，字符列表中的大多數(shù)元字符被認(rèn)為是文字。正規(guī)表達(dá)式看起來(lái)很復(fù)雜，這是因?yàn)橐恍┰址哂须S上下文環(huán)境而定的多重含義。^ 就是這樣一種元字符。如果您用它作為一個(gè)字符列表的第一個(gè)字符，它代表一個(gè)字符列表的非。因此，[^[:digit:]] 查找包含了任意非數(shù)字字符的模式，而 ^[[:digit:]] 查找以數(shù)字開(kāi)始的匹配模式。連字符 (-) 指示一個(gè)范圍，正規(guī)表達(dá)式 [a-m] 匹配字母 a 到字母 m 之間的任意字母。但如果它是一個(gè)字符行中的第一個(gè)字符（如在 [-afg] 中），則它就代表連字符。

之前的一個(gè)例子介紹了使用圓括號(hào)來(lái)創(chuàng)建一個(gè)子表達(dá)式；它們?cè)试S您通過(guò)輸入更替元字符來(lái)輸入可更替的選項(xiàng)，這些元字符由豎線 (|) 分開(kāi)。

例如，正規(guī)表達(dá)式 t(a|e|i)n 允許字母 t 和 n 之間的三種可能的字符更替。匹配模式包括如 tan、ten、tin 和 Pakistan 之類的字，但不包括 teen、mountain 或 tune。作為另一種選擇，正規(guī)表達(dá)式 t(a|e|i)n 也可以表示為一個(gè)字符列表 t[aei]n。表 4 匯總了這些元字符。雖然存在更多的元字符，但這個(gè)簡(jiǎn)明的概述足夠用來(lái)理解這篇文章使用的正規(guī)表達(dá)式。

REGEXP_LIKE 操作符

REGEXP_LIKE 操作符向您介紹在 Oracle 數(shù)據(jù)庫(kù)中使用時(shí)的正規(guī)表達(dá)式功能。表 5 列出了 REGEXP_LIKE 的語(yǔ)法。

下面的 SQL 查詢的 WHERE 子句顯示了 REGEXP_LIKE 操作符，它在 ZIP 列中搜索滿足正規(guī)表達(dá)式 [^[:digit:]] 的模式。它將檢索 ZIPCODE 表中的那些 ZIP 列值包含了任意非數(shù)字字符的行。

SELECT zip
FROM zipcode
WHERE REGEXP_LIKE(zip, '[^[:digit:]]')
ZIP
-----
ab123
123xy
007ab
abcxy

這個(gè)正規(guī)表達(dá)式的例子僅由元字符組成，更具體來(lái)講是被冒號(hào)和方括號(hào)分隔的 POSIX 字符類 digit。第二組方括號(hào)（如 [^[:digit:]] 中所示）包括了一個(gè)字符類列表。如前文所述，需要這樣做是因?yàn)槟豢梢詫?POSIX 字符類用于構(gòu)建一個(gè)字符列表。

REGEXP_INSTR 函數(shù)

這個(gè)函數(shù)返回一個(gè)模式的起始位置，因此它的功能非常類似于 INSTR 函數(shù)。新的 REGEXP_INSTR 函數(shù)的語(yǔ)法在表 6 中給出。這兩個(gè)函數(shù)之間的主要區(qū)別是，REGEXP_INSTR 讓您指定一種模式，而不是一個(gè)特定的搜索字符串；因而它提供了更多的功能。接下來(lái)的示例使用 REGEXP_INSTR 來(lái)返回字符串 Joe Smith, 10045 Berry Lane, San Joseph, CA 91234 中的五位郵政編碼模式的起始位置。如果正規(guī)表達(dá)式被寫(xiě)為 [[:digit:]]{5}，則您將得到門牌號(hào)的起始位置而不是郵政編碼的，因?yàn)?10045 是第一次出現(xiàn)五個(gè)連續(xù)數(shù)字。因此，您必須將表達(dá)式定位到該行的末尾，正如 $ 元字符所示，該函數(shù)將顯示郵政編碼的起始位置，而不管門牌號(hào)的數(shù)字個(gè)數(shù)。

SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234',
'[[:digit:]]{5}$')
AS rx_instr
FROM dual
RX_INSTR
----------
45

編寫(xiě)更復(fù)雜的模式

讓我們?cè)谇耙粋€(gè)例子的郵政編碼模式上展開(kāi)，以便包含一個(gè)可選的四位數(shù)字模式。您的模式現(xiàn)在可能看起來(lái)像這樣：[[:digit:]]{5}(-[[:digit:]]{4})?$。如果您的源字符串以 5 位郵政編碼或 5 位 + 4 位郵政編碼的格式結(jié)束，則您將能夠顯示該模式的起始位置。

SELECT REGEXP_INSTR('Joe Smith, 10045 Berry Lane, San Joseph, CA 91234-1234',
' [[:digit:]]{5}(-[[:digit:]]{4})?$')
AS starts_at
FROM dual
STARTS_AT
----------
44

在這個(gè)示例中，括弧里的子表達(dá)式 (-[[:digit:]]{4}) 將按 ? 重復(fù)操作符的指示重復(fù)零次或一次。此外，企圖用傳統(tǒng)的 SQL 函數(shù)來(lái)實(shí)現(xiàn)相同的結(jié)果甚至對(duì) SQL 專家也是一個(gè)挑戰(zhàn)。為了更好地說(shuō)明這個(gè)正規(guī)表達(dá)式示例的不同組成部分，表 7 包含了一個(gè)對(duì)單個(gè)文字和元字符的描述。

REGEXP_SUBSTR 函數(shù)

·Ç³£ÀàËÆÓÚ SUBSTR 函數(shù)的 REGEXP_SUBSTR 函數(shù)用來(lái)提取一個(gè)字符串的一部分。表 8 顯示了這個(gè)新函數(shù)的語(yǔ)法。在下面的示例中，匹配模式 [^,]* 的字符串將被返回。該正規(guī)表達(dá)式搜索其后緊跟著空格的一個(gè)逗號(hào)；然后按 [^,]* 的指示搜索零個(gè)或更多個(gè)不是逗號(hào)的字符，最后查找另一個(gè)逗號(hào)。這種模式看起來(lái)有點(diǎn)像一個(gè)用逗號(hào)分隔的值字符串。

SELECT REGEXP_SUBSTR('first field, second field , third field',
', [^,]*,')
FROM dual
REGEXP_SUBSTR('FIR
------------------
, second field ,

REGEXP_REPLACE 函數(shù)

讓我們首先看一下傳統(tǒng)的 REPLACE SQL 函數(shù)，它把一個(gè)字符串用另一個(gè)字符串來(lái)替換。假設(shè)您的數(shù)據(jù)在正文中有不必要的空格，您希望用單個(gè)空格來(lái)替換它們。利用 REPLACE 函數(shù)，您需要準(zhǔn)確地列出您要替換多少個(gè)空格。然而，多余空格的數(shù)目在正文的各處可能不是相同的。下面的示例在 Joe 和 Smith 之間有三個(gè)空格。REPLACE 函數(shù)的參數(shù)指定要用一個(gè)空格來(lái)替換兩個(gè)空格。在這種情況下，結(jié)果在原來(lái)的字符串的 Joe 和 Smith 之間留下了一個(gè)額外的空格。

SELECT REPLACE('Joe Smith',' ', ' ')
AS replace
FROM dual
REPLACE
---------
Joe Smith

REGEXP_REPLACE 函數(shù)把替換功能向前推進(jìn)了一步，其語(yǔ)法在表 9 中列出。以下查詢用單個(gè)空格替換了任意兩個(gè)或更多的空格。( ) 子表達(dá)式包含了單個(gè)空格，它可以按 {2,} 的指示重復(fù)兩次或更多次。

SELECT REGEXP_REPLACE('Joe Smith',
'( ){2,}', ' ')
AS RX_REPLACE
FROM dual
RX_REPLACE
----------
Joe Smith

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： dazheng > 《oracle》

舉報(bào)/認(rèn)領(lǐng)