數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域
一、數(shù)據(jù)挖掘是什么?
人們?cè)谌粘I钪薪?jīng)常會(huì)遇到這樣的情況:超市的經(jīng)營(yíng)者希望將經(jīng)常被同時(shí)購(gòu)買(mǎi)的商品放在一起,以增加銷(xiāo)售;保險(xiǎn)公司想知道購(gòu)買(mǎi)保險(xiǎn)的客戶(hù)一般具有哪些特征;醫(yī)學(xué)研究人員希望從已有的成千上萬(wàn)份病歷中找出患某種疾病的病人的共同特征,從而為治愈這種疾病提供一些幫助。對(duì)于以上問(wèn)題,現(xiàn)有信息管理系統(tǒng)中的數(shù)據(jù)分析工具無(wú)法給出答案。因?yàn)闊o(wú)論是查詢(xún)、統(tǒng)計(jì)還是報(bào)表,其處理方式都是對(duì)指定的數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)字處理,而不能對(duì)這些數(shù)據(jù)所包含的內(nèi)在信息進(jìn)行提取。隨著信息管理系統(tǒng)的廣泛應(yīng)用和數(shù)據(jù)量激增,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地對(duì)決策或科研工作提供支持。正是為了滿(mǎn)足這種要求,從大量數(shù)據(jù)中提取出隱藏在其中的有用信息,將機(jī)器學(xué)習(xí)應(yīng)用于大型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘(Data Mining)技術(shù)得到了長(zhǎng)足的發(fā)展。 數(shù)據(jù)挖掘,也可以稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discover Database,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級(jí)處理過(guò)程。數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過(guò)程,一般分為:?jiǎn)栴}定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶(hù)要求。數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。 數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶(hù)所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶(hù)能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿(mǎn)足要求。由此可見(jiàn),數(shù)據(jù)挖掘只是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的一個(gè)步驟,但又是最重要的一步。因此,往往可以不加區(qū)別地使用KDD和數(shù)據(jù)挖掘。一般在研究領(lǐng)域被稱(chēng)作數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的,在工程領(lǐng)域則稱(chēng)之為數(shù)據(jù)挖掘。 二、數(shù)據(jù)挖掘能做什么? 數(shù)據(jù)挖掘所涉及的學(xué)科領(lǐng)域和方法很多,以下四種是非常重要的發(fā)現(xiàn)任務(wù)。數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過(guò)程。 分類(lèi)其目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。 聚類(lèi)是把一組個(gè)體按照相似性歸類(lèi),即"物以類(lèi)聚"。它的目的是使屬于同一類(lèi)別的個(gè)體之間的距離盡可能地小,而不同類(lèi)別的個(gè)體間的距離盡可能地大。 關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購(gòu)買(mǎi)面包和黃油的顧客中,有90%的人同時(shí)也買(mǎi)了牛奶"(面包+黃油+牛奶)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶(hù)在購(gòu)買(mǎi)物品時(shí),除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間或序列上的規(guī)律。 三、前途光明的數(shù)據(jù)挖掘技術(shù) 隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來(lái)越大,國(guó)際KDD組委會(huì)于1995年把專(zhuān)題討論會(huì)更名為國(guó)際會(huì)議,在加拿大蒙特利爾市召開(kāi)了第一屆KDD國(guó)際學(xué)術(shù)會(huì)議,以后每年召開(kāi)一次。 近年來(lái),KDD在研究和應(yīng)用方面發(fā)展迅速,尤其是在商業(yè)和銀行領(lǐng)域的應(yīng)用比研究的發(fā)展速度還要快。目前,國(guó)外數(shù)據(jù)挖掘的發(fā)展趨勢(shì)其研究方面主要有:對(duì)知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如近年來(lái)注重對(duì)Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統(tǒng)的統(tǒng)計(jì)學(xué)回歸法在KDD中的應(yīng)用;KDD與數(shù)據(jù)庫(kù)的緊密結(jié)合。在應(yīng)用方面包括:KDD商業(yè)軟件工具不斷產(chǎn)生和完善,注重建立解決問(wèn)題的整體系統(tǒng),而不是孤立的過(guò)程。用戶(hù)主要集中在大型銀行、保險(xiǎn)公司、電信公司和銷(xiāo)售業(yè)。國(guó)外很多計(jì)算機(jī)公司非常重視數(shù)據(jù)挖掘的開(kāi)發(fā)應(yīng)用,IBM和微軟都成立了相應(yīng)的研究中心進(jìn)行這方面的工作,此外,一些公司的相關(guān)軟件也開(kāi)始在國(guó)內(nèi)銷(xiāo)售,如Platinum、BO以及IBM。國(guó)內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研究所或公司。所涉及的研究領(lǐng)域很多,一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。 目前進(jìn)行的大多數(shù)研究項(xiàng)目是由政府資助進(jìn)行的,如國(guó)家自然科學(xué)基金、863計(jì)劃、"九五"計(jì)劃等,但還沒(méi)有關(guān)于國(guó)內(nèi)數(shù)據(jù)挖掘產(chǎn)品的報(bào)道。一份最近的Gartner報(bào)告中列舉了在今后3~5年內(nèi)對(duì)工業(yè)將產(chǎn)生重要影響的五項(xiàng)關(guān)鍵技術(shù),其中KDD和人工智能排名第一。同時(shí),這份報(bào)告將并行計(jì)算機(jī)體系結(jié)構(gòu)研究和KDD列入今后5年內(nèi)公司應(yīng)該投資的10個(gè)新技術(shù)領(lǐng)域。可以看出,數(shù)據(jù)挖掘的研究和應(yīng)用受到了學(xué)術(shù)界和實(shí)業(yè)界越來(lái)越多的重視。進(jìn)行數(shù)據(jù)挖掘的開(kāi)發(fā)并不需要太多的積累,國(guó)內(nèi)軟件廠家如果進(jìn)入該領(lǐng)域,將處于和國(guó)外公司實(shí)力相差不很多的起跑線上,并且,現(xiàn)在關(guān)于數(shù)據(jù)挖掘的一些研究成果可以在Internet上免費(fèi)獲取,這更是一個(gè)可以利用的條件。我們希望數(shù)據(jù)挖掘能夠引起國(guó)內(nèi)實(shí)業(yè)界更多的重視,同時(shí)也希望能夠有更多的國(guó)內(nèi)軟件廠商進(jìn)入該領(lǐng)域,一起促進(jìn)數(shù)據(jù)挖掘技術(shù)在中國(guó)的應(yīng)用。 |
|
來(lái)自: 千里 > 《數(shù)據(jù)挖掘》