作者:梅甘·斯夸爾 如需轉(zhuǎn)載請(qǐng)聯(lián)系大數(shù)據(jù)華章科技 01 什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的目標(biāo)是找出數(shù)據(jù)中的模式,但是細(xì)看之下,這一過(guò)分簡(jiǎn)單的解釋就站不住腳。 畢竟,尋找模式難道不也是經(jīng)典統(tǒng)計(jì)學(xué)、商業(yè)分析、機(jī)器學(xué)習(xí)甚至更新的數(shù)據(jù)科學(xué)或者大數(shù)據(jù)的目標(biāo)嗎?數(shù)據(jù)挖掘和其他這些領(lǐng)域有什么差別呢?當(dāng)我們實(shí)際上是忙于挖掘模式時(shí),為什么將其稱作“數(shù)據(jù)挖掘”?我們不是已經(jīng)有數(shù)據(jù)了嗎? 從一開始,“數(shù)據(jù)挖掘”這一術(shù)語(yǔ)就明顯有許多問(wèn)題。這個(gè)術(shù)語(yǔ)最初是統(tǒng)計(jì)學(xué)家們對(duì)盲目調(diào)查的輕蔑叫法,在這種調(diào)查中,數(shù)據(jù)分析人員在沒有首先形成合適假設(shè)的情況下,就著手尋找模式。 但是,這一術(shù)語(yǔ)在20世紀(jì)90年代成為主流,當(dāng)時(shí)的流行媒體風(fēng)傳一種激動(dòng)人心的研究,將成熟的數(shù)據(jù)庫(kù)管理系統(tǒng)領(lǐng)域與來(lái)自機(jī)器學(xué)習(xí)和人工智能的最佳算法結(jié)合起來(lái)。 “挖掘”這一單詞的加入預(yù)示著這是現(xiàn)代的“淘金熱”,執(zhí)著、無(wú)畏的“礦工”們將發(fā)現(xiàn)(且可能從中得益)之前隱藏的珍寶?!皵?shù)據(jù)本身可能是珍稀商品”這一思路很快吸引了商業(yè)上和技術(shù)刊物的注意,使他們無(wú)視先驅(qū)們努力宣傳的、更為全面的術(shù)語(yǔ)——數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)。 但是,“數(shù)據(jù)挖掘”這一術(shù)語(yǔ)沿用了下來(lái),最終,該領(lǐng)域的一些定義試圖改變其解釋,認(rèn)為它指的只是更漫長(zhǎng)、更全面的知識(shí)發(fā)現(xiàn)過(guò)程中的一步。今天“數(shù)據(jù)挖掘”和KDD被視為非常相似、緊密相關(guān)的術(shù)語(yǔ)。 那么,其他相關(guān)術(shù)語(yǔ)如機(jī)器學(xué)習(xí)、預(yù)測(cè)性分析、大數(shù)據(jù)和數(shù)據(jù)科學(xué)又是怎么回事?這些術(shù)語(yǔ)和數(shù)據(jù)挖掘或者KDD是不是一回事?下面我們比較這些術(shù)語(yǔ):
我們可以查看Google Trends,了解上述術(shù)語(yǔ)在一段時(shí)期內(nèi)的搜索熱度。Google Trends工具展示了一段時(shí)期內(nèi)人們搜索各種關(guān)鍵詞的頻度。 在圖1-1中,新出現(xiàn)的術(shù)語(yǔ)“大數(shù)據(jù)”目前是炙手可熱的流行語(yǔ),“數(shù)據(jù)挖掘”居于第二位,然后是“機(jī)器學(xué)習(xí)”“數(shù)據(jù)科學(xué)”和“預(yù)測(cè)性分析”。(我試圖加入搜索詞“數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)”,但是結(jié)果太接近于0,無(wú)法看到趨勢(shì)線。) y軸以0~100的指數(shù)顯示了特定搜索詞的流行度。此外,我們還將Google Trends給出的2014~2015年每周指數(shù)組合為月平均值。 ▲圖1-1 5個(gè)常用數(shù)據(jù)相關(guān)術(shù)語(yǔ)的Google Trends搜索結(jié)果 02 如何進(jìn)行數(shù)據(jù)挖掘由于數(shù)據(jù)挖掘傳統(tǒng)上被視為KDD全過(guò)程中的一步,并且越來(lái)越成為數(shù)據(jù)科學(xué)過(guò)程的一部分,在本文中我們將熟悉其所涉及的步驟。進(jìn)行數(shù)據(jù)挖掘有多種流行的方法。 1. Fayyad等人的KDD過(guò)程 知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘過(guò)程的早期版本之一由Usama Fayyad、Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇論文(The KDD Process for Extracting Useful Knowledge from Volumes of Data)中定義。 這篇論文在當(dāng)時(shí)很重要,它將快速變化的KDD方法論精煉為具體的一組步驟。如下步驟以原始數(shù)據(jù)開始,以知識(shí)作為結(jié)束:
由于這一過(guò)程從原始數(shù)據(jù)得出知識(shí),因此,這些作者對(duì)“數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)”這一術(shù)語(yǔ)作出了真正的貢獻(xiàn),而不僅僅是簡(jiǎn)單的數(shù)據(jù)挖掘。 2. 韓家煒等人的KDD過(guò)程 韓家煒、Micheline Kamber和裴健所著的流行數(shù)據(jù)挖掘教科書《Data Mining: Concepts and Techniques》描述了知識(shí)發(fā)現(xiàn)過(guò)程的另一個(gè)版本,其中的步驟也是從原始數(shù)據(jù)導(dǎo)出知識(shí):
在Fayyad和韓的方法中,都預(yù)計(jì)該過(guò)程在必要時(shí)需要多次重復(fù)這些步驟。例如,如果在變換步驟中,分析人員發(fā)現(xiàn)需要再進(jìn)行一次數(shù)據(jù)清理或者預(yù)處理,這兩種方法都規(guī)定分析人員應(yīng)該按原路返回,完成前面未完成步驟的第二次迭代。 3. CRISP-DM過(guò)程 KDD過(guò)程的第3種流行版本稱為CRISP-DM,其用于許多商業(yè)和應(yīng)用領(lǐng)域,它的全稱是CRoss-Industry Standard Process for Data Mining(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程),包含如下步驟:
這種方法的優(yōu)勢(shì)之一是,迭代是內(nèi)建的。在特定步驟之間,分析人員將檢查當(dāng)前步驟仍然與之前的某些步驟保持一致。另一個(gè)優(yōu)勢(shì)是明確地提醒分析人員,即使在評(píng)估步驟中也要將業(yè)務(wù)問(wèn)題放在項(xiàng)目的核心位置。 4. 六步過(guò)程 當(dāng)我在大學(xué)里教授數(shù)據(jù)科學(xué)入門課程時(shí),使用了自己創(chuàng)造的一種混合方法。這種方法稱為“六步過(guò)程”,這種專門設(shè)計(jì)的方法對(duì)于授課很合適。 我的六步方法消除了沒有經(jīng)驗(yàn)的學(xué)生在CRISP-DM中的開放式任務(wù)(如業(yè)務(wù)理解)或者基于企業(yè)任務(wù)(如部署)中可能遇到的歧義問(wèn)題。 此外,六步方法要求學(xué)生在過(guò)程的開始和最后回答“為什么這么做”和“這有什么意義”的問(wèn)題,以拓展學(xué)生的批判性思維技能。我的六步方法如下:
5. 哪一種數(shù)據(jù)挖掘方法最好 2014年,Gregory Piatetsky-Shapiro在其非常受歡迎的數(shù)據(jù)挖掘電子郵件通訊KD-Nuggets上進(jìn)行的調(diào)查包含了一個(gè)問(wèn)題:“你在分析、數(shù)據(jù)挖掘或者數(shù)據(jù)庫(kù)科學(xué)項(xiàng)目中使用哪一種主要方法?”
這些結(jié)果和2007年同一郵件通訊所做的相同調(diào)查結(jié)果類似。 我的最佳建議是,不要過(guò)于重視用于數(shù)據(jù)挖掘項(xiàng)目的方法,隨便挑一種即可。如果完全不使用任何方法,那么就有遺漏重要步驟的危險(xiǎn)。選擇看上去對(duì)你的項(xiàng)目和需求有效的方法,然后盡可能遵循該方法的步驟。 03 在數(shù)據(jù)挖掘中使用哪些技術(shù)現(xiàn)在我們對(duì)數(shù)據(jù)挖掘在整個(gè)KDD或者數(shù)據(jù)科學(xué)過(guò)程中的位置有了了解,下面就可以開始討論完成這一任務(wù)的細(xì)節(jié)了。 從試圖定義數(shù)據(jù)挖掘的早期起,幾類相關(guān)的問(wèn)題就一再出現(xiàn)。Fayyad等人在1996年的另一篇重要論文“From Data Mining to Knowledge Discovery in Databases”中提出了6類問(wèn)題,我們將其總結(jié)如下:
在同年撰寫的另一篇論文中,這些作者還加入了其他幾種類別:
韓家煒、Kamber和裴健在前面提及的教科書中描述了數(shù)據(jù)挖掘所能解決的4類問(wèn)題,并進(jìn)一步將其分為描述性和預(yù)測(cè)性兩大類。描述性數(shù)據(jù)挖掘意味著找出模式,幫助我們理解擁有的數(shù)據(jù)。預(yù)測(cè)性數(shù)據(jù)挖掘意味著找出模式,幫助我們預(yù)測(cè)尚未擁有的數(shù)據(jù)。 在描述性類別中,他們列出了如下數(shù)據(jù)挖掘問(wèn)題:
在預(yù)測(cè)性類別中,他們列出了如下問(wèn)題:
很容易看出,F(xiàn)ayyad等人和韓家煒等人的問(wèn)題列表有許多相似之處,只是項(xiàng)目的分組不同。確實(shí),如果你過(guò)去曾經(jīng)完成過(guò)數(shù)據(jù)挖掘項(xiàng)目,這兩個(gè)列表上出現(xiàn)的項(xiàng)目就是你可能已經(jīng)熟悉的數(shù)據(jù)挖掘問(wèn)題。分類、回歸和聚類是非常流行的基本數(shù)據(jù)挖掘技術(shù),所以從業(yè)者們所看到的每本數(shù)據(jù)挖掘書籍幾乎都介紹過(guò)它們。 |
|