日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)挖掘的道、法、術(shù)、器

 讀書與思考001 2017-05-17



 wen 文/ Mr.Wang  來源:嘉數(shù)匯(ID:datahui)


數(shù)據(jù)挖掘已經(jīng)有20多年歷史了,20年前,“尿布和啤酒的故事”像童話一樣被許多應(yīng)用領(lǐng)域的信息主管認(rèn)為是不靠譜的幻想(很多地方稱為營銷神話)。如今,我們處處能夠看到數(shù)據(jù)挖掘的影子,Target 百貨分析16歲的少女買無香型沐浴露之后,判斷她懷孕了;語言學(xué)家通過記錄自己孩子出生到3歲每天每秒鐘的狀態(tài)數(shù)據(jù),發(fā)現(xiàn)語言記憶和周遭環(huán)境相關(guān)性更大;調(diào)查局通過數(shù)據(jù)分析和挖掘發(fā)現(xiàn)改善公共環(huán)境有助于降低犯罪率。

 

這篇文章我們就從道、法、術(shù)、器這四個層面上看看究竟什么是數(shù)據(jù)挖掘。

 

1. 道以明向

 

道,是放在最上層的東西,不管是什么學(xué)問。對于數(shù)據(jù)挖掘來說,道就是數(shù)據(jù)挖掘的定義、特點和任務(wù)三者的結(jié)合。

 

1.1 數(shù)據(jù)挖掘的定義

 

關(guān)于數(shù)據(jù)挖掘有很多相近的術(shù)語,如:數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery inDatabase,KDD))、知識挖掘、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古、數(shù)據(jù)融合等。其中,最常使用的是數(shù)據(jù)挖掘和知識發(fā)現(xiàn),并且兩者在使用中常常不加區(qū)分。就術(shù)語的使用情況看,在2012年大數(shù)據(jù)尚未被廣泛關(guān)注之前,人工智能領(lǐng)域主要使用知識發(fā)現(xiàn),而數(shù)據(jù)庫領(lǐng)域和工業(yè)界主要使用數(shù)據(jù)挖掘,市場上的絕大部分產(chǎn)品也稱為數(shù)據(jù)挖掘工具,而非知識發(fā)現(xiàn)工具。在大數(shù)據(jù)受到廣泛關(guān)注之后,數(shù)據(jù)挖掘被更加廣泛地使用,其他術(shù)語的使用越來越少。

 

1996年,F(xiàn)ayaad等人對數(shù)據(jù)挖掘定義進行了詳細闡述,將數(shù)據(jù)挖掘看作是KDD的一個過程。定義數(shù)據(jù)挖掘是一個確定數(shù)據(jù)中有效的、新穎的、潛在可用的且最終可理解的模式的重要過程。隨后,著名的數(shù)據(jù)挖掘研究學(xué)者Jiawei Han也給出了自己的定義:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用信息和知識的過程。

 

綜上,可以認(rèn)為:數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù)從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。

 

相較于其他數(shù)據(jù)挖掘定義,該定義給出了數(shù)據(jù)挖掘的核心“大量”和“尋找”,而對挖掘到的“規(guī)律”沒有做任何描述或限制,即沒有要求“規(guī)律”是“有用的”。事實上,一個規(guī)律有用與否是由用戶的需求決定的。挖掘算法本身很難保證挖掘結(jié)果的有用性,一般需要用戶在挖掘過程中不斷調(diào)整相關(guān)參數(shù)(如支持度、置信度等)來獲得有用的結(jié)果。有時,一些被認(rèn)為是“無用”的結(jié)果經(jīng)過評價后可能是意外的好結(jié)果。

 

數(shù)據(jù)隱含價值,技術(shù)發(fā)現(xiàn)價值,應(yīng)用實現(xiàn)價值。數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的三個內(nèi)涵。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘的對象(即數(shù)據(jù))有了新的特征,這決定了大數(shù)據(jù)挖掘?qū)⒈毁x予新的含義,相應(yīng)的,也產(chǎn)生了新的挖掘算法和模型。

 

因此,大數(shù)據(jù)挖掘可以定義為:從大數(shù)據(jù)集中尋找其規(guī)律的技術(shù)。將“大數(shù)據(jù)集”強調(diào)為大數(shù)據(jù)挖掘的對象。

 

需要注意的是,在大數(shù)據(jù)挖掘中,“尋找”變得更具挑戰(zhàn)性,因為,大數(shù)據(jù)具有高價值、低密度的特性,即規(guī)律不是顯而易見的,而是隱含在大數(shù)據(jù)之中,需要用新的方法和技術(shù)去尋找。同樣的,對挖掘到的“規(guī)律”沒有做任何描述或限制,大數(shù)據(jù)的價值是更加難以估量的,需要在大數(shù)據(jù)的應(yīng)用中去實現(xiàn)。

 

1.2 數(shù)據(jù)挖掘的特點


 “大量”、“多源、異質(zhì)、復(fù)雜”、“動態(tài)”、“價值高但價值密度低”的數(shù)據(jù)特征決定了當(dāng)前的數(shù)據(jù)挖掘技術(shù)具有如下技術(shù)特征:

  • 高性能計算支持的分布式;

  • 并行數(shù)據(jù)挖掘技術(shù);

  • 面向多源、不完整數(shù)據(jù)的不確定數(shù)據(jù)挖掘技術(shù);

  • 面向復(fù)雜數(shù)據(jù)組織形式的圖數(shù)據(jù)挖掘技術(shù);

  • 面向非結(jié)構(gòu)化稀疏性的超高維數(shù)據(jù)挖掘技術(shù);

  • 面向價值高但價值密度低特征的特異群組挖掘技術(shù);

  • 面向動態(tài)數(shù)據(jù)的實時、增量數(shù)據(jù)挖掘技術(shù)等。

 

(1)“大量的”與并行分布式數(shù)據(jù)挖掘算法研究

 

數(shù)據(jù)的“大”通常是指PB級以上的。這一特征需要更高性能的計算平臺支持,考慮大規(guī)模數(shù)據(jù)的分布式、并行處理,對數(shù)據(jù)挖掘技術(shù)帶來的挑戰(zhàn)是I/O交換、數(shù)據(jù)移動的代價高,還需要在不同站點間分析數(shù)據(jù)挖掘模型間的關(guān)系。雖然以往已有并行分布式數(shù)據(jù)挖掘算法的相關(guān)研究,但是,大數(shù)據(jù)環(huán)境下,需要新的云計算基礎(chǔ)架構(gòu)支撐(例如,Hadoop、Spark等)。

 

(2)“多源的”與不確定數(shù)據(jù)挖掘算法研究

 

大數(shù)據(jù)時代,收集和獲取各種數(shù)據(jù)倍受關(guān)注,更多方式、更多類型、更多領(lǐng)域的數(shù)據(jù)被收集。不同數(shù)據(jù)源的數(shù)據(jù)由于數(shù)據(jù)獲取的方式不同、收集數(shù)據(jù)的設(shè)備不同,大數(shù)據(jù)下,挖掘的數(shù)據(jù)對象常常具有不確定、不完整的特點,這要求大數(shù)據(jù)挖掘技術(shù)能夠處理不確定、不完整的數(shù)據(jù)集,并且考慮多源數(shù)據(jù)挖掘模型和決策融合。

 

數(shù)據(jù)挖掘一直以來重視數(shù)據(jù)質(zhì)量。數(shù)據(jù)的質(zhì)量決定數(shù)據(jù)挖掘結(jié)果的價值。然而,大數(shù)據(jù)環(huán)境下,數(shù)據(jù)獲取能力逐漸高于數(shù)據(jù)分析能力。數(shù)據(jù)獲取過程中數(shù)據(jù)缺失、含有噪音難以避免,更值得注意的是,數(shù)據(jù)獲取的目標(biāo)也與以前不同,并不是針對某個特定應(yīng)用或特定任務(wù)收集的。數(shù)據(jù)填充、補全是困難的。因此,大數(shù)據(jù)挖掘技術(shù)要有更強地處理不確定、不完整數(shù)據(jù)集的能力。

 

(3)“復(fù)雜的”與非結(jié)構(gòu)化、超高維、稀疏數(shù)據(jù)挖掘算法研究


大數(shù)據(jù)下,來自網(wǎng)絡(luò)文本(用戶評論文本數(shù)據(jù))、圖像、視頻的數(shù)據(jù)挖掘應(yīng)用更加廣泛,非結(jié)構(gòu)化數(shù)據(jù)給數(shù)據(jù)挖掘技術(shù)帶來了新的要求,特征抽取是非結(jié)構(gòu)化數(shù)據(jù)挖掘的重要步驟,大數(shù)據(jù)挖掘算法設(shè)計要考慮超高維特征和稀疏性。也需要新型非關(guān)系型數(shù)據(jù)庫技術(shù)的支持,通常表現(xiàn)為關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫互為補充。


超高維特征分析的需求使得深度學(xué)習(xí)技術(shù)成為熱點。數(shù)據(jù)挖掘技術(shù)一直將統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、人工智能等算法和技術(shù)與數(shù)據(jù)庫技術(shù)結(jié)合應(yīng)用,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。大數(shù)據(jù)環(huán)境下,深度學(xué)習(xí)與大數(shù)據(jù)的結(jié)合,也將成為尋找大數(shù)據(jù)其中規(guī)律的重要支撐技術(shù)之一。

 

(4)“動態(tài)的、演變的”與實時、增量數(shù)據(jù)挖掘算法研究

 

時序數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個研究主題。然而,大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的獲取更加高速,關(guān)鍵是處理數(shù)據(jù)的需求在實時性方面的要求更高。早期的數(shù)據(jù)挖掘總是能容忍分鐘級別,甚至更長時延的響應(yīng)。現(xiàn)在,許多領(lǐng)域已經(jīng)使用數(shù)據(jù)挖掘技術(shù)分析本領(lǐng)域數(shù)據(jù),各個領(lǐng)域?qū)?shù)據(jù)挖掘結(jié)果響應(yīng)需求存在差異,不少領(lǐng)域需要有更到的響應(yīng)度,例如實時在線精準(zhǔn)廣告投放、證券市場高頻交易等。

 

(5)“高價值低密度”與聚類、不平衡分類、異常挖掘算法研究


大數(shù)據(jù)環(huán)境下,產(chǎn)生了新的數(shù)據(jù)挖掘任務(wù)。其中,特異群組是一類低密度高價值的數(shù)據(jù),特異群組是指在眾多行為對象中,少數(shù)對象群體具有一定數(shù)量的相同或相似的行為模式,表現(xiàn)出相異于大多數(shù)對象而形成異常的組群。特異群組挖掘問題既不是異常點挖掘(只發(fā)現(xiàn)孤立點)問題也不是聚類問題(將大部分?jǐn)?shù)據(jù)分組),是一類全新的問題。


1.3 數(shù)據(jù)挖掘的任務(wù)

 

下面給出典型數(shù)據(jù)挖掘任務(wù)的簡要描述。

 

(1)關(guān)聯(lián)分析:尋找數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系。例如:我們可以通過對交易數(shù)據(jù)的分析可能得出“86%買‘啤酒’的人同時也買‘尿布’”這樣一條“啤酒”和“尿布”之間的關(guān)聯(lián)規(guī)則。

 

(2)聚類分析:根據(jù)最大化簇內(nèi)的相似性、最小化簇間的相似性的原則將數(shù)據(jù)對象集合劃分成若干個簇的過程。例如:我們可以通過對電子商務(wù)網(wǎng)站用戶的注冊數(shù)據(jù)和購買行為數(shù)據(jù)的分析,劃分消費者的消費層次為節(jié)約時間型消費等。

 

(3)分類分析:找出描述并區(qū)分?jǐn)?shù)據(jù)類的模型(可以是顯式或隱式),以便能夠使用模型預(yù)測給定數(shù)據(jù)所屬的數(shù)據(jù)類。例如:P2P網(wǎng)貸平臺可以將貸款人的信用等級分類為:AA(信用水平最高級,代表極低的違約率)、A、B、C、D、E、HR(低信用水平,潛在的違約風(fēng)險最高級)。分類分析通過對這些數(shù)據(jù)及其類標(biāo)簽的分析給出一個信用等級的顯式模型,例如:“AA級貸款者是年收入在××元到×××元,年齡在×××至×××,居住面積達×××平方米以上的人”。這樣,對于一個新提交信用審核申請的貸款人,就可以根據(jù)他的特征預(yù)測其信用等級。

 

(4)異常分析:一個數(shù)據(jù)集中往往包含一些特別的數(shù)據(jù),其行為和模式與一般的數(shù)據(jù)不同,這些數(shù)據(jù)稱為“異?!?。對“異常”數(shù)據(jù)的分析稱為“異常分析”。例如,在對銀行客戶信用卡刷卡記錄數(shù)據(jù)進行監(jiān)測的過程中,發(fā)現(xiàn)某一筆交易明顯不同于以往的消費模式。

 

(5)演變分析:描述時間序列數(shù)據(jù)隨時間變化的數(shù)據(jù)的規(guī)律或趨勢,并對其建模。包括時間序列趨勢分析、周期模式匹配等。例如:通過對交易數(shù)據(jù)的演變分析,可能會得到89%的情況下,股票X上漲一周左右后,股票Y會上漲”這樣一條序列知識,或者通過對股票某一歷史交易時間區(qū)間的價格變化情況,可以預(yù)測出下一交易日的價格。

 

(6)特異群組分析:發(fā)現(xiàn)數(shù)據(jù)對象集中明顯不同于大部分?jǐn)?shù)據(jù)對象(不具有相似性)的數(shù)據(jù)對象(稱為特異對象)的過程。一個數(shù)據(jù)集中大部分?jǐn)?shù)據(jù)對象不相似,而每個特異群組中的對象是相似的。這是一種大數(shù)據(jù)環(huán)境下的新型數(shù)據(jù)挖掘任務(wù)。

 

2. 法以立本

 

法就是數(shù)據(jù)挖掘的流程與標(biāo)準(zhǔn)化步驟。

 

數(shù)據(jù)挖掘不是一個從數(shù)據(jù)到模型、再到結(jié)果的簡單過程,而是一個循環(huán)往復(fù)逐步求精的過程。該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實用的信息,并使用這些信息做出決策或豐富知識。在實施數(shù)據(jù)挖掘之前,先決定采取什么樣的步驟,每一步都做什么,確定目標(biāo)和實施方案。一般地,數(shù)據(jù)挖掘在具體應(yīng)用時,大體分為以下幾個階段:

  • 數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是確定發(fā)現(xiàn)任務(wù)的操作對象,即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需求從數(shù)據(jù)庫中提取與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)。在此過程中,可以利用一些數(shù)據(jù)庫操作對數(shù)據(jù)進行處理,形成真正有效的數(shù)據(jù)庫。

  • 數(shù)據(jù)預(yù)處理。主要是對前面階段所產(chǎn)生的數(shù)據(jù)進行加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪聲數(shù)據(jù)進行處理,對丟失的數(shù)據(jù)利用統(tǒng)計方法進行填補,形成有待挖掘的數(shù)據(jù)庫。當(dāng)數(shù)據(jù)挖掘的對象是數(shù)據(jù)倉庫時,一般地,數(shù)據(jù)預(yù)處理在生成數(shù)據(jù)倉庫時就已經(jīng)完成了。

  • 數(shù)據(jù)挖掘。根據(jù)用戶需求,確定數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)何種類型的知識,因為對數(shù)據(jù)挖掘的不同要求會在具體的知識發(fā)現(xiàn)過程中采用不同的數(shù)據(jù)挖掘算法。算法包括選取合適的模型和參數(shù),并使得數(shù)據(jù)挖掘算法與整個KDD的評判標(biāo)準(zhǔn)相一致。然后,運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)庫中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式,如產(chǎn)生式規(guī)則等。

  • 知識評價。該過程主要用于對所獲得的規(guī)則進行價值評定,以決定所得到的規(guī)則是否存入基礎(chǔ)知識庫,主要通過人機交互界面由專家依靠經(jīng)驗來評價。數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,這時需要將其剔除;也有可能模式不滿足用戶要求,這時需要退回前面的步驟。該階段還需要對挖掘出的模式進行解釋,使得用戶更容易理解和應(yīng)用。


數(shù)據(jù)挖掘全過程的幾個步驟可以進一步歸納為3個步驟:數(shù)據(jù)挖掘預(yù)處理、數(shù)據(jù)挖掘和數(shù)據(jù)挖掘后處理。數(shù)據(jù)挖掘質(zhì)量的好壞有兩個影響因素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量。


整個挖掘過程是一個不斷反饋的過程。比如,用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太好,或使用的挖掘技術(shù)產(chǎn)生不了期望的結(jié)果,這時用戶需要重復(fù)先前的過程,甚至從頭開始。


以上的數(shù)據(jù)挖掘過程模型主要是從數(shù)據(jù)挖掘技術(shù)角度來闡述的,還可以從另外一個角度來敘述數(shù)據(jù)挖掘與具體業(yè)務(wù)之間緊密聯(lián)系,即數(shù)據(jù)挖掘的建模標(biāo)準(zhǔn)──CRISP-DM。


CRISP-DM (Cross-Industry StandardProcess for Data Mining) 意為“跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化過程”。在CRISP-DM規(guī)劃中,數(shù)據(jù)挖掘過程中每個必要的步驟均被標(biāo)準(zhǔn)化,它主要倡導(dǎo)的理念是:提倡標(biāo)準(zhǔn)過程行業(yè)內(nèi)共享;建立應(yīng)用與背景無關(guān)的標(biāo)準(zhǔn)過程;建立與所用數(shù)據(jù)挖掘工具無關(guān)的標(biāo)準(zhǔn)過程;建立具有普遍指導(dǎo)意義的標(biāo)準(zhǔn)化過程;從方法學(xué)的角度強調(diào)實施數(shù)據(jù)挖掘項目的方法和步驟。具體的,CRISP-DM分為以下6個步驟:

  • 業(yè)務(wù)理解。業(yè)務(wù)理解是從業(yè)務(wù)角度來理解數(shù)據(jù)挖掘的目標(biāo)和要求,再轉(zhuǎn)化為數(shù)據(jù)挖掘問題。

  • 數(shù)據(jù)理解。數(shù)據(jù)理解的任務(wù)是對原始數(shù)據(jù)進行收集和熟悉,檢查數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行初步探索,并發(fā)現(xiàn)可能存在的、有分析價值的數(shù)據(jù)特征,以形成對隱藏信息的假設(shè)。

  • 數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段初步完成變量的選擇和導(dǎo)出變量的生成,同時對一些存在數(shù)據(jù)質(zhì)量問題的字段進行相應(yīng)的處理。

  • 建立模型。建立預(yù)測模型,如回歸模型、決策樹、神經(jīng)網(wǎng)絡(luò)等。

  • 模型評估。選擇最好的最終模型,需要快速簡單地應(yīng)用和比較不同方法,比較產(chǎn)生的結(jié)果,然后對得到的不同規(guī)則給予商業(yè)評價。從可用的統(tǒng)計和非統(tǒng)計模型中找到最好的分析模型,對于產(chǎn)生最終決策是必需的。

  • 應(yīng)用部署。應(yīng)用部署的目標(biāo)是將預(yù)測模型生成的結(jié)果以一定的形式展現(xiàn)給業(yè)務(wù)人員使用。因此,應(yīng)當(dāng)從業(yè)務(wù)的角度來關(guān)注模型發(fā)布的形式。

 

3. 術(shù)以立策

 

術(shù)就是數(shù)據(jù)挖掘的具體方法。

 

(1)關(guān)聯(lián)分析


自然界中某種事情發(fā)生時其他時間也常常會發(fā)生,這樣一種練習(xí)稱為關(guān)聯(lián)。這種反映事件之間互相關(guān)聯(lián)的知識稱為關(guān)聯(lián)型知識。例如,在某超市的交易記錄中,發(fā)現(xiàn)“86%購買啤酒的人同時也購買尿布”,這種規(guī)律成為指導(dǎo)超市銷售決策和管理的有效輔助性知識。關(guān)聯(lián)分析(Association analysis)技術(shù)就是在諸如商場交易這樣的大規(guī)模數(shù)據(jù)中分析并找到有價值的關(guān)聯(lián)型知識。最著名的應(yīng)用是沃爾瑪(Wal-Mart)公司通過收集消費者購買其產(chǎn)品的歷史數(shù)據(jù),形成消費者的消費檔案,并對這些歷史數(shù)據(jù)進行關(guān)聯(lián)分析而了解消費者的購買模式。

關(guān)聯(lián)分析的目的是找到用戶感興趣的關(guān)聯(lián)規(guī)則,輔助用戶管理決策。頻繁模式挖掘是關(guān)聯(lián)分析的關(guān)鍵步驟,比較經(jīng)典的頻繁模式挖掘算法包括:Apriori算法和FP-Growth算法。


(2)聚類分析


聚類分析是人類一向基本的認(rèn)知活動(如區(qū)分動物和植物),通過適當(dāng)?shù)木垲惙治?,人們更容易掌握事物的?nèi)部規(guī)律。聚類分析已經(jīng)被廣泛應(yīng)用于社會學(xué)、經(jīng)濟學(xué)、電子商務(wù)等多個領(lǐng)域,如在市場營銷中,根據(jù)客戶的購物積分卡記錄中的購物次數(shù)、時間、性別、年齡、職業(yè)、購物種類、金額等信息,進行聚類分析,幫助市場分析人員從交易數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,針對不同群體制定營銷策略,提高客戶對商場商業(yè)活動的響應(yīng)率。此外,聚類分析在生物學(xué)領(lǐng)域應(yīng)用日益突出,如通過對基因的聚類分析,獲得對種群的認(rèn)識等。


聚類分析是根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則將數(shù)據(jù)對象聚類或分組,所形成的每個簇可以看作一個數(shù)據(jù)對象類,用顯示或隱式的方法描述它們。


相似度用于判斷兩個樣本之間的差異程度,它是定義一個簇的基礎(chǔ),聚類分析過程的質(zhì)量取決于對相似度度量標(biāo)準(zhǔn)的選擇。通常使用“距離”來描述數(shù)據(jù)之間的相似程度。常用的距離度量標(biāo)準(zhǔn)有歐幾里得距離、Minkowski距離等。常用的聚類算法包括:基于層次的最領(lǐng)近算法、BIRCH算法、k-medoids算法、基于密度的OPTICS算法等。


(3)分類分析


 “啤酒尿布”的故事啟發(fā)銷售商采用關(guān)聯(lián)分析了解客戶的購買習(xí)慣,進而選擇更優(yōu)的營銷方案,但僅由這種技術(shù)來制定營銷方案任然是不夠的,銷售商還要考慮需要對哪些客戶采用哪種營銷方案,這需要分類技術(shù),將諸如客戶或營銷方案等分門別類,為各類客戶提供個性化方案。分類技術(shù)已經(jīng)在各個行業(yè)得到了廣泛應(yīng)用。例如,在醫(yī)療診斷中,用分類預(yù)測申請者的信用等級等。


分類是根據(jù)已有的數(shù)據(jù)樣本集的特點建立一個能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某一個給定類別的分類函數(shù)或構(gòu)造一個分類模型(或分類器classifier)的技術(shù),從而對未知類別的樣本賦予類別,以更好的輔助決策。


分類器的構(gòu)造分為模型訓(xùn)練階段(分析輸入數(shù)據(jù),通過在訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個類找到一種準(zhǔn)確的描述或模型)和測試階段(使用模型分類的階段,利用類別的描述或模型對測試數(shù)據(jù)進行分類)。


常見的分類模型的構(gòu)造方法有決策樹方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法等。不同分類模型有不同特點,數(shù)據(jù)樣本分類的結(jié)果也不同,評價分類模型的尺度主要包括:預(yù)測準(zhǔn)確度、計算復(fù)雜度、模型描述的簡潔度等。


(4)異常分析


前面討論的關(guān)聯(lián)、分類、聚類分析等數(shù)據(jù)挖掘技術(shù)研究的問題主要是針對數(shù)據(jù)集中的大部分對象,而數(shù)據(jù)集中小部分明顯不同于其他數(shù)據(jù)的對象(異常對象)常常被人們忽略或作為噪音消除。事實上,一些應(yīng)用中,這些異常對象可能包含比正常數(shù)據(jù)更優(yōu)價值的信息,比如信用卡欺詐檢測問題中,相對被竊前的使用模式而言,被竊后的使用模式很可能是個異常點,因此可通過識別這個異常點檢測信用卡是否被竊。異常分析已經(jīng)成為數(shù)據(jù)挖掘中的一個重要方面,它是在諸如信用卡使用模式這樣的大量數(shù)據(jù)中發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)的異常對象的技術(shù)。


一個數(shù)據(jù)集中包含的一些特別的數(shù)據(jù)稱為“異?!保鼈兊男袨楹湍J脚c一般的數(shù)據(jù)不同,它們又不同于聚類算法中的“噪音”,不依賴于是否存在簇。異常分析算法主要包括基于統(tǒng)計的異常分析方法、基于偏差的異常分析方法、基于距離的異常分析方法以及基于密度的異常分析方法等。


(5)特異群組挖掘


特異群組挖掘在證券金融、醫(yī)療保險、智能交通、社會網(wǎng)絡(luò)和生命科學(xué)等研究領(lǐng)域具有重要應(yīng)用價值。特異群組挖掘與聚類、異常挖掘都屬于根據(jù)數(shù)據(jù)對象的相似性來劃分?jǐn)?shù)據(jù)集的數(shù)據(jù)挖據(jù)任務(wù),但是,特異群組挖掘在問題定義、算法設(shè)計和應(yīng)用效果方面不同于聚類和異常等挖掘任務(wù)。


挖掘高價值、低密度的數(shù)據(jù)對象是大數(shù)據(jù)的一項重要工作,甚至高價值、低密度常常被用于描述大數(shù)據(jù)的特征。將大數(shù)據(jù)集中的少部分具有相似性的對象劃分到若干個組中,而大部分?jǐn)?shù)據(jù)對象不在任何組中,也不和其他對象相似,將這樣的組群稱為特異群組,實現(xiàn)這一挖掘需求的數(shù)據(jù)挖掘任務(wù)被稱為特異群組挖掘。需要強調(diào)的是,特異群組是指由給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對象而形成異常的群組,是一種高價值、低密度的數(shù)據(jù)形態(tài)。


大數(shù)據(jù)的特異群組挖掘具有廣泛的應(yīng)用背景。例如,在證券市場中,特異群組常常表現(xiàn)為合謀操縱(多帳戶聯(lián)合操縱)、基金“老鼠倉”等。


(6)演變分析

 

描述發(fā)展規(guī)律和趨勢是一種重要的預(yù)測形式,演變分析(Evolution analysis)是一種用于描述對象行為隨時間變化的規(guī)律或趨勢,并對其建模,以預(yù)測對象行為的未來形式的技術(shù)。例如,通過對股票交易數(shù)據(jù)的演變分析,可能會得到“89%情況下,股票X上漲一周左右后,股票Y會上漲”的一條知識。演變分析主要包括因果分析、時間序列分析等。

 

因果分析方法是研究當(dāng)某個或某些因素發(fā)生變化時,對其他因素的影響?;貧w分析是一類重要的因果分析方法,它是從各變量的互相關(guān)系出發(fā),通過分析與被預(yù)測變量有聯(lián)系的現(xiàn)象的動態(tài)趨勢,推算出被預(yù)測變量未來狀態(tài)的一種預(yù)測法。回歸分析預(yù)測法以來一個假設(shè),即要預(yù)測的變量與其他一個或多個變量之間存在因果關(guān)系。

 

時間序列分析是通過分析調(diào)查收集的已知歷史和現(xiàn)狀方面的資料,研究其演變規(guī)律,據(jù)此預(yù)測對象的未來發(fā)展趨勢。使用時間序列分析法基于一個假設(shè),即事物在過去如何隨時間變化,那么在今后也會同樣的方式繼續(xù)變化下去。

 

ICDM(國際數(shù)據(jù)挖掘大會)2006年從18種提名的數(shù)據(jù)挖掘算法中投票選出了十大算法。這18中提名數(shù)據(jù)挖掘算法分屬10大數(shù)據(jù)挖掘主題,高亮部分即為最終選出的十大算法:


  • 分類(Classification)

  • C4.5

  • CART

  • K Nearest Neighbours

  • Naive Bayes


  • 統(tǒng)計學(xué)習(xí)(Statistical Learning)

  • SVM

  • EM


  • 關(guān)聯(lián)分析(Association Analysis)

  • Apriori

  • FP-Tree


  • 鏈接挖掘(Link Mining)

  • PageRank

  • HITS


  • 聚類(Clustering)

  • K-Means

  • BIRCH


  • Bagging and Boosting

  • AdaBoost


序列模式(Sequential Patterns)

  • GSP

  • Prefix Span


  • 集成挖掘(Integrated Mining)

  • CBA


  • 粗糙集(Rough Sets)

  • Finding Reduct


  • 圖挖掘(Graph Mining)

  • gSpan

 

4. 器以成事


器就是數(shù)據(jù)挖掘的具體工具。例如,傳統(tǒng)商業(yè)分析工具有Matlab、SAS和SPSS,開源的數(shù)據(jù)挖掘工具有R、python、Weka等。


具體可以參見:數(shù)據(jù)分析中的Excel、R、Python、SPSS、SAS和SQL

 

參考文獻

  • Jiawei Han,Micheling Kamber, 數(shù)據(jù)挖掘 概念與技術(shù)(原書第3版) [Data Mining Concepts and Techniques Third Edition], 機械工業(yè)出版社, 2012.

  • 賈雙成, 王奇, 數(shù)據(jù)挖掘核心技術(shù)揭秘,  機械工業(yè)出版社, 2015.

  • 熊赟, 朱揚勇, 陳志淵, 大數(shù)據(jù)挖掘, 上海科學(xué)技術(shù)出版社, 2016.





    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多