數(shù)據(jù)挖掘的10個常見問題

ShangShujie 2007-04-03

展開全文

數(shù)據(jù)挖掘的10個常見問題

2007-01-02　14:03:01

大中小

Q1. Data Mining 和統(tǒng)計分析有什么不同？
硬要去區(qū)分Data Mining和Statistics的差異其實是沒有太大意義的。一般將之定義為Data Mining技術的CART、CHAID或模糊計算等等理論方法，也都是由統(tǒng)計學者根據(jù)統(tǒng)計理論所發(fā)展衍生，換另一個角度看，Data Mining有相當大的比重是由高等統(tǒng)計學中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會引發(fā)各領域的廣泛注意呢？主要原因在相較于傳統(tǒng)統(tǒng)計分析而言，Data Mining有下列幾項特性：
1.處理大量實際資料更強勢，且無須太專業(yè)的統(tǒng)計背景去使用Data Mining的工具；
2.資料分析趨勢為從大型數(shù)據(jù)庫抓取所需資料并使用專屬計算機分析軟件，Data Mining的工具更符合企業(yè)需求；
3. 純就理論的基礎點來看，Data Mining和統(tǒng)計分析有應用上的差別，畢竟Data Mining目的是方便企業(yè)末端用者使用而非給統(tǒng)計學家檢測用的。

Q2. Data Warehousing 和 Data Mining 的關系為何？
若將Data Warehousing（資料倉儲）比喻作礦坑，Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無中生有的魔術，也不是點石成金的煉金術，若沒有夠豐富完整的資料，是很難期待Data Mining能挖掘出什么有意義的信息的。
要將龐大的資料轉(zhuǎn)換成為有用的信息，必須先有效率地收集信息。隨著科技的進步，功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集資料的工具?！纲Y料倉儲」，簡單地說，就是搜集來自其它系統(tǒng)的有用資料，存放在一整合的儲存區(qū)內(nèi)。所以其實就是一個經(jīng)過處理整合，且容量特別大的關系型數(shù)據(jù)庫，用以儲存決策支持系統(tǒng)（Design Support System）所需的資料，供決策支持或資料分析使用。從信息技術的角度來看，資料倉儲的目標是在組織中，在正確的時間，將正確的資料交給正確的人。
許多人對于Data Warehousing和Data Mining時?；煜?，不知如何分辨。其實，資料倉儲是數(shù)據(jù)庫技術的一個新主題，在資料科技日漸普及下，利用計算機系統(tǒng)幫助我們操作、計算和思考，讓作業(yè)方式改變，決策方式也跟著改變。
資料倉儲本身是一個非常大的數(shù)據(jù)庫，它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的資料，特別是指從線上交易系統(tǒng)OLTP（On-Line Transactional Processing）所得來的資料。將這些整合過的資料置放于資料倉儲中，而公司的決策者則利用這些資料作決策；但是，這個轉(zhuǎn)換及整合資料的過程，是建立一個資料倉儲最大的挑戰(zhàn)。因為將作業(yè)中的資料轉(zhuǎn)換成有用的的策略性信息是整個資料倉儲的重點。綜上所述，資料倉儲應該具有這些資料：整合性資料（integrated data）、詳細和匯總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料。從資料倉儲挖掘出對決策有用的信息與知識，是建立資料倉儲與使用Data Mining的最大目的，兩者的本質(zhì)與過程是兩碼子事。換句話說，資料倉儲應先行建立完成，Data mining才能有效率的進行，因為資料倉儲本身所含資料是干凈(不會有錯誤的資料參雜其中）、完備，且經(jīng)過整合的。因此兩者關系或許可解讀為「Data Mining是從巨大資料倉儲中找出有用信息的一種過程與技術」。

Q3. OLAP 能不能代替 Data Mining？
所謂OLAP（Online Analytical Process）意指由數(shù)據(jù)庫所連結(jié)出來的線上查詢分析程序。有些人會說：「我已經(jīng)有OLAP的工具了，所以我不需要Data Mining?！故聦嵣蟽烧唛g是截然不同的，主要差異在于Data Mining用在產(chǎn)生假設，OLAP則用于查證假設。簡單來說，OLAP是由使用者所主導，使用者先有一些假設，然后利用OLAP來查證假設是否成立；而Data Mining則是用來幫助使用者產(chǎn)生假設。所以在使用OLAP或其它Query的工具時，使用者是自己在做探索（Exploration），但Data Mining是用工具在幫助做探索。
舉個例子來看，一市場分析師在為超市規(guī)劃貨品架柜擺設時，可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品，接著便可利用OLAP的工具去驗證此假設是否為真，又成立的證據(jù)有多明顯；但Data Mining則不然，執(zhí)行Data Mining的人將龐大的結(jié)帳資料整理后，并不需要假設或期待可能的結(jié)果，透過Mining技術可找出存在于資料中的潛在規(guī)則，于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發(fā)現(xiàn)，這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納范圍的關系，但OLAP僅能利用人工查詢及可視化的報表來確認某些關系，是以Data Mining此種自動找出甚或不會被懷疑過的資料型樣與關系的特性，事實上已超越了我們經(jīng)驗、教育、想象力的限制，OLAP可以和Data Mining互補，但這項特性是Data Mining無法被OLAP取代的。

Q4. 完整的Data Mining 包含哪些步驟？
以下提供一個Data Mining的進行步驟以為參考：
1. 厘清目標與理解資料；
2. 獲取相關技術與知識；
3. 整合與查核資料；
4. 去除錯誤或不一致及不完整的資料；
5. 由數(shù)據(jù)選取樣本先行試驗；
6. 研發(fā)模式（model）與型樣（pattern）；
7. 實際Data Mining的分析工作；
8. 測試與檢核；
9. 找出假設并提出解釋；
10. 持續(xù)應用于企業(yè)流程中。
由上述步驟可看出，Data Mining牽涉了大量的準備工作與規(guī)劃過程，事實上許多專家皆認為整套Data Mining的進行有80﹪的時間精力是花費在資料前置作業(yè)階段，其中包含資料的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過程中的一個步驟而已，在進行此步驟前還有許多的工作要先完成。

Q5. Data Mining 運用了哪些理論與技術？
Data Mining是近年來數(shù)據(jù)庫應用技術中相當熱門的議題，看似神奇、聽來時髦，實際上卻也不是什么新東西，因其所用之諸如預測模式、資料分割，連結(jié)分析（Link Analysis）、偏差偵測（Deviation Detection）等，美國早在二次世界大戰(zhàn)前就已應用運用在人口普查及軍事等方面。
隨著信息科技超乎想象的進展，許多新的計算機分析工具問世，例如關系型數(shù)據(jù)庫、模糊計算理論、基因算法則以及類神經(jīng)網(wǎng)絡等，使得從資料中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實行的程序。
一般而言，Data Mining的理論技術可分為傳統(tǒng)技術與改良技術兩支。傳統(tǒng)技術以統(tǒng)計分析為代表，舉凡統(tǒng)計學內(nèi)所含之敘述統(tǒng)計、機率論、回歸分析、類別資料分析等皆屬之，尤其 Data Mining 對象多為變量繁多且筆數(shù)龐大的數(shù)據(jù)，是以高等統(tǒng)計學里所含括之多變量分析中用來精簡變量的因素分析（Factor Analysis）、用來分類的判別分析（Discriminant Analysis），以及用來區(qū)隔群體的分群分析（Cluster Analysis）等，在Data Mining過程中特別常用。
在改良技術方面，應用較普遍的有決策樹理論（Decision Trees）、類神經(jīng)網(wǎng)絡（Neural Network）以及規(guī)則歸納法（Rules Induction）等。決策樹是一種用樹枝狀展現(xiàn)資料受各變量的影響情形之預測模型，根據(jù)對目標變量產(chǎn)生之效應的不同而建構(gòu)分類的規(guī)則，一般多運用在對顧客資料的區(qū)隔分析上，例如針對有回函與未回含的郵寄對象找出影響其分類結(jié)果的變量組合，常用分類方法為CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）兩種。
類神經(jīng)網(wǎng)絡是一種仿真人腦思考結(jié)構(gòu)的資料分析模式，由輸入之變量與數(shù)值中自我學習并根據(jù)學習經(jīng)驗所得之知識不斷調(diào)整參數(shù)以期建構(gòu)資料的型樣(patterns)。類神經(jīng)網(wǎng)絡為非線性的設計，與傳統(tǒng)回歸分析相比，好處是在進行分析時無須限定模式，特別當資料變量間存有交互效應時可自動偵測出；缺點則在于其分析過程為一黑盒子，故常無法以可讀之模型格式展現(xiàn)，每階段的加權(quán)與轉(zhuǎn)換亦不明確，是故類神經(jīng)網(wǎng)絡多利用于資料屬于高度非線性且?guī)в邢喈敵潭鹊淖兞拷桓行獣r。
規(guī)則歸納法是知識發(fā)掘的領域中最常用的格式，這是一種由一連串的「如果…/則…（If / Then）」之邏輯規(guī)則對資料進行細分的技術，在實際運用時如何界定規(guī)則為有效是最大的問題，通常需先將資料中發(fā)生數(shù)太少的項目先剔除，以避免產(chǎn)生無意義的邏輯規(guī)則。

Q6. Data Mining包含哪些主要功能？
Data Mining實際應用功能可分為三大類六分項來說明：Classification和Clustering屬于分類區(qū)隔類；Regression和Time-series屬于推算預測類；Association和Sequence則屬于序列規(guī)則類。
Classification是根據(jù)一些變量的數(shù)值做計算，再依照結(jié)果作分類。（計算的結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值，例如將一組資料分為 "可能會響應" 或是 "可能不會響應" 兩類）。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已經(jīng)分類好的資料來研究它們的特征，然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預測。這些我們用來尋找特征的已分類資料可能是來自我們的現(xiàn)有的客戶資料，或是將一個完整數(shù)據(jù)庫做部份取樣，再經(jīng)由實際的運作來測試；譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取樣來建立一個Classification Model，再利用這個Model來對數(shù)據(jù)庫的其它資料或是新的資料作分類預測。
Clustering用在將資料分群，其目的在于將群間的差異找出來，同時也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是，在分析前并不知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領域知識來解讀這些分群的意義。
Regression是使用一系列的現(xiàn)有數(shù)值來預測一個連續(xù)數(shù)值的可能值。若將范圍擴大亦可利用Logistic Regression來預測類別變量，特別在廣泛運用現(xiàn)代分析技術如類神經(jīng)網(wǎng)絡或決策樹理論等分析工具，推估預測的模式已不在止于傳統(tǒng)線性的局限，在預測的功能上大大增加了選擇工具的彈性與應用范圍的廣度。
Time-Series Forecasting與Regression功能類似，只是它是用現(xiàn)有的數(shù)值來預測未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性，譬如時間的周期性、階層性、季節(jié)性以及其它的一些特別因素（如過去與未來的關連性）。
Association是要找出在某一事件或是資料中會同時出現(xiàn)的東西。舉例而言，如果A是某一事件的一種選擇，則B也出現(xiàn)在該事件中的機率有多少。（例如：如果顧客買了火腿和柳橙汁，那么這個顧客同時也會買牛奶的機率是85%。）
Sequence Discovery與Association關系很密切，所不同的是Sequence Discovery中事件的相關是以時間因素來作區(qū)隔（例如：如果A股票在某一天上漲12%，而且當天股市加權(quán)指數(shù)下降，則B股票在兩天之內(nèi)上漲的機率是 68%）。

Q7. Data Mining在各領域的應用情形為何？
Data Mining在各領域的應用非常廣泛，只要該產(chǎn)業(yè)擁有具分析價值與需求的資料倉儲或數(shù)據(jù)庫，皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財務金融保險、通訊業(yè)以及醫(yī)療服務等。
于銷售資料中發(fā)掘顧客的消費習性，并可藉由交易紀錄找出顧客偏好的產(chǎn)品組合，其它包括找出流失顧客的特征與推出新產(chǎn)品的時機點等等都是零售業(yè)常見的實例；直效行銷強調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導入Data Mining的技術后，使直效行銷的發(fā)展性更為強大，例如利用Data Mining分析顧客群之消費行為與交易紀錄，結(jié)合基本資料，并依其對品牌價值等級的高低來區(qū)隔顧客，進而達到差異化行銷的目的；制造業(yè)對Data Mining的需求多運用在品質(zhì)控管方面，由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素，以期提高作業(yè)流程的效率。
近來電話公司、信用卡公司、保險公司以及股票交易商對于詐欺行為的偵測（Fraud Detection）都很有興趣，這些行業(yè)每年因為詐欺行為而造成的損失都非?？捎^，Data Mining可以從一些信用不良的客戶資料中找出相似特征并預測可能的詐欺交易，達到減少損失的目的。財務金融業(yè)可以利用 Data Mining來分析市場動向，并預測個別公司的營運以及股價走向。Data Mining的另一個獨特的用法是在醫(yī)療業(yè)，用來預測手術、用藥、診斷、或是流程控制的效率。

Q8. Web Mining 和Data Mining有什么不同？
如果將Web視為CRM的一個新的Channel，則Web Mining便可單純看做Data Mining應用在網(wǎng)絡資料的泛稱。
該如何測量一個網(wǎng)站是否成功？哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的？主要訪客是哪些人？什么原因吸引他們前來？如何從堆積如山之大量由網(wǎng)絡所得資料中找出讓網(wǎng)站運作更有效率的操作因素？以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析，除了計算網(wǎng)頁瀏覽率以及訪客人次外，舉凡網(wǎng)絡上的零售、財務服務、通訊服務、政府機關、醫(yī)療咨詢、遠距教學等等，只要由網(wǎng)絡連結(jié)出的數(shù)據(jù)庫夠大夠完整，所有Off-Line可進行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫，實施更大規(guī)模的模型預測與推估，畢竟憑借網(wǎng)際網(wǎng)絡的便利性與滲透力再配合網(wǎng)絡行為的可追蹤性與高互動特質(zhì)，一對一行銷的理念是最有機會在網(wǎng)絡世界里完全落實的。
整體而言，Web Mining具有以下特性：1. 資料收集容易且不引人注意，所謂凡走過必留下痕跡，當訪客進入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀錄的；2. 以交互式個人化服務為終極目標，除了因應不同訪客呈現(xiàn)專屬設計的網(wǎng)頁之外，不同的訪客也會有不同的服務；3. 可整合外部來源資料讓分析功能發(fā)揮地更深更廣，除了log file、cookies、會員填表資料、線上調(diào)查資料、線上交易資料等由網(wǎng)絡直接取得的資源外，結(jié)合實體世界累積時間更久、范圍更廣的資源，將使分析的結(jié)果更準確也更深入。
利用Data Mining技術建立更深入的訪客資料剖析，并賴以架構(gòu)精準的預測模式，以期呈現(xiàn)真正智能型個人化的網(wǎng)絡服務，是Web Mining努力的方向。

Q9. Data Mining 在 CRM 中扮演的角色為何？
CRM（Customer Relationship Management）是近來引起熱烈討論與高度關切的議題，尤其在直效行銷的崛起與網(wǎng)絡的快速發(fā)展帶動下，跟不上CRM的腳步如同跟不上時代。事實上CRM并不算新發(fā)明，奧美直效行銷推動十數(shù)年的CO（Customer Ownership）就是現(xiàn)在大家談的CRM—客戶關系管理。
Data Mining應用在CRM的主要方式可對應在Gap Analysis之三個部分：
針對Acquisition Gap，可利用Customer Profiling找出客戶的一些共同的特征，希望能藉此深入了解客戶，藉由Cluster Analysis對客戶進行分群后再透過Pattern Analysis預測哪些人可能成為我們的客戶，以幫助行銷人員找到正確的行銷對象，進而降低成本，也提高行銷的成功率。
針對Sales Gap，可利用Basket Analysis幫助了解客戶的產(chǎn)品消費模式，找出哪些產(chǎn)品客戶最容易一起購買，或是利用Sequence Discovery預測客戶在買了某一樣產(chǎn)品之后，在多久之內(nèi)會買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進貨量或庫存量，甚或是在店里要如何擺設貨品等，同時也可以用來評估促銷活動的成效。
針對Retention Gap，可以由原客戶后來卻轉(zhuǎn)成競爭對手的客戶群中，分析其特征，再根據(jù)分析結(jié)果到現(xiàn)有客戶資料中找出可能轉(zhuǎn)向的客戶，然后設計一些方法預防客戶流失；更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費行為與交易紀錄對客戶忠誠度進行Scoring的排序，如此則可區(qū)隔流失率的等級進而配合不同的策略。
CRM不是設一個（080）客服專線就算了，更不僅只是把一堆客戶基本資料輸入計算機就夠，完整的CRM運作機制在相關的硬軟件系統(tǒng)能健全的支持之前，有太多的資料準備工作與分析需要推動。企業(yè)透過Data Mining可以分別針對策略、目標定位、操作效能與測量評估等四個切面之相關問題，有效率地從市場與顧客所搜集累積之大量資料中挖掘出對消費者而言最關鍵、最重要的答案，并賴以建立真正由客戶需求點出發(fā)的客戶關系管理。

Q10. 目前業(yè)界有哪些常用的Data Mining分析工具？
Data Mining工具市場大致可分為三類：
1. 一般分析目的用的軟件包
SAS Enterprise Miner
IBM Intelligent Miner
Unica PRW
SPSS Clementine
SGI MineSet
Oracle Darwin
Angoss KnowledgeSeeker
2. 針對特定功能或產(chǎn)業(yè)而研發(fā)的軟件
KD1（針對零售業(yè)）
Options & Choices（針對保險業(yè)）
HNC（針對信用卡詐欺或呆帳偵測）
Unica Model 1（針對行銷業(yè)）
3. 整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系統(tǒng)
Cognos Scenario and Business Objects