數(shù)據(jù)挖掘?qū)W習(xí)

rating123 2019-05-23

展開全文

1.2、數(shù)據(jù)質(zhì)量分析

（1.數(shù)據(jù)質(zhì)量分析的目的：

保證數(shù)據(jù)的正確性、保證數(shù)據(jù)的有效性

例如：國際漫游通話客戶只有0.01%，因此對國際漫游通話時(shí)長該變量統(tǒng)計(jì)正確性毫無問題，也認(rèn)為該變量缺少有效的信息而有數(shù)據(jù)質(zhì)量問題，因?yàn)樵撟兞刻峁┖玫男畔⒅荒軐ψ疃?.01%的客戶產(chǎn)生影響，對未來預(yù)測模型的貢獻(xiàn)實(shí)在是微乎其微。

（2.數(shù)據(jù)質(zhì)量分析的內(nèi)容：

在數(shù)據(jù)的正確性分析方面：

1、缺失值：缺失數(shù)據(jù)包括空值或編碼為無意義的指（null）

2、數(shù)據(jù)錯(cuò)誤：通常是在輸入數(shù)據(jù)時(shí)，造成的排字錯(cuò)誤

3、度量標(biāo)準(zhǔn)錯(cuò)誤：正確輸入但因?yàn)椴徽_的度量標(biāo)準(zhǔn)而導(dǎo)致的錯(cuò)誤數(shù)據(jù)

4、編碼不一致：通常包括非標(biāo)準(zhǔn)度量單位或不一致的值。例如，同時(shí)使用M和male表示性別；

在數(shù)據(jù)的有效性方面：

關(guān)注數(shù)據(jù)統(tǒng)計(jì)方面的信息；

例如：占比、方差、均值、分位數(shù)等，以此來了解這些數(shù)據(jù)包含的信息度程度。

（3.數(shù)據(jù)質(zhì)量分析的方法：

1、值分析

例如：

通過本圖，X37 和 X38 的非零百分比超過80%，其他變量多數(shù)為0，這些為0的變量包含的信息少，以此他們對數(shù)據(jù)進(jìn)行挖掘意義不大。

如果為了保證數(shù)據(jù)的有效性，取閥值為80%，則這15個(gè)變量，又有X37 和 X38 會納入下一輪數(shù)據(jù)樣本的變量體系中。

1).唯一值分析：

它的最簡單情況：是變量只有一個(gè)取值，這樣的變量對于數(shù)據(jù)挖掘建模無法提供任何有效的信息。

例如，對于一定系統(tǒng)的變量：國籍———中國

另一種情況：對于變量業(yè)務(wù)含義有一定的了解，還能分析變量唯一值數(shù)比預(yù)期是多還是少。

例如：性別：男、女、不確定；如果出現(xiàn)4,5中取值就要查看是否存在數(shù)據(jù)的質(zhì)量問題

2).無效值分析：

空值，空字符串，null，0(無意義)都是無效值，對于無效值較多的變量（例如：該變量無效值比例超過90%等），首先懷疑數(shù)據(jù)處理過程是否存在錯(cuò)誤；

如無錯(cuò)誤，對于極差或無效的變量，在建模時(shí)將慎用甚至棄用。

3).異常值分析：

在多數(shù)情況下，變量不允許出現(xiàn)負(fù)值、空值。異常值分析主要是分析變量是否存在異常值得情況，再結(jié)合一定的業(yè)務(wù)背景知識，確認(rèn)是否存在錯(cuò)誤的數(shù)據(jù)。

2、統(tǒng)計(jì)分析

統(tǒng)計(jì)的基本統(tǒng)計(jì)概念：總體和樣本。從總體中隨機(jī)產(chǎn)生若干個(gè)個(gè)體的集合成為樣本。

從統(tǒng)計(jì)學(xué)的角度，統(tǒng)計(jì)的任務(wù)是由樣本推斷總體。

從數(shù)據(jù)探索角度，關(guān)注的通常由樣本推斷總體的數(shù)據(jù)特征。

1).基本統(tǒng)計(jì)量

（1）、表示位置的統(tǒng)計(jì)量：

1 眾數(shù)：變量中發(fā)生頻率最大的值。例如：用戶狀態(tài)（正常，欠費(fèi)停機(jī)，申請停機(jī)，拆機(jī)、消號），該變量的眾數(shù)是 “正?！?則是正常的。

2 中位數(shù)：中位數(shù)可避免極端數(shù)據(jù)，代表這數(shù)據(jù)總體的中等情況。例如：從小到大排序，總數(shù)是奇數(shù)，取中間的數(shù)，總數(shù)是偶數(shù)，取中間兩個(gè)數(shù)的平均數(shù)。

3 算數(shù)平均數(shù)：又稱均值，描述數(shù)據(jù)去指導(dǎo)額平均位置，數(shù)學(xué)表達(dá)式：~x (均值)= ∑x / n；

（2）、表示數(shù)據(jù)散度的統(tǒng)計(jì)量：

1 標(biāo)準(zhǔn)差：它是各個(gè)數(shù)據(jù)與均值偏離程度的度量，這種偏離也成異變。數(shù)學(xué)表達(dá)式：S = （[ ∑（x - ~x）2 ] / n）? ;這里可將n改為n-1，是無偏估計(jì)。

2 方差：標(biāo)準(zhǔn)差的平方。

3 極差：最大值和最小值之差。

（3）、表示分布形狀的統(tǒng)計(jì)量：

1 偏度：正態(tài)分布的偏度為0，偏度<0稱分布具有負(fù)偏離（左偏態(tài)），此時(shí)數(shù)據(jù)位于均值左邊的位于右邊的多,有個(gè)尾巴拖到左邊，說明左邊有極端值，偏度>0稱分布具有正偏離（右偏態(tài)）。偏度接近如于0 ，可認(rèn)為分布對稱。例如：知道分布有可能在偏度上偏離正態(tài)分布，則可用偏度來檢驗(yàn)分布的正態(tài)性。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

偏度計(jì)算公式：（n：總數(shù)； ~x：均值； SD：標(biāo)準(zhǔn)差）

2 峰度：描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量(與正態(tài)分布比較,，就是正態(tài)分布的峰頂)。例如：正態(tài)分布為3，若峰度 > 3 ，這表示分布有沉重的尾巴，說明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù)。峰度的絕對值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大。

峰度計(jì)算公式：（n：總數(shù)； ~x：均值； SD：標(biāo)準(zhǔn)差）

統(tǒng)計(jì)量中最重要的是均值和標(biāo)準(zhǔn)差。樣本是隨機(jī)變量，所以用他們?nèi)ネ茢嗫傮w時(shí)，可靠性和統(tǒng)計(jì)量的概率分布更準(zhǔn)確。不過在數(shù)據(jù)挖掘的不同階段，要用不同的統(tǒng)計(jì)量去認(rèn)識和評估數(shù)據(jù)。

（4）、表示分布描述性統(tǒng)計(jì)量

1 分位數(shù)：將數(shù)據(jù)從小到大排序，小于某個(gè)值得數(shù)據(jù)占總數(shù)的百分比。例如：通常所說的中位數(shù)就是50%分位數(shù)，即小于中位數(shù)所占總數(shù)的50%。

隨機(jī)變量的特征完全由它的概率分布函數(shù)或概率密度函數(shù)來描述。

設(shè)有隨機(jī)變量 X ，其分布函數(shù)定義為 X <= x 的概率，即 F(x) = P { X <= x }是連續(xù)型隨機(jī)變量。

則其密度函數(shù) P(x) 與 F(x)的關(guān)系為：

分位數(shù)，就可以用上面這樣定義：對于 0 < α < 1 ，使某分布函數(shù) F(x) = α 的 x ，為這個(gè)分布的 α 分位數(shù)，記作 Xα 。

對于下面要講的直方圖頻數(shù)分布圖，當(dāng) n 充分大時(shí)，頻率就是頻數(shù)的近似，因此直方圖可以看作密度函數(shù)圖形的（離散化）近似。

2).統(tǒng)計(jì)信息方法分析

如圖所示：均值，最大值，最小值，中位數(shù)描述的是數(shù)據(jù)的基本特征，從數(shù)據(jù)的質(zhì)量分析的角度來講，極差、方差、標(biāo)準(zhǔn)差更有用，因?yàn)檫@幾個(gè)統(tǒng)計(jì)量更關(guān)注這個(gè)變量所有數(shù)據(jù)的特征。

例1：如果發(fā)現(xiàn)某些數(shù)據(jù)的極差變化很大，則說明這些數(shù)據(jù)的數(shù)據(jù)量級差別很大，很可能需要對數(shù)據(jù)進(jìn)行歸一化處理。

例2：如果發(fā)現(xiàn)一些變量的標(biāo)準(zhǔn)差很小，則說明數(shù)據(jù)的變化很大，有可能說明這個(gè)變量所包含的信息比較少，在數(shù)據(jù)挖掘中就可以考慮是否需要?jiǎng)h除這些變量。

認(rèn)識統(tǒng)計(jì)變量的本身不同的特征，需要注意一下幾點(diǎn)：

（1,）、查看數(shù)據(jù)與正態(tài)分布的接近程度（即分析數(shù)據(jù)的的分布情況，這是核心），可以選取有代表性的統(tǒng)計(jì)量表示整體情況。例如：在數(shù)據(jù)分布為正態(tài)時(shí)，可以用均值來代替數(shù)據(jù)的整體情況，在數(shù)據(jù)分布較為偏斜時(shí)，眾數(shù)與中數(shù)就能代替數(shù)據(jù)的整體情況。

（2）、用均值和極值評判時(shí)，要有一定的業(yè)務(wù)常識，或與歷史進(jìn)行對比。例如：查看最小值是否符合業(yè)務(wù)邏輯，最高值是否準(zhǔn)確，真實(shí)。均值是否合理。單純均值和極值評判時(shí)需要借助一定的業(yè)務(wù)經(jīng)驗(yàn)。具有局限性。

（3）、標(biāo)準(zhǔn)差反映數(shù)據(jù)的分散程度。

如圖：深灰，淺灰，淡灰區(qū)域分別對應(yīng)1，2，3倍標(biāo)準(zhǔn)差，對應(yīng)的概率為68.3%，95.5%，99.7%。

例如：變量是以正態(tài)分布的，則當(dāng)最大值（或最小值）與均值的差超過3倍標(biāo)準(zhǔn)差時(shí)，很可能這些極值存在問題。

現(xiàn)實(shí)中，一方面數(shù)據(jù)量巨大，因此，極值超過3倍標(biāo)準(zhǔn)差也是正常的，另一方面，許多變量分布并不滿足正態(tài)分布，使用時(shí)要注意。

3、頻次圖與直方圖分析

通過頻次圖與直方圖分析能對數(shù)據(jù)進(jìn)行更深入、更直觀的分析。同時(shí)，可以有效地觀測出數(shù)據(jù)分布的兩個(gè)重要特征：集中趨勢和離散趨勢。

1).直方圖分析

直方圖適用于對大量連續(xù)性數(shù)據(jù)進(jìn)行整理加工，找出其統(tǒng)計(jì)規(guī)律，以便對其總體分布特征進(jìn)行推斷。

直方圖（數(shù)值等寬）分析步驟如下：

（1）、找出最大，小值

（2）、先排序，然后分組（6~20組為宜）

（3）、組數(shù)/（最大值-最小值）,求出組距寬度

（4）、計(jì)算各組界限位（上、下界限位）。

（5）、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù)，作頻數(shù)分布表

（6）、以組距為底長，以頻數(shù)為高，作各組的矩形圖。

其中各組的界限位可以從第一組一次計(jì)算，第一組的下界=最小值-（組距/2），上界=下界值+組距；第二組的下界=第一組的上界，上界=第二組下界+組距

例子1：

這是一個(gè)比較正常的直方圖

例子2：

該圖變量的數(shù)據(jù)過于集中，這對數(shù)據(jù)挖掘來說意義不大，所以就可以刪除該變量。

2).頻次圖分析

頻次圖是為了計(jì)算離散型數(shù)據(jù)各值分布情況的統(tǒng)計(jì)方法，它有助于理解某些特殊數(shù)值的意義，同時(shí)它也可以支持多個(gè)維度組合分布情況。

對分類變量進(jìn)行頻次圖分析步驟：

（1）、集中和記錄數(shù)據(jù)，計(jì)算總的分類數(shù)N

（2）、將數(shù)據(jù)按序排列，分為N組

（3）、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù)，作頻數(shù)分布表

（4）、作頻次圖

例子：

這是2000-2014年的全球7級以上的地震頻次圖，分類是按年份。

4、衍生變量

它是由其他既有變量通過不同形式的組合而衍生的變量，衍生變量與原始變量有一定的相關(guān)性，但是不是所有的衍生變量都有意義，要適度，看情況。

例子：密度 = 質(zhì)量 / 體積；線密度 = 質(zhì)量 /長度；要研究那個(gè)物體可以漂浮在水面上，只要根據(jù)密度這一衍生變量就可以判斷出。

衍生變量是數(shù)據(jù)挖掘探索最重要的環(huán)，但是對于一個(gè)項(xiàng)目來說，有無數(shù)個(gè)衍生變量。

幾個(gè)基本的衍生變量的方法：

（1）、對多個(gè)列變量進(jìn)行組合

例如：身高的平方 / 體重（肥胖指數(shù)）；負(fù)債 / 收益；總通話時(shí)間 / 總呼叫次數(shù) ；網(wǎng)頁訪問量 / 購買總量等；

（2）、按照維度（也叫變量）分類

例如：在分析無線通信酷虎六十現(xiàn)象時(shí)發(fā)現(xiàn)，按照手機(jī)型號分類匯總的流失率比單純用手機(jī)型號分類的數(shù)據(jù)更有用。

（3）、對某個(gè)變量進(jìn)一步分解

例如：對于日期變量，可進(jìn)一步分解為季度、節(jié)假日、工作日、周末等變量。

（4）、對具有時(shí)間序列特征的變量可以進(jìn)一步提取時(shí)序特征。

例如：一段時(shí)間的總開銷量、平均增長率、初始值與終值的比率、兩個(gè)相鄰值之間的比率、顧客在暑假購物占年度比重、周末電話平均長度與每周電話平均長度。

例子：證劵市場上的各種技術(shù)指標(biāo)基本都是衍生變量。

（1）、環(huán)境準(zhǔn)備與讀取原始數(shù)據(jù)

（2）、計(jì)算衍生變量

（3）、收集并保持?jǐn)?shù)據(jù)

（4）、數(shù)據(jù)可視化

比如：

（5）、評價(jià)型衍生變量

在衍生變量中有一類重要的衍生變量，這類變量作用是用于評價(jià)被挖掘事物和好壞，就是評價(jià)型衍生變量（目標(biāo)，比如：好壞等），而其他的叫指標(biāo)型衍生變量。

因?yàn)閿?shù)據(jù)挖掘中很多算法是機(jī)器學(xué)習(xí)算法，這類算法的典型特點(diǎn)是需要有輸入和輸出的樣本訓(xùn)練機(jī)器。

比如：評價(jià)股票的好壞，針對上面的可視化結(jié)果，在根據(jù)一定規(guī)則進(jìn)行衍生得到它的好壞。

重復(fù)一到四步，生成可視化圖：

（6）、衍生變量的收集與集成

當(dāng)產(chǎn)生衍生變量后，為了便于后學(xué)的數(shù)據(jù)處理，通常需要將數(shù)據(jù)收集在一起，如果在不同的文件或表中，也常常合并在一種表中。

5、數(shù)據(jù)可視化

對數(shù)據(jù)可視化，經(jīng)過分析，篩選出我們需要的好數(shù)據(jù)。

1）、數(shù)據(jù)分布形狀可視化

例如：柱狀分布圖

通過圖可以看到dv3過于集中，相當(dāng)于固定值，這種最好刪除。可見對數(shù)據(jù)進(jìn)行可視化分析意義很大。

2）、數(shù)據(jù)關(guān)聯(lián)情況可視化

在進(jìn)行變量篩選前，可先利用關(guān)聯(lián)可視化了解各變量的關(guān)聯(lián)關(guān)系。

例如：

通過該圖可以看出任意兩個(gè)變量的關(guān)聯(lián)趨向。

通過該圖，從宏觀上表現(xiàn)出變量間的關(guān)聯(lián)強(qiáng)度，實(shí)踐中往往用于篩選變量。

3）、數(shù)據(jù)分組可視化

它是按照不同的分位數(shù)將數(shù)據(jù)進(jìn)行分組，典型的圖形就是箱體圖。根據(jù)香體乳可以看出數(shù)據(jù)的分布特征和異常值的數(shù)量，這對于確定是否需要進(jìn)行異常值處理很有利。

例如：

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： rating123 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)