日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)挖掘?qū)W習(xí)

 rating123 2019-05-23

1.2、數(shù)據(jù)質(zhì)量分析

(1.數(shù)據(jù)質(zhì)量分析的目的:

保證數(shù)據(jù)的正確性、保證數(shù)據(jù)的有效性

例如:國際漫游通話客戶只有0.01%,因此對國際漫游通話時(shí)長該變量統(tǒng)計(jì)正確性毫無問題,也認(rèn)為該變量缺少有效的信息而有數(shù)據(jù)質(zhì)量問題,因?yàn)樵撟兞刻峁┖玫男畔⒅荒軐ψ疃?.01%的客戶產(chǎn)生影響,對未來預(yù)測模型的貢獻(xiàn)實(shí)在是微乎其微。

(2.數(shù)據(jù)質(zhì)量分析的內(nèi)容

在數(shù)據(jù)的正確性分析方面:

1、缺失值:缺失數(shù)據(jù)包括空值或編碼為無意義的指(null)

2、數(shù)據(jù)錯(cuò)誤:通常是在輸入數(shù)據(jù)時(shí),造成的排字錯(cuò)誤

3、度量標(biāo)準(zhǔn)錯(cuò)誤:正確輸入但因?yàn)椴徽_的度量標(biāo)準(zhǔn)而導(dǎo)致的錯(cuò)誤數(shù)據(jù)

4、編碼不一致:通常包括非標(biāo)準(zhǔn)度量單位或不一致的值。例如,同時(shí)使用M和male表示性別;

在數(shù)據(jù)的有效性方面:

關(guān)注數(shù)據(jù)統(tǒng)計(jì)方面的信息;

例如:占比、方差、均值、分位數(shù)等,以此來了解這些數(shù)據(jù)包含的信息度程度。

(3.數(shù)據(jù)質(zhì)量分析的方法:

1、值分析

例如:

通過本圖,X37 和 X38 的非零百分比超過80%,其他變量多數(shù)為0,這些為0的變量包含的信息少,以此他們對數(shù)據(jù)進(jìn)行挖掘意義不大。

如果為了保證數(shù)據(jù)的有效性,取閥值為80%,則這15個(gè)變量,又有X37 和 X38 會納入下一輪數(shù)據(jù)樣本的變量體系中。

1).唯一值分析:

它的最簡單情況:是變量只有一個(gè)取值,這樣的變量對于數(shù)據(jù)挖掘建模無法提供任何有效的信息。

例如,對于一定系統(tǒng)的變量:國籍———中國

另一種情況:對于變量業(yè)務(wù)含義有一定的了解,還能分析變量唯一值數(shù)比預(yù)期是多還是少。

例如:性別:男、女、不確定;如果出現(xiàn)4,5中取值就要查看是否存在數(shù)據(jù)的質(zhì)量問題

2).無效值分析:

空值,空字符串,null,0(無意義)都是無效值,對于無效值較多的變量(例如:該變量無效值比例超過90%等),首先懷疑數(shù)據(jù)處理過程是否存在錯(cuò)誤;

如無錯(cuò)誤,對于極差或無效的變量,在建模時(shí)將慎用甚至棄用。

3).異常值分析:

在多數(shù)情況下,變量不允許出現(xiàn)負(fù)值、空值。異常值分析主要是分析變量是否存在異常值得情況,再結(jié)合一定的業(yè)務(wù)背景知識,確認(rèn)是否存在錯(cuò)誤的數(shù)據(jù)。

2、統(tǒng)計(jì)分析

統(tǒng)計(jì)的基本統(tǒng)計(jì)概念:總體和樣本。從總體中隨機(jī)產(chǎn)生若干個(gè)個(gè)體的集合成為樣本。

從統(tǒng)計(jì)學(xué)的角度,統(tǒng)計(jì)的任務(wù)是由樣本推斷總體。

從數(shù)據(jù)探索角度,關(guān)注的通常由樣本推斷總體的數(shù)據(jù)特征。

1).基本統(tǒng)計(jì)量

(1)、表示位置的統(tǒng)計(jì)量:

1 眾數(shù):變量中發(fā)生頻率最大的值。例如:用戶狀態(tài)(正常,欠費(fèi)停機(jī),申請停機(jī),拆機(jī)、消號),該變量的眾數(shù)是 “正?!?則是正常的。

2 中位數(shù):中位數(shù)可避免極端數(shù)據(jù),代表這數(shù)據(jù)總體的中等情況。例如:從小到大排序,總數(shù)是奇數(shù),取中間的數(shù),總數(shù)是偶數(shù),取中間兩個(gè)數(shù)的平均數(shù)。

3 算數(shù)平均數(shù):又稱均值,描述數(shù)據(jù)去指導(dǎo)額平均位置,數(shù)學(xué)表達(dá)式:~x (均值)=  ∑x  /  n;

(2)、表示數(shù)據(jù)散度的統(tǒng)計(jì)量:

1 標(biāo)準(zhǔn)差:它是各個(gè)數(shù)據(jù)與均值偏離程度的度量,這種偏離也成異變。數(shù)學(xué)表達(dá)式:S = ([ ∑(x  - ~x)2 ] / n)?   ;這里可將n改為n-1,是無偏估計(jì)。

2 方差:標(biāo)準(zhǔn)差的平方。

3 極差:最大值和最小值之差。

(3)、表示分布形狀的統(tǒng)計(jì)量:

1 偏度:正態(tài)分布的偏度為0,偏度<0稱分布具有負(fù)偏離(左偏態(tài)),此時(shí)數(shù)據(jù)位于均值左邊的位于右邊的多,有個(gè)尾巴拖到左邊,說明左邊有極端值,偏度>0稱分布具有正偏離(右偏態(tài))。偏度接近如于0 ,可認(rèn)為分布對稱。例如:知道分布有可能在偏度上偏離正態(tài)分布,則可用偏度來檢驗(yàn)分布的正態(tài)性。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

偏度計(jì)算公式:(n:總數(shù);    ~x:均值;   SD:標(biāo)準(zhǔn)差)

2 峰度:描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量(與正態(tài)分布比較,,就是正態(tài)分布的峰頂)。例如:正態(tài)分布為3,若峰度 > 3 ,這表示分布有沉重的尾巴,說明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù)。峰度的絕對值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大。

峰度計(jì)算公式:(n:總數(shù);    ~x:均值;   SD:標(biāo)準(zhǔn)差)

統(tǒng)計(jì)量中最重要的是均值和標(biāo)準(zhǔn)差。樣本是隨機(jī)變量,所以用他們?nèi)ネ茢嗫傮w時(shí),可靠性和統(tǒng)計(jì)量的概率分布更準(zhǔn)確。不過在數(shù)據(jù)挖掘的不同階段,要用不同的統(tǒng)計(jì)量去認(rèn)識和評估數(shù)據(jù)。

(4)、表示分布描述性統(tǒng)計(jì)量

1 分位數(shù):將數(shù)據(jù)從小到大排序,小于某個(gè)值得數(shù)據(jù)占總數(shù)的百分比。例如:通常所說的中位數(shù)就是50%分位數(shù),即小于中位數(shù)所占總數(shù)的50%。

隨機(jī)變量的特征完全由它的概率分布函數(shù)或概率密度函數(shù)來描述。

設(shè)有隨機(jī)變量 X ,其分布函數(shù)定義為 X <= x  的概率,即 F(x) = P { X <= x  }是連續(xù)型隨機(jī)變量。

則 其密度函數(shù) P(x) 與 F(x)的關(guān)系為:

 

分位數(shù),就可以用上面這樣定義:對于 0 < α < 1 ,使某分布函數(shù) F(x) = α  的  x ,為這個(gè)分布的  α  分位數(shù),記作  Xα 。

對于下面要講的直方圖頻數(shù)分布圖,當(dāng)  n  充分大時(shí),頻率就是頻數(shù)的近似,因此直方圖可以看作密度函數(shù)圖形的(離散化)近似。

2).統(tǒng)計(jì)信息方法分析


如圖所示:均值,最大值,最小值,中位數(shù)描述的是數(shù)據(jù)的基本特征,從數(shù)據(jù)的質(zhì)量分析的角度來講,極差、方差、標(biāo)準(zhǔn)差更有用,因?yàn)檫@幾個(gè)統(tǒng)計(jì)量更關(guān)注這個(gè)變量所有數(shù)據(jù)的特征。

例1:如果發(fā)現(xiàn)某些數(shù)據(jù)的極差變化很大,則說明這些數(shù)據(jù)的數(shù)據(jù)量級差別很大,很可能需要對數(shù)據(jù)進(jìn)行歸一化處理。

例2:如果發(fā)現(xiàn)一些變量的標(biāo)準(zhǔn)差很小,則說明數(shù)據(jù)的變化很大,有可能說明這個(gè)變量所包含的信息比較少,在數(shù)據(jù)挖掘中就可以考慮是否需要?jiǎng)h除這些變量。

認(rèn)識統(tǒng)計(jì)變量的本身不同的特征,需要注意一下幾點(diǎn):

(1,)、查看數(shù)據(jù)與正態(tài)分布的接近程度(即分析數(shù)據(jù)的的分布情況,這是核心),可以選取有代表性的統(tǒng)計(jì)量表示整體情況。例如:在數(shù)據(jù)分布為正態(tài)時(shí),可以用均值來代替數(shù)據(jù)的整體情況,在數(shù)據(jù)分布較為偏斜時(shí),眾數(shù)與中數(shù)就能代替數(shù)據(jù)的整體情況。

(2)、用均值和極值評判時(shí),要有一定的業(yè)務(wù)常識,或與歷史進(jìn)行對比。例如:查看最小值是否符合業(yè)務(wù)邏輯,最高值是否準(zhǔn)確,真實(shí)。均值是否合理。單純均值和極值評判時(shí)需要借助一定的業(yè)務(wù)經(jīng)驗(yàn)。具有局限性。

(3)、標(biāo)準(zhǔn)差反映數(shù)據(jù)的分散程度。

如圖:深灰,淺灰,淡灰區(qū)域分別對應(yīng)1,2,3倍標(biāo)準(zhǔn)差,對應(yīng)的概率為68.3%,95.5%,99.7%。

例如:變量是以正態(tài)分布的,則當(dāng)最大值(或最小值)與均值的差超過3倍標(biāo)準(zhǔn)差時(shí),很可能這些極值存在問題。

現(xiàn)實(shí)中,一方面數(shù)據(jù)量巨大,因此,極值超過3倍標(biāo)準(zhǔn)差也是正常的,另一方面,許多變量分布并不滿足正態(tài)分布,使用時(shí)要注意。

3、頻次圖與直方圖分析

通過頻次圖與直方圖分析能對數(shù)據(jù)進(jìn)行更深入、更直觀的分析。同時(shí),可以有效地觀測出數(shù)據(jù)分布的兩個(gè)重要特征:集中趨勢和離散趨勢。

1).直方圖分析

直方圖適用于對大量連續(xù)性數(shù)據(jù)進(jìn)行整理加工,找出其統(tǒng)計(jì)規(guī)律,以便對其總體分布特征進(jìn)行推斷。

直方圖(數(shù)值等寬)分析步驟如下:

(1)、找出最大,小值

(2)、先排序,然后分組(6~20組為宜)

(3)、組數(shù)/(最大值-最小值),求出組距寬度

(4)、計(jì)算各組  界限位(上、下界限位)。

(5)、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù),作頻數(shù)分布表

(6)、以組距為底長,以頻數(shù)為高,作各組的矩形圖。

其中各組的界限位可以從第一組一次計(jì)算,第一組的   下界=最小值-(組距/2),上界=下界值+組距;  第二組的下界=第一組的上界 ,上界=第二組下界+組距

例子1:

這是一個(gè)比較正常的直方圖

例子2:

該圖變量的數(shù)據(jù)過于集中,這對數(shù)據(jù)挖掘來說意義不大,所以就可以刪除該變量。

2).頻次圖分析

頻次圖是為了計(jì)算離散型數(shù)據(jù)各值分布情況的統(tǒng)計(jì)方法,它有助于理解某些特殊數(shù)值的意義,同時(shí)它也可以支持多個(gè)維度組合分布情況。

對分類變量進(jìn)行頻次圖分析步驟:

(1)、集中和記錄數(shù)據(jù),計(jì)算總的分類數(shù)N

(2)、將數(shù)據(jù)按序排列,分為N組

(3)、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù),作頻數(shù)分布表

(4)、作頻次圖

例子:

 

這是2000-2014年的全球7級以上的地震頻次圖,分類是按年份。

4、衍生變量

它是由其他既有變量通過不同形式的組合而衍生的變量,衍生變量與原始變量有一定的相關(guān)性,但是不是所有的衍生變量都有意義,要適度,看情況。

例子:密度 = 質(zhì)量 / 體積  ; 線密度 = 質(zhì)量 /長度  ;要研究那個(gè)物體可以漂浮在水面上,只要根據(jù)密度這一衍生變量就可以判斷出。

衍生變量是數(shù)據(jù)挖掘探索最重要的環(huán),但是對于一個(gè)項(xiàng)目來說,有無數(shù)個(gè)衍生變量。

幾個(gè)基本的衍生變量的方法:

(1)、對多個(gè)列變量進(jìn)行組合

例如:身高的平方 / 體重 (肥胖指數(shù)) ; 負(fù)債 / 收益 ; 總通話時(shí)間 / 總呼叫次數(shù)  ; 網(wǎng)頁訪問量 / 購買總量  等;

(2)、按照維度(也叫變量)分類

例如:在分析無線通信酷虎六十現(xiàn)象時(shí)發(fā)現(xiàn),按照手機(jī)型號分類匯總的流失率比單純用手機(jī)型號分類的數(shù)據(jù)更有用。

(3)、對某個(gè)變量進(jìn)一步分解

例如:對于日期變量,可進(jìn)一步分解為季度、節(jié)假日、工作日、周末    等變量。

(4)、對具有時(shí)間序列特征的變量可以進(jìn)一步提取時(shí)序特征。

例如:一段時(shí)間的總開銷量、平均增長率、初始值與終值的比率、兩個(gè)相鄰值之間的比率、顧客在暑假購物占年度比重、周末電話平均長度與每周電話平均長度。

例子:證劵市場上的各種技術(shù)指標(biāo)基本都是衍生變量。

(1)、環(huán)境準(zhǔn)備與讀取原始數(shù)據(jù)

(2)、計(jì)算衍生變量

(3)、收集并保持?jǐn)?shù)據(jù)

(4)、數(shù)據(jù)可視化

比如:

(5)、評價(jià)型衍生變量

在衍生變量中有一類重要的衍生變量,這類變量作用是用于評價(jià)被挖掘事物和好壞,就是評價(jià)型衍生變量(目標(biāo),比如:好壞等),而其他的叫指標(biāo)型衍生變量。

因?yàn)閿?shù)據(jù)挖掘中很多算法是機(jī)器學(xué)習(xí)算法,這類算法的典型特點(diǎn)是需要有輸入和輸出的樣本訓(xùn)練機(jī)器。

比如:評價(jià)股票的好壞,針對上面的可視化結(jié)果,在根據(jù)一定規(guī)則進(jìn)行衍生得到它的好壞。

重復(fù)一到四步,生成可視化圖:


(6)、衍生變量的收集與集成

當(dāng)產(chǎn)生衍生變量后,為了便于后學(xué)的數(shù)據(jù)處理,通常需要將數(shù)據(jù)收集在一起,如果在不同的文件或表中,也常常合并在一種表中。

5、數(shù)據(jù)可視化

對數(shù)據(jù)可視化,經(jīng)過分析,篩選出我們需要的好數(shù)據(jù)。

1)、數(shù)據(jù)分布形狀可視化

例如:柱狀分布圖

通過圖可以看到dv3過于集中,相當(dāng)于固定值,這種最好刪除。可見對數(shù)據(jù)進(jìn)行可視化分析意義很大。

2)、數(shù)據(jù)關(guān)聯(lián)情況可視化

在進(jìn)行變量篩選前,可先利用關(guān)聯(lián)可視化了解各變量的關(guān)聯(lián)關(guān)系。

例如:


通過該圖可以看出任意兩個(gè)變量的關(guān)聯(lián)趨向。


通過該圖,從宏觀上表現(xiàn)出變量間的關(guān)聯(lián)強(qiáng)度,實(shí)踐中往往用于篩選變量。

3)、數(shù)據(jù)分組可視化

它是按照不同的分位數(shù)將數(shù)據(jù)進(jìn)行分組,典型的圖形就是箱體圖。根據(jù)香體乳可以看出數(shù)據(jù)的分布特征和異常值的數(shù)量,這對于確定是否需要進(jìn)行異常值處理很有利。

例如:




    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多