日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

機器學(xué)習(xí)PAI實戰(zhàn):玩轉(zhuǎn)人工智能之你最喜歡哪個男生?

 web3佬總圖書館 2019-03-29


前言

分類問題是生活中最常遇到的問題之一。普通人在做出選擇之前,可能會猶豫不決,但對機器而言,則是唯一必選的問題。我們可以通過算法生成模型去幫助我們快速的做出選擇,而且保證誤差最小。充足的樣本,合適的算法可以透過表象的類別,進(jìn)而挖掘其內(nèi)在的聯(lián)系、區(qū)別,找出最佳的的屬性來區(qū)分每個樣本的類別。所以說學(xué)習(xí)和應(yīng)用機器學(xué)習(xí)的算法,要求我們必須非常了解數(shù)據(jù)實例,每個樣本數(shù)據(jù)有多少個特征,哪些特征是敏感的,特征分布如何。只有充分了解數(shù)據(jù),才能選擇最合適的算法。

場景描述

單身王女士經(jīng)常逛某相親網(wǎng)站,前前后后瀏覽了1000個男生,并給他們打標(biāo)了,不喜歡、一般喜歡、很喜歡三個類別。該相親網(wǎng)站的工程師,決定開發(fā)一個算法推薦模型,給王女士依次推薦很喜歡,一般喜歡的男生。并可以將這個算法模型應(yīng)用到網(wǎng)站,吸引更多的單身青年注冊使用,并可以找到自己喜歡的男/女朋友。

數(shù)據(jù)分析

首先將離線數(shù)據(jù)導(dǎo)入到odps表中。我們主要介紹使用散點圖和箱線圖來直觀的觀測分析數(shù)據(jù)。然后根據(jù)上面的具體案例來學(xué)會如何看,理解這個圖形。數(shù)據(jù)選自《機器學(xué)習(xí)實戰(zhàn)》一書。

散點圖

詳情

https://help.aliyun.com/document_detail/42716.html

拖拽統(tǒng)計分析-散點圖。如圖所示,選擇觀測的特征。

右鍵查看分析報告

散點圖介紹

1,反對角線上的三個方形,在方形左上角表明三個特征的名稱。而且這個三個圖像與其他圖形不相同,橫縱坐標(biāo)都是一個特征,則對角直線就代表該特征在不同類別下分布密度。比如Play這個方形,我們發(fā)現(xiàn)黃色部分集中在下方,藍(lán)色部分主要分布在中間,綠色主要分布在中上方。

2,除了反對角線上的三個方形,其他方形則是反映了兩兩特征之間的分布情況。比如第一排第一列(1,1),橫坐標(biāo)為play,縱坐標(biāo)為mileage。從這個方形上可以直觀觀測出不同顏色的散點集中分布在不同區(qū)域。

3,關(guān)于反對角線對稱的兩個方形,則是兩個特征交換縱橫坐標(biāo)的散點圖。

4,在整個散點圖的下方,可以勾選你希望對比的特征。

通過上面散點圖,我們可以比較清晰得出幾個結(jié)論。

1,ice_cream特征對分類不敏感。從圖(1,2),(2,2)我們可以直觀看出,ice_cream在所有類別中幾乎都是均勻分布。

2,mileage,play 特征可以將類別明顯的劃分成三個區(qū)域。說明這兩個特征絕大程度上決定了類別的劃分。

散點圖進(jìn)階使用

在任意個方形內(nèi),拖拽一個方形區(qū)域,可以選出滿足這些特征的樣本,更加直觀的觀測,這些樣本在不同方形內(nèi)的分布。如上圖所示,我們選中了圖(3,3)內(nèi)一個方形區(qū)域,可以看出這些樣本在ice_cream特征下是均勻分布,在其他兩個特征下,都可以通過一個超平面劃分。

箱線圖

詳情

https://help.aliyun.com/document_detail/42716.html

拖拽統(tǒng)計分析-箱線圖。如圖所示,選擇觀測的特征。

箱線圖介紹

1,箱線圖組件分兩個tab分別顯示箱線圖和擾動點圖,在左上角都可以選擇觀測不同的特征。右側(cè)顯示該特征下,每個類別的分布情況。

2,箱線圖介紹,每個類別的箱線圖,從上到下一共有5條橫線。

3,內(nèi)限不是樣本的最上限,外限也是不最下限,超過內(nèi)限和外限的樣本為異常樣本。

4,結(jié)合擾動點圖,我們可以發(fā)現(xiàn)觀測到異常樣本的大致數(shù)量多少。

箱線圖分析

1,通過上面的圖,我們可以關(guān)注paly屬性在不同類別下的分布。對比ice_cream特征

我們發(fā)現(xiàn)paly特征的屬性值在不同類別下有明顯有傾向性分布。而ice_cream在不同類別下分布幾乎是一樣的,這也驗證了我們通過散點圖得出的結(jié)論。

場景抽象化

現(xiàn)在回到我們一開始遇到的問題。如何用算法幫助工程師為王女士推薦其他她可以喜歡的男生呢。其實這是一個簡單的問題,就是把所有的男生分為三類,不喜歡,一般喜歡,很喜歡。對于一個沒有標(biāo)簽的男生(x),我們分出其最可能屬于哪個類別的概率(p)。

在這種情況下,我們就選出這個男生屬于類別A。如何計算這個概率,不同算法有不同的計算方法。比如K緊鄰算法,選出離這個樣本點最近的K個樣本,通過屬于A的樣本個數(shù)除以K就可以得出屬于A的概率。隨機森林,則是通過投票的方式,票數(shù)多的類別就是樣本最終劃分的類別。

模型選擇

通過前面數(shù)據(jù)分析,我們知道了數(shù)據(jù)的一些特性。

1,mileage數(shù)值比其他兩個特征大很多,在計算特征間的距離時,所在權(quán)重就比較大。所有選擇K近鄰可以會造成較大誤差。

2,AdaBoost算法,隨機森林以及邏輯回歸算法都可以處理數(shù)值型數(shù)據(jù),所以這三種算法我們都會嘗試,并評估者三個算法的準(zhǔn)確率。

數(shù)據(jù)處理

我們可以使用統(tǒng)計分析-全表統(tǒng)計觀測數(shù)據(jù)是否有空值,以及一些方差等的統(tǒng)計信息。在本案例中我僅做缺失值檢測。

模型訓(xùn)練

我們分別選擇了三個分類算法,隨機森林、AdaBoost、K近鄰算法。分別做了訓(xùn)練,預(yù)測和算法評估。在下面我們會通過測試評估來選擇合適的方案。

模型測試

隨機森林算法

AdaBoost算法

K近鄰算法

通過上面的混淆矩陣,可以很直觀的看出,在算法準(zhǔn)確度層面,AdaBoost>隨機森林>K近鄰。也驗證了我們前面通過數(shù)據(jù)分析得出的結(jié)論,在某個特征的值過大時,K近鄰算法容易出現(xiàn)較大的誤差。當(dāng)然我們可以通過歸一化來處理這些特征值,只是這樣做在服務(wù)測試時,輸入的數(shù)據(jù)就必須是歸一化的值而不是真實數(shù)據(jù),在實際使用中會有一些麻煩。

模型部署和測試

模型的部署和測試參見【玩轉(zhuǎn)人工智能—基于PAI的機器學(xué)習(xí)實戰(zhàn)系列二】商品價格預(yù)測

https://yq.aliyun.com/articles/692330

總結(jié)

AdaBoost之所以有如此好的效果,其功勞要歸功于集成算法的提出和應(yīng)用。集成算法通過組合多個分類器的結(jié)果,并賦予不同的權(quán)重值,而獲得了比任一個分類器都要好的結(jié)果。當(dāng)然這也做也有一定風(fēng)險,比如說有可能加深了分類器的過擬合問題。

在分類問題上,我們最常遇到的問題就樣本分布不均衡的問題。就是說正樣本多與負(fù)樣本,某個類別的樣本多與其他類別的樣本。這樣的數(shù)據(jù)集在大部分分類器上都會存在問題,通常情況下,我們可以通過欠抽樣或者過抽樣來解決這類問題,但是在實際操作中,我們需要注意下,如何才能在盡可能不影響實際真實性的情況下做到很好的抽樣。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多