日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

 東西二王 2020-06-24

  “大數(shù)據(jù)分析”評(píng)為“ 21世紀(jì)最熱門的工作” 以來(lái),人們對(duì)機(jī)器學(xué)習(xí)的興趣激增。但是,如果您剛剛開始學(xué)習(xí)機(jī)器學(xué)習(xí),則可能很難入手。因此,小編發(fā)布了廣受歡迎的關(guān)于初學(xué)者的優(yōu)秀機(jī)器學(xué)習(xí)算法的文章。

  這篇文章是針對(duì)0基礎(chǔ)初學(xué)者的。如果你有在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)一些經(jīng)驗(yàn),你可能會(huì)更感興趣的是做機(jī)器學(xué)習(xí)在Python這更深入的教程用scikit-learn,或在我們的機(jī)器學(xué)習(xí)課程,這從這里開始。如果您還不清楚“數(shù)據(jù)科學(xué)”和“機(jī)器學(xué)習(xí)”之間的區(qū)別,那么本文將為您提供一個(gè)很好的解釋:機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)-兩者有何不同?

  機(jī)器學(xué)習(xí)算法是可以從數(shù)據(jù)中學(xué)習(xí)并從經(jīng)驗(yàn)中改進(jìn)而無(wú)需人工干預(yù)的程序。學(xué)習(xí)任務(wù)可能包括學(xué)習(xí)將輸入映射到輸出的功能,學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的隱藏結(jié)構(gòu);或“基于實(shí)例的學(xué)習(xí)”,其中通過(guò)將新實(shí)例(行)與訓(xùn)練數(shù)據(jù)中存儲(chǔ)在內(nèi)存中的實(shí)例進(jìn)行比較,為新實(shí)例生成類標(biāo)簽?!盎趯?shí)例的學(xué)習(xí)”不會(huì)從特定實(shí)例創(chuàng)建抽象。

  機(jī)器學(xué)習(xí)算法的類型

  機(jī)器學(xué)習(xí)(ML)算法有3種類型:

  監(jiān)督學(xué)習(xí)算法:

  監(jiān)督學(xué)習(xí)使用標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)將輸入變量(X)轉(zhuǎn)換為輸出變量(Y)的映射函數(shù)。換句話說(shuō),它在以下等式中求解f:

  Y = f(X)

  當(dāng)給定新的輸入時(shí),這使我們能夠準(zhǔn)確地生成輸出。

  我們將討論兩種類型的監(jiān)督學(xué)習(xí):分類和回歸。

  分類被用于預(yù)測(cè)給定的樣品的結(jié)果,當(dāng)輸出變量在類的形式。分類模型可能會(huì)查看輸入數(shù)據(jù)并嘗試預(yù)測(cè)“病”或“健康”等標(biāo)簽。

  當(dāng)輸出變量為實(shí)數(shù)值形式時(shí),將回歸用于預(yù)測(cè)給定樣本的結(jié)果。例如,回歸模型可能會(huì)處理輸入數(shù)據(jù)以預(yù)測(cè)降雨量,人的身高等。

  我們?cè)诒静┛椭薪榻B的前5種算法-線性回歸,邏輯回歸,CART,樸素貝葉斯和K最近鄰(KNN)-是監(jiān)督學(xué)習(xí)的示例。

  合奏是另一種監(jiān)督學(xué)習(xí)。這意味著要組合多個(gè)各自較弱的機(jī)器學(xué)習(xí)模型的預(yù)測(cè),以對(duì)新樣本產(chǎn)生更準(zhǔn)確的預(yù)測(cè)。本文的算法9和10(使用隨機(jī)森林進(jìn)行裝袋,使用XGBoost進(jìn)行增強(qiáng))是集成技術(shù)的示例。

  無(wú)監(jiān)督學(xué)習(xí)算法:

  當(dāng)我們只有輸入變量(X)而沒有相應(yīng)的輸出變量時(shí),將使用無(wú)監(jiān)督學(xué)習(xí)模型。他們使用未標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)建模數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)。

  我們將討論三種無(wú)監(jiān)督學(xué)習(xí):

  關(guān)聯(lián)用于發(fā)現(xiàn)集合中項(xiàng)目同時(shí)出現(xiàn)的可能性。它廣泛用于市場(chǎng)分析。例如,可以使用關(guān)聯(lián)模型來(lái)發(fā)現(xiàn)如果客戶購(gòu)買面包,則他/她也有80%可能也購(gòu)買雞蛋。

  聚類用于對(duì)樣本進(jìn)行分組,以使同一聚類中的對(duì)象彼此之間的相似性大于與另一個(gè)聚類中的對(duì)象的相似性。

  降維用于減少數(shù)據(jù)集的變量數(shù)量,同時(shí)確保仍傳達(dá)重要信息。降維可以使用特征提取方法和特征選擇方法來(lái)完成?!疤卣鬟x擇”選擇原始變量的子集。特征提取執(zhí)行從高維空間到低維空間的數(shù)據(jù)轉(zhuǎn)換。示例:PCA算法是一種特征提取方法。

  我們?cè)谶@里介紹的算法6-8(Apriori,K-means,PCA)是無(wú)監(jiān)督學(xué)習(xí)的示例。

  強(qiáng)化學(xué)習(xí):

  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)算法的一種,它允許代理通過(guò)學(xué)習(xí)使獎(jiǎng)勵(lì)最大化的行為來(lái)根據(jù)其當(dāng)前狀態(tài)決定最佳的下一步操作。

  加固算法通常通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)最佳動(dòng)作。例如,假設(shè)有一個(gè)視頻游戲,其中玩家需要在特定時(shí)間移動(dòng)到特定地點(diǎn)以賺取積分。玩該游戲的強(qiáng)化算法會(huì)從隨機(jī)移動(dòng)開始,但是隨著時(shí)間的流逝,經(jīng)過(guò)反復(fù)試驗(yàn),它將學(xué)習(xí)需要在何時(shí)何地移動(dòng)游戲中角色以最大化其總點(diǎn)數(shù)。

  量化機(jī)器學(xué)習(xí)算法的流行度

  這十種算法是從哪里得到的?任何此類列表本質(zhì)上都是主觀的。諸如此類的研究已經(jīng)量化了10種最流行的數(shù)據(jù)挖掘算法,但是它們?nèi)匀灰蕾囉谡{(diào)查反饋的主觀響應(yīng),通常是高級(jí)學(xué)術(shù)從業(yè)人員。例如,在上面的研究中,受訪者是ACM KDD創(chuàng)新獎(jiǎng),IEEE ICDM研究貢獻(xiàn)獎(jiǎng)的獲得者;KDD '06,ICDM '06和SDM '06的計(jì)劃委員會(huì)成員;ICDM '06的145位與會(huì)者。

  這篇文章中列出的前10個(gè)算法是在考慮機(jī)器學(xué)習(xí)初學(xué)者的情況下選擇的。它們是我在孟買大學(xué)計(jì)算機(jī)工程學(xué)士學(xué)位期間從“數(shù)據(jù)倉(cāng)庫(kù)和挖掘”(DWM)課程中學(xué)到的主要算法。我加入了最后兩種算法(集成方法),尤其是因?yàn)樗鼈兘?jīng)常被用來(lái)贏得Kaggle比賽。

  沒有更多的基礎(chǔ)知識(shí),面向初學(xué)者的十大機(jī)器學(xué)習(xí)算法:

  1.線性回歸

  在機(jī)器學(xué)習(xí)中,我們有一組輸入變量(x)用于確定輸出變量(y)。輸入變量和輸出變量之間存在關(guān)系。ML的目標(biāo)是量化這種關(guān)系。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

圖1:線性回歸以y = a bx的形式表示為一條線

  在線性回歸中,輸入變量(x)和輸出變量(y)之間的關(guān)系表示為y = a bx形式的方程。因此,線性回歸的目標(biāo)是找出系數(shù)a和b的值。在此,a是截距,b是直線的斜率。

  圖1顯示了數(shù)據(jù)集的繪制的x和y值。目標(biāo)是擬合最接近大多數(shù)點(diǎn)的線。這將減少數(shù)據(jù)點(diǎn)的y值與線之間的距離(“錯(cuò)誤”)。

  2. Logistic回歸

  線性回歸預(yù)測(cè)是連續(xù)值(即,以厘米為單位的降雨),邏輯回歸預(yù)測(cè)是在應(yīng)用轉(zhuǎn)換函數(shù)后的離散值(即,學(xué)生是否通過(guò)/未通過(guò))。

  Logistic回歸最適合于二進(jìn)制分類:y = 0或1的數(shù)據(jù)集,其中1表示默認(rèn)類。例如,在預(yù)測(cè)事件是否會(huì)發(fā)生時(shí),只有兩種可能性:事件發(fā)生(我們將其表示為1)或事件不發(fā)生(0)。因此,如果我們要預(yù)測(cè)患者是否生病,我們將使用1數(shù)據(jù)集中的值標(biāo)記患病的患者。

  邏輯回歸以其使用的轉(zhuǎn)換函數(shù)命名,該函數(shù)稱為邏輯函數(shù)h(x)= 1 /(1 ex)。這形成了S形曲線。

  在邏輯回歸中,輸出采用默認(rèn)類別的概率形式(與線性回歸不同,線性回歸是直接產(chǎn)生輸出的)。由于這是一個(gè)概率,因此輸出在0-1的范圍內(nèi)。因此,例如,如果我們要預(yù)測(cè)患者是否生病,我們已經(jīng)知道生病的患者表示為1,因此,如果我們的算法將0.98的得分分配給患者,則認(rèn)為該患者很有可能生病了。

  使用邏輯函數(shù)h(x)= 1 /(1 e ^ -x)通過(guò)對(duì)x值進(jìn)行對(duì)數(shù)轉(zhuǎn)換來(lái)生成此輸出(y值)。然后應(yīng)用閾值以強(qiáng)制將此概率轉(zhuǎn)換為二進(jìn)制分類。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

圖2:邏輯回歸確定腫瘤是惡性還是良性。如果概率h(x)> = 0.5,則分類為惡性

  在圖2中,要確定腫瘤是否為惡性,默認(rèn)變量為y = 1(腫瘤=惡性)。x變量可以是腫瘤的量度,例如腫瘤的大小。如圖所示,邏輯函數(shù)將數(shù)據(jù)集各種實(shí)例的x值轉(zhuǎn)換為0到1的范圍。如果概率超過(guò)閾值0.5(由水平線顯示),則腫瘤為歸類為惡性。

  邏輯回歸方程P(x)= e ^(b0 b1x)/(1 e(b0 b1x))可以轉(zhuǎn)換為ln(p(x)/ 1-p(x))= b0 b1x。

  Logistic回歸的目標(biāo)是使用訓(xùn)練數(shù)據(jù)來(lái)找到系數(shù)b0和b1的值,以使預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的誤差最小。使用最大似然估計(jì)技術(shù)估計(jì)這些系數(shù)。

  3.購(gòu)物車

  分類和回歸樹(CART)是決策樹的一種實(shí)現(xiàn)。

  分類樹和回歸樹的非終端節(jié)點(diǎn)是根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)。終端節(jié)點(diǎn)是葉節(jié)點(diǎn)。每個(gè)非終端節(jié)點(diǎn)代表一個(gè)輸入變量(x)和該變量的分割點(diǎn);葉節(jié)點(diǎn)表示輸出變量(y)。該模型按以下方式進(jìn)行預(yù)測(cè):遍歷樹的拆分以到達(dá)葉節(jié)點(diǎn)并輸出在葉節(jié)點(diǎn)處存在的值。

  下面圖3中的決策樹根據(jù)一個(gè)人的年齡和婚姻狀況,對(duì)其是否購(gòu)買跑車或小型貨車進(jìn)行了分類。如果此人已超過(guò)30歲且未結(jié)婚,我們將按照以下步驟進(jìn)行操作:“超過(guò)30年?” ->是->“已婚?” ->不行 因此,模型輸出一輛跑車。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

圖3:決策樹的各個(gè)部分

  4.樸素貝葉斯

  為了計(jì)算一個(gè)事件已經(jīng)發(fā)生的可能性,我們使用貝葉斯定理。在給定我們的先驗(yàn)知識(shí)(d)的情況下,要計(jì)算假設(shè)(h)為真的概率,我們使用貝葉斯定理,如下所示:

  P(h | d)=(P(d | h)P(h))/ P(d)

  哪里:

  1)P(h | d)=后驗(yàn)概率。給定數(shù)據(jù)d,假設(shè)h的概率為真,其中P(h | d)= P(d1 | h)P(d2 | h)….P(dn | h)P(d)

  2)P(d | h)=似然。給定假設(shè)h為真,數(shù)據(jù)d的概率。

  3)P(h)=班級(jí)先驗(yàn)概率。假設(shè)h為真的概率(與數(shù)據(jù)無(wú)關(guān))

  4)P(d)=預(yù)測(cè)器先驗(yàn)概率。數(shù)據(jù)的概率(與假設(shè)無(wú)關(guān))

  該算法之所以稱為“樸素”,是因?yàn)樗僭O(shè)所有變量都彼此獨(dú)立,這是在實(shí)際示例中做出的樸素假設(shè)。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

  圖4:使用天真貝葉斯通過(guò)變量“天氣”預(yù)測(cè)“比賽”的狀態(tài)

  以圖4為例,如果weather ='sunny',結(jié)果如何?

  在給定變量天氣=“晴天”的情況下,要確定結(jié)果游戲=“是”或“否”,請(qǐng)計(jì)算P(是|晴天)和P(否|晴天),并以較高的概率選擇結(jié)果。

  -> P(yes | sunny)=(P(sunny | yes)* P(yes))/ P(sunny)=(3/9 * 9/14)/(5/14)= 0.60

  -> P(no | sunny)=(P(sunny | no)* P(no))/ P(sunny)=(2/5 * 5/14)/(5/14)= 0.40

  因此,如果天氣=“晴天”,則結(jié)果為游戲=“是”。

  5. KNN

  K最近根據(jù)算法將整個(gè)數(shù)據(jù)集用作訓(xùn)練集,而不是將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。

  當(dāng)新數(shù)據(jù)實(shí)例需要結(jié)果時(shí),KNN算法遍歷整個(gè)數(shù)據(jù)集以找到新實(shí)例的k個(gè)最近實(shí)例,或與新記錄最相似的k個(gè)實(shí)例,然后輸出均值結(jié)果(用于回歸問(wèn)題)或模式(最常見的課堂)的分類問(wèn)題。k的值是用戶指定的。

  使用諸如歐幾里得距離和漢明距離之類的度量來(lái)計(jì)算實(shí)例之間的相似度。

  無(wú)監(jiān)督學(xué)習(xí)算法

  6.先驗(yàn)

  事務(wù)數(shù)據(jù)庫(kù)中使用Apriori算法來(lái)挖掘頻繁的項(xiàng)目集,然后生成關(guān)聯(lián)規(guī)則。它廣泛用于市場(chǎng)購(gòu)物籃分析中,在其中可以檢查數(shù)據(jù)庫(kù)中經(jīng)常同時(shí)出現(xiàn)的產(chǎn)品組合。通常,我們將關(guān)聯(lián)規(guī)則寫為“如果某人購(gòu)買了商品X,那么他購(gòu)買了商品Y”為:X->Y。

  示例:如果某人購(gòu)買牛奶和糖,那么她可能會(huì)購(gòu)買咖啡粉。這可以用關(guān)聯(lián)規(guī)則的形式寫成:{牛奶,糖}->咖啡粉。超過(guò)支持和信心的閾值后,將生成關(guān)聯(lián)規(guī)則。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

  圖5:關(guān)聯(lián)規(guī)則X-> Y的支持度,置信度和提升度的公式

  支持度量有助于減少頻繁生成項(xiàng)目集時(shí)要考慮的候選項(xiàng)目集的數(shù)量。該支持措施遵循Apriori原則。Apriori原則指出,如果某個(gè)項(xiàng)目集很頻繁,那么它的所有子集也必須很頻繁。

  7. K-均值

  K-means是一種將相似數(shù)據(jù)分組為聚類的迭代算法,它計(jì)算k個(gè)聚類的質(zhì)心,并為其質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離最小的聚類分配一個(gè)數(shù)據(jù)點(diǎn)。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

  圖6:K-means算法的步驟

  運(yùn)作方式如下:

  我們首先選擇k的值。在這里,讓我們說(shuō)k =3。然后,我們將每個(gè)數(shù)據(jù)點(diǎn)隨機(jī)分配給3個(gè)群體中的任何一個(gè)。計(jì)算每個(gè)群體的群集質(zhì)心。紅色,藍(lán)色和綠色的星星分別代表3個(gè)星團(tuán)的質(zhì)心。

  接下來(lái),將每個(gè)點(diǎn)重新分配給最近的聚類質(zhì)心。在上圖中,高5點(diǎn)被分配給具有藍(lán)色質(zhì)心的聚類。遵循相同的過(guò)程將點(diǎn)分配給包含紅色和綠色質(zhì)心的聚類。

  然后,計(jì)算新群集的質(zhì)心。舊的質(zhì)心是灰色的星星;新的質(zhì)心是紅色,綠色和藍(lán)色的星星。

  最后,重復(fù)步驟2-3,直到?jīng)]有點(diǎn)從一個(gè)群集切換到另一個(gè)群集為止。一旦連續(xù)兩個(gè)步驟都沒有切換,請(qǐng)退出K-means算法。

  8. PCA

  主成分分析(PCA)用于通過(guò)減少變量數(shù)量使數(shù)據(jù)易于瀏覽和可視化。這是通過(guò)將數(shù)據(jù)中的最大方差捕獲到具有稱為“主要成分”的軸的新坐標(biāo)系中來(lái)完成的。

  每個(gè)分量都是原始變量的線性組合,并且彼此正交。分量之間的正交性指示這些分量之間的相關(guān)性為零。

  第一個(gè)主成分捕獲數(shù)據(jù)中最大可變性的方向。第二個(gè)主成分捕獲數(shù)據(jù)中的剩余方差,但具有與第一個(gè)成分不相關(guān)的變量。同樣,所有連續(xù)的主成分(PC3,PC4等)捕獲剩余的差異,同時(shí)與前一個(gè)成分不相關(guān)。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

圖7:將3個(gè)原始變量(基因)簡(jiǎn)化為2個(gè)新變量,稱為主成分(PC)

  集合學(xué)習(xí)技巧:

  匯總是指通過(guò)投票獲取平均值,將多個(gè)學(xué)習(xí)者(分類器)的結(jié)果組合在一起,以提高結(jié)果。在分類期間使用投票,在回歸期間使用平均。這個(gè)想法是全體學(xué)習(xí)者的表現(xiàn)要好于單個(gè)學(xué)習(xí)者。

  共有3種組合算法:裝袋,增強(qiáng)和堆疊。我們不會(huì)在這里討論“堆疊”,但是如果您想對(duì)其進(jìn)行詳細(xì)的說(shuō)明,那么這是Kaggle的可靠介紹。

  9.隨機(jī)森林套袋

  套袋的第一步是使用Bootstrap Sampling方法創(chuàng)建的數(shù)據(jù)集創(chuàng)建多個(gè)模型。在Bootstrap抽樣中,每個(gè)生成的訓(xùn)練集都由來(lái)自原始數(shù)據(jù)集的隨機(jī)子樣本組成。

  這些訓(xùn)練集的每一個(gè)都具有與原始數(shù)據(jù)集相同的大小,但是有些記錄會(huì)重復(fù)多次,而有些記錄根本不會(huì)出現(xiàn)。然后,將整個(gè)原始數(shù)據(jù)集用作測(cè)試集。因此,如果原始數(shù)據(jù)集的大小為N,則每個(gè)生成的訓(xùn)練集的大小也為N,唯一記錄的數(shù)量約為(2N / 3);測(cè)試集的大小也為N。

  套袋的第二步是在不同的生成的訓(xùn)練集上使用相同的算法來(lái)創(chuàng)建多個(gè)模型。

  這是隨機(jī)森林進(jìn)入的地方。與決策樹不同,在決策樹中,每個(gè)節(jié)點(diǎn)都在最大特征上進(jìn)行分割,以最大程度地減少錯(cuò)誤,在隨機(jī)森林中,我們選擇特征的隨機(jī)選擇以構(gòu)建最佳分裂。隨機(jī)性的原因是:即使套袋,當(dāng)決策樹選擇最佳分割特征時(shí),它們最終也會(huì)具有相似的結(jié)構(gòu)和相關(guān)的預(yù)測(cè)。但是,對(duì)特征的隨機(jī)子集進(jìn)行分割后的裝袋意味著子樹的預(yù)測(cè)之間的相關(guān)性較小。

  在每個(gè)分割點(diǎn)要搜索的特征數(shù)量被指定為“隨機(jī)森林”算法的參數(shù)。

  因此,在使用“隨機(jī)森林”進(jìn)行裝袋時(shí),每棵樹都是使用記錄的隨機(jī)樣本構(gòu)建的,而每個(gè)拆分都是使用隨機(jī)變量的預(yù)測(cè)變量構(gòu)建的。

  10.使用AdaBoost提升

  Adaboost代表自適應(yīng)增強(qiáng)。套袋是一個(gè)并行的集合,因?yàn)槊總€(gè)模型都是獨(dú)立構(gòu)建的。另一方面,boosting是一個(gè)順序集合,其中每個(gè)模型都是基于糾正先前模型的錯(cuò)誤分類而構(gòu)建的。

  套袋主要涉及“簡(jiǎn)單投票”,其中每個(gè)分類器投票以獲得最終結(jié)果,該結(jié)果由大多數(shù)并行模型確定;增強(qiáng)涉及“加權(quán)投票”,其中每個(gè)分類器投票以獲得由多數(shù)決定的最終結(jié)果,但是順序模型是通過(guò)為先前模型的錯(cuò)誤分類實(shí)例分配更大的權(quán)重來(lái)構(gòu)建的。

0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法

  圖8:決策樹的Adaboost

  在圖8中,步驟1、2、3涉及一個(gè)稱為決策樹的弱學(xué)習(xí)者(一個(gè)僅基于1個(gè)輸入要素的值進(jìn)行預(yù)測(cè)的1層決策樹;其根立即連接到其葉子的決策樹) 。

  構(gòu)造弱學(xué)習(xí)者的過(guò)程一直持續(xù)到構(gòu)造了用戶定義數(shù)量的弱學(xué)習(xí)者或直到訓(xùn)練期間沒有進(jìn)一步的改進(jìn)為止。0基礎(chǔ)小白必知的10種機(jī)器學(xué)習(xí)算法
https://www./data/2343.html步驟4合并了先前模型的3個(gè)決策樹樁(因此在決策樹中具有3個(gè)拆分規(guī)則)。

  首先,從一個(gè)決策樹樁開始,對(duì)一個(gè)輸入變量進(jìn)行決策。

  數(shù)據(jù)點(diǎn)的大小表明,我們已應(yīng)用相等的權(quán)重將其分類為圓形或三角形。決策樹樁已在上半部分生成一條水平線以對(duì)這些點(diǎn)進(jìn)行分類。我們可以看到有兩個(gè)圓被錯(cuò)誤地預(yù)測(cè)為三角形。因此,我們將為這兩個(gè)圈子分配更高的權(quán)重,并應(yīng)用另一個(gè)決策樹樁。

  其次,轉(zhuǎn)到另一個(gè)決策樹樹樁,對(duì)另一個(gè)輸入變量進(jìn)行決策。

  我們觀察到上一步中兩個(gè)錯(cuò)誤分類的圓圈的大小大于其余點(diǎn)?,F(xiàn)在,第二個(gè)決策樹樁將嘗試正確預(yù)測(cè)這兩個(gè)圓。

  分配較高的權(quán)重后,這兩個(gè)圓已通過(guò)左側(cè)的垂直線正確分類。但這現(xiàn)在導(dǎo)致對(duì)頂部三個(gè)圓圈的分類錯(cuò)誤。因此,我們將為頂部的這三個(gè)圓圈分配更高的權(quán)重,并應(yīng)用另一個(gè)決策樹樁。

  第三,訓(xùn)練另一個(gè)決策樹樹樁,以對(duì)另一個(gè)輸入變量進(jìn)行決策。

  上一步中的三個(gè)錯(cuò)誤分類的圓圈大于其余數(shù)據(jù)點(diǎn)。現(xiàn)在,已生成右側(cè)的垂直線以對(duì)圓形和三角形進(jìn)行分類。

  第四,結(jié)合決策樹樁。

  我們結(jié)合了先前3個(gè)模型的分隔符,并觀察到與任何單個(gè)弱學(xué)習(xí)者相比,該模型的復(fù)雜規(guī)則正確地對(duì)數(shù)據(jù)點(diǎn)進(jìn)行了分類。

  回顧一下,我們介紹了一些最重要的數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)算法:

  a)5種監(jiān)督學(xué)習(xí)技術(shù)-線性回歸,邏輯回歸,CART,樸素貝葉斯,KNN。

  b)3種無(wú)監(jiān)督學(xué)習(xí)技術(shù)-Apriori,K-means,PCA。

  c)2種合奏技術(shù)-用隨機(jī)森林裝袋,用XGBoost增強(qiáng)。

相關(guān)推薦

大數(shù)據(jù)分析Python中spaCy文本分類使用教程

用Python搭建機(jī)器學(xué)習(xí)模型預(yù)測(cè)房租價(jià)格

大數(shù)據(jù)分析為什么要學(xué)習(xí)Python

python函數(shù)控制列表和詞典

大數(shù)據(jù)分析命令行使用教程

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多