【原】深入解析機(jī)器學(xué)習(xí)算法有哪些？

碼農(nóng)9527 2021-04-20

展開全文

機(jī)器人學(xué)是一個(gè)多領(lǐng)域的交叉學(xué)科，包含了許多學(xué)科：包括概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜性理論等。專攻計(jì)算機(jī)如何模擬或?qū)崿F(xiàn)人的學(xué)習(xí)行為，以獲得新的知識或技能，重組已有的知識結(jié)構(gòu)，使其持續(xù)地提高其表現(xiàn)。計(jì)算機(jī)智能是人工智能的核心，是實(shí)現(xiàn)計(jì)算機(jī)智能化的基本途徑。若以人為例，機(jī)器學(xué)習(xí)就是人類學(xué)習(xí)和發(fā)展的能力。

通用機(jī)器學(xué)習(xí)算法。

1.線性回歸

線性回歸可能是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中最為人熟知、最容易理解的算法之一。

預(yù)報(bào)模型的建立主要是為了盡量減少模型誤差，或者在犧牲可解釋性的情況下最精確地預(yù)報(bào)。為了達(dá)到這一目的，我們將借鑒、重用其他許多領(lǐng)域的算法(包括統(tǒng)計(jì))。

該模型用方程形式表示，為輸入變量尋找特定權(quán)重(即系數(shù)B)，然后描述了輸入變量(x)與輸出變量(y)之間關(guān)系的最佳擬合曲線。

2.Logistic回歸

邏輯Ic回歸是機(jī)器學(xué)習(xí)學(xué)到的另一項(xiàng)統(tǒng)計(jì)領(lǐng)域的技術(shù)。在二分類問題中，它是首選的。

和線性回歸一樣，LogisTIc回歸也是為了找出每個(gè)輸入變量的權(quán)系值。但是，不同的是，LogisTIc回歸的輸出預(yù)測結(jié)果是由一種非線性函數(shù)“l(fā)ogisTIc函數(shù)”變換而成。

這個(gè)logistic函數(shù)的形狀就像一個(gè)“S”，它可以將任何值轉(zhuǎn)換為0-1的區(qū)間。這個(gè)方法非常有用，因?yàn)槲覀兛梢詫ogistic函數(shù)的輸出應(yīng)用一條規(guī)則，以獲得0-1范圍內(nèi)的捕獲值(例如，將閾值設(shè)為0.5，如果函數(shù)的閾值小于0.5，那么輸出值就是1)，并預(yù)測類別的值。

3.線性判別分析

邏輯回歸是傳統(tǒng)的分類算法，其使用場景局限于解決二類問題。當(dāng)你有兩個(gè)以上的類別時(shí)，線性鑒別分析算法(LDA)是線性分類的首選方法。

4.分類與回歸樹

決策樹是機(jī)器學(xué)習(xí)中預(yù)測建模的重要算法。

可將決策樹表示為二叉樹。這類二叉樹在算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)上都是一樣的，沒有什么特別之處。每一個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量(x)和一個(gè)基于它的分叉點(diǎn)(假設(shè)變量為數(shù)值型)。

5.樸素貝葉斯

Bayes是一個(gè)簡單而又強(qiáng)大的預(yù)測建模算法。

此模型包括兩類概率，可以直接從訓(xùn)練數(shù)據(jù)中計(jì)算出：1)屬于每一類的概率；2)給定每個(gè)x值時(shí)，數(shù)據(jù)從屬于每一類的條件概率。只要計(jì)算出這兩種概率，就可以利用貝葉斯定理，用概率模型預(yù)測新的數(shù)據(jù)。如果您的數(shù)據(jù)為實(shí)值，則通常假定它符合高斯分布(鐘形曲線)，以便您能夠輕松地估計(jì)這些概率。

6.K最臨近算法

最小鄰域K(KNN)算法簡單有效。模型表示KNN是完整的訓(xùn)練數(shù)據(jù)集。

通過搜索數(shù)據(jù)點(diǎn)最接近的K個(gè)實(shí)例(鄰近點(diǎn))，并歸納出這些K個(gè)實(shí)例的輸出變量，可以得到新數(shù)據(jù)點(diǎn)的預(yù)測結(jié)果。對回歸問題而言，預(yù)測結(jié)果可以是輸出變量的均值；對分類問題而言，它可以是眾數(shù)(或最常見的)類別的值。

重點(diǎn)在于如何判斷數(shù)據(jù)實(shí)例間的相似度。假如你的數(shù)據(jù)特征尺寸相同(比如，所有數(shù)據(jù)都以英寸為單位)，那么最簡單的測量方法就是使用歐幾里德距離，你可以直接根據(jù)輸入變量的不同來計(jì)算它。

7.學(xué)習(xí)向量量化

KNN算法的一個(gè)缺點(diǎn)是需要處理全部的訓(xùn)練數(shù)據(jù)。并且，學(xué)習(xí)向量量化算法(LVQ)允許選擇所需的訓(xùn)練實(shí)例數(shù)，并且可以準(zhǔn)確的學(xué)習(xí)這些實(shí)例。

8.支持向量機(jī)

SVM(SVM)可能是目前被討論得最為廣泛和流行的機(jī)器學(xué)習(xí)算法之一。

超面是一條“線”，它在輸入變量空間中被分割。該方法可以利用向量機(jī)會選擇出一個(gè)超平面，將輸入變量空間中的點(diǎn)分成類(類0或類1)。你可以把他想像成二維空間中的一條直線，假定所有的輸入點(diǎn)都能被這條直線完全分割。SVM學(xué)習(xí)算法的目標(biāo)是通過超平面求取最優(yōu)分類分割系數(shù)。

9.袋裝法和隨機(jī)森林

隨機(jī)森林算法是一種綜合機(jī)器學(xué)習(xí)算法，是目前最流行、功能最強(qiáng)大的算法之一。

自我分析法是一種很有效的統(tǒng)計(jì)方法，可以從數(shù)據(jù)樣本中估算一定數(shù)量(例如平均值)。您需要從數(shù)據(jù)中提取大量樣本，計(jì)算均值，然后再將每次抽樣所計(jì)算的均值進(jìn)行平均，以獲得所有數(shù)據(jù)的真實(shí)均值的更好估計(jì)。

隨機(jī)值用于次優(yōu)分割。

10.Boosting和AdaBoost

boosting是一種集成技術(shù)，它嘗試使用大量的弱分類器來創(chuàng)建強(qiáng)分類器。為了實(shí)現(xiàn)Boosting方法，您首先需要使用訓(xùn)練數(shù)據(jù)構(gòu)造一個(gè)模型，然后創(chuàng)建第二個(gè)(它試圖修正第一個(gè)模型的錯(cuò)誤)。在模型最終能夠完全預(yù)測訓(xùn)練集或者加入的模型已經(jīng)達(dá)到最大數(shù)量之前，我們不會再加入新模型。