機(jī)器人學(xué)是一個(gè)多領(lǐng)域的交叉學(xué)科,包含了許多學(xué)科:包括概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜性理論等。專攻計(jì)算機(jī)如何模擬或?qū)崿F(xiàn)人的學(xué)習(xí)行為,以獲得新的知識或技能,重組已有的知識結(jié)構(gòu),使其持續(xù)地提高其表現(xiàn)。計(jì)算機(jī)智能是人工智能的核心,是實(shí)現(xiàn)計(jì)算機(jī)智能化的基本途徑。若以人為例,機(jī)器學(xué)習(xí)就是人類學(xué)習(xí)和發(fā)展的能力。 通用機(jī)器學(xué)習(xí)算法。1.線性回歸線性回歸可能是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中最為人熟知、最容易理解的算法之一。 預(yù)報(bào)模型的建立主要是為了盡量減少模型誤差,或者在犧牲可解釋性的情況下最精確地預(yù)報(bào)。為了達(dá)到這一目的,我們將借鑒、重用其他許多領(lǐng)域的算法(包括統(tǒng)計(jì))。 該模型用方程形式表示,為輸入變量尋找特定權(quán)重(即系數(shù)B),然后描述了輸入變量(x)與輸出變量(y)之間關(guān)系的最佳擬合曲線。 2.Logistic回歸邏輯Ic回歸是機(jī)器學(xué)習(xí)學(xué)到的另一項(xiàng)統(tǒng)計(jì)領(lǐng)域的技術(shù)。在二分類問題中,它是首選的。 和線性回歸一樣,LogisTIc回歸也是為了找出每個(gè)輸入變量的權(quán)系值。但是,不同的是,LogisTIc回歸的輸出預(yù)測結(jié)果是由一種非線性函數(shù)“l(fā)ogisTIc函數(shù)”變換而成。 這個(gè)logistic函數(shù)的形狀就像一個(gè)“S”,它可以將任何值轉(zhuǎn)換為0-1的區(qū)間。這個(gè)方法非常有用,因?yàn)槲覀兛梢詫ogistic函數(shù)的輸出應(yīng)用一條規(guī)則,以獲得0-1范圍內(nèi)的捕獲值(例如,將閾值設(shè)為0.5,如果函數(shù)的閾值小于0.5,那么輸出值就是1),并預(yù)測類別的值。 3.線性判別分析邏輯回歸是傳統(tǒng)的分類算法,其使用場景局限于解決二類問題。當(dāng)你有兩個(gè)以上的類別時(shí),線性鑒別分析算法(LDA)是線性分類的首選方法。 4.分類與回歸樹決策樹是機(jī)器學(xué)習(xí)中預(yù)測建模的重要算法。 可將決策樹表示為二叉樹。這類二叉樹在算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)上都是一樣的,沒有什么特別之處。每一個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量(x)和一個(gè)基于它的分叉點(diǎn)(假設(shè)變量為數(shù)值型)。 5.樸素貝葉斯Bayes是一個(gè)簡單而又強(qiáng)大的預(yù)測建模算法。 此模型包括兩類概率,可以直接從訓(xùn)練數(shù)據(jù)中計(jì)算出:1)屬于每一類的概率;2)給定每個(gè)x值時(shí),數(shù)據(jù)從屬于每一類的條件概率。只要計(jì)算出這兩種概率,就可以利用貝葉斯定理,用概率模型預(yù)測新的數(shù)據(jù)。如果您的數(shù)據(jù)為實(shí)值,則通常假定它符合高斯分布(鐘形曲線),以便您能夠輕松地估計(jì)這些概率。 6.K最臨近算法最小鄰域K(KNN)算法簡單有效。模型表示KNN是完整的訓(xùn)練數(shù)據(jù)集。 通過搜索數(shù)據(jù)點(diǎn)最接近的K個(gè)實(shí)例(鄰近點(diǎn)),并歸納出這些K個(gè)實(shí)例的輸出變量,可以得到新數(shù)據(jù)點(diǎn)的預(yù)測結(jié)果。對回歸問題而言,預(yù)測結(jié)果可以是輸出變量的均值;對分類問題而言,它可以是眾數(shù)(或最常見的)類別的值。 重點(diǎn)在于如何判斷數(shù)據(jù)實(shí)例間的相似度。假如你的數(shù)據(jù)特征尺寸相同(比如,所有數(shù)據(jù)都以英寸為單位),那么最簡單的測量方法就是使用歐幾里德距離,你可以直接根據(jù)輸入變量的不同來計(jì)算它。 7.學(xué)習(xí)向量量化KNN算法的一個(gè)缺點(diǎn)是需要處理全部的訓(xùn)練數(shù)據(jù)。并且,學(xué)習(xí)向量量化算法(LVQ)允許選擇所需的訓(xùn)練實(shí)例數(shù),并且可以準(zhǔn)確的學(xué)習(xí)這些實(shí)例。 8.支持向量機(jī)SVM(SVM)可能是目前被討論得最為廣泛和流行的機(jī)器學(xué)習(xí)算法之一。 超面是一條“線”,它在輸入變量空間中被分割。該方法可以利用向量機(jī)會選擇出一個(gè)超平面,將輸入變量空間中的點(diǎn)分成類(類0或類1)。你可以把他想像成二維空間中的一條直線,假定所有的輸入點(diǎn)都能被這條直線完全分割。SVM學(xué)習(xí)算法的目標(biāo)是通過超平面求取最優(yōu)分類分割系數(shù)。 9.袋裝法和隨機(jī)森林隨機(jī)森林算法是一種綜合機(jī)器學(xué)習(xí)算法,是目前最流行、功能最強(qiáng)大的算法之一。 自我分析法是一種很有效的統(tǒng)計(jì)方法,可以從數(shù)據(jù)樣本中估算一定數(shù)量(例如平均值)。您需要從數(shù)據(jù)中提取大量樣本,計(jì)算均值,然后再將每次抽樣所計(jì)算的均值進(jìn)行平均,以獲得所有數(shù)據(jù)的真實(shí)均值的更好估計(jì)。 隨機(jī)值用于次優(yōu)分割。 10.Boosting和AdaBoostboosting是一種集成技術(shù),它嘗試使用大量的弱分類器來創(chuàng)建強(qiáng)分類器。為了實(shí)現(xiàn)Boosting方法,您首先需要使用訓(xùn)練數(shù)據(jù)構(gòu)造一個(gè)模型,然后創(chuàng)建第二個(gè)(它試圖修正第一個(gè)模型的錯(cuò)誤)。在模型最終能夠完全預(yù)測訓(xùn)練集或者加入的模型已經(jīng)達(dá)到最大數(shù)量之前,我們不會再加入新模型。 |
|