詳細(xì):https://www./question/big/kp_id/23/ques_id/2533 貝葉斯分類法優(yōu)點(diǎn): 對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)良好,適合多分類任務(wù),適合增量式訓(xùn)練 1)所需估計(jì)的參數(shù)少,對(duì)于缺失數(shù)據(jù)不敏感。 2)有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。 缺點(diǎn): 對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感 1)假設(shè)屬性之間相互獨(dú)立,這往往并不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。 2)需要知道先驗(yàn)概率。 3)分類決策存在錯(cuò)誤率。 決策樹信息熵的計(jì)算公式: H = ? ∑ i = 1 n p ( x i ) l o g 2 ( p ( x i ) ) H=-\sum_{i=1}^np(x_i)log_2(p(x_i)) H=?i=1∑np(xi)log2(p(xi)) 優(yōu)點(diǎn): 計(jì)算量簡(jiǎn)單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征; 1)不需要任何領(lǐng)域知識(shí)或參數(shù)假設(shè)。 2)適合高維數(shù)據(jù)。 3)簡(jiǎn)單易于理解。 4)短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。 5)能夠同時(shí)處理數(shù)據(jù)型和常規(guī)性屬性。 缺點(diǎn): 1)對(duì)于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征。 2)易于過擬合。 3)忽略屬性之間的相關(guān)性。 4)不支持在線學(xué)習(xí)。 支持向量機(jī)(SVM)損失函數(shù):Hinge loss 優(yōu)點(diǎn): 1)可以解決小樣本下機(jī)器學(xué)習(xí)的問題。 2)提高泛化性能。 3)可以解決高維、非線性問題。超高維文本分類仍受歡迎。 4)避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。 缺點(diǎn): 1)對(duì)缺失數(shù)據(jù)敏感。 2)內(nèi)存消耗大,難以解釋。 3)運(yùn)行和調(diào)差略煩人。 K近鄰優(yōu)點(diǎn): 1)思想簡(jiǎn)單,理論成熟,既可以用來(lái)做分類也可以用來(lái)做回歸; 2)可用于非線性分類; 3)訓(xùn)練時(shí)間復(fù)雜度為O(n); 4)準(zhǔn)確度高,對(duì)數(shù)據(jù)沒有假設(shè),對(duì)outlier不敏感; 缺點(diǎn): 1)計(jì)算量太大 2)對(duì)于樣本分類不均衡的問題,會(huì)產(chǎn)生誤判。 3)需要大量的內(nèi)存。 4)輸出的可解釋性不強(qiáng)。 Logistic回歸Logistic是用來(lái)分類的,是一種線性分類器 1、logistic函數(shù)表達(dá)式:  其導(dǎo)數(shù)為 g ( z ) = g ( z ) ( 1 ? g ( z ) ) g(z)=g(z)(1-g(z)) g(z)=g(z)(1?g(z)); 2、logisstic回歸方法主要是用最大似然估計(jì)來(lái)學(xué)習(xí)的 單個(gè)樣本的后驗(yàn)概率為:  整個(gè)樣本的后驗(yàn)概率為:  其中:  化簡(jiǎn) L ( θ ) L(\theta) L(θ):  3、損失函數(shù): ? l ( θ ) -l(\theta) ?l(θ) 我們要使損失函數(shù)最小,使用梯度下降法  logistic求解 θ \theta θ,可以使用梯度下降, α \alpha α為學(xué)習(xí)率: θ j : θ j + α ( y ( i ) ? h 0 ( x i ) ) x j ( i ) \theta_j: \theta_j+\alpha(y^{(i)}-h_0{(x^i)})x_j^{(i)} θj:θj+α(y(i)?h0(xi))xj(i) 優(yōu)點(diǎn): 實(shí)現(xiàn)簡(jiǎn)單,計(jì)算量小 1)速度快。 2)簡(jiǎn)單易于理解,直接看到各個(gè)特征的權(quán)重。 3)能容易地更新模型吸收新的數(shù)據(jù)。 4)如果想要一個(gè)概率框架,動(dòng)態(tài)調(diào)整分類閥值。 缺點(diǎn): 容易欠擬合,準(zhǔn)確度不高 只能處理兩分類問題,且必須線性可分(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類) 特征處理復(fù)雜。需要?dú)w一化和較多的特征工程。 神經(jīng)網(wǎng)絡(luò) 優(yōu)點(diǎn): 1)分類準(zhǔn)確率高。 2)并行處理能力強(qiáng)。 3)分布式存儲(chǔ)和學(xué)習(xí)能力強(qiáng)。 4)魯棒性較強(qiáng),不易受噪聲影響。 缺點(diǎn): 1)需要大量參數(shù)(網(wǎng)絡(luò)拓?fù)洹㈤y值、閾值)。 2)結(jié)果難以解釋。 3)訓(xùn)練時(shí)間過長(zhǎng)。 Adaboost損失函數(shù):指數(shù)損失 優(yōu)點(diǎn): 1)adaboost是一種有很高精度的分類器。 2)可以使用各種方法構(gòu)建子分類器,Adaboost算法提供的是框架。 3)當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單。 4)簡(jiǎn)單,不用做特征篩選。 5)不用擔(dān)心overfitting。 缺點(diǎn): 對(duì)outlier比較敏感 參考:https://blog.csdn.net/timcompp/article/details/61209027
|