日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

當(dāng)貝葉斯,奧卡姆和香農(nóng)一起來定義機(jī)器學(xué)習(xí)

 taotao_2016 2018-09-12

來源:towardsdatascience

作者:Tirthajyoti Sarkar

【新智元導(dǎo)讀】當(dāng)貝葉斯、奧卡姆和香農(nóng)一起給機(jī)器學(xué)習(xí)下定義,將統(tǒng)計(jì)學(xué)、信息理論和自然哲學(xué)的一些核心概念結(jié)合起來,我們便會(huì)會(huì)發(fā)現(xiàn),可以對(duì)監(jiān)督機(jī)器學(xué)習(xí)的基本限制和目標(biāo)進(jìn)行深刻而簡潔的描述。


令人有點(diǎn)驚訝的是,在所有機(jī)器學(xué)習(xí)的流行詞匯中,我們很少聽到一個(gè)將統(tǒng)計(jì)學(xué)、信息理論和自然哲學(xué)的一些核心概念融合起來的短語。


而且,它不是一個(gè)只有機(jī)器學(xué)習(xí)博士和專家懂得的晦澀術(shù)語,對(duì)于任何有興趣探索的人來說,它都具有精確且易于理解的含義,對(duì)于ML和數(shù)據(jù)科學(xué)的從業(yè)者來說,它具有實(shí)用的價(jià)值。


這個(gè)術(shù)語就是最小描述長度(Minimum Description Length)。


讓我們剝繭抽絲,看看這個(gè)術(shù)語多么有用……


貝葉斯和他的理論


我們從托馬斯·貝葉斯(Thomas Bayes)說起,順便一提,他從未發(fā)表過關(guān)于如何做統(tǒng)計(jì)推理的想法,但后來卻因“貝葉斯定理”而不朽。


Thomas Bayes


那是在18世紀(jì)下半葉,當(dāng)時(shí)還沒有一個(gè)數(shù)學(xué)科學(xué)的分支叫做“概率論”。人們知道概率論,是因?yàn)閬啿?· 棣莫弗(Abraham de Moievre)寫的《機(jī)遇論》(Doctrine of Chances)一書。


1763年,貝葉斯的著作《機(jī)會(huì)問題的解法》(An Essay toward solving a Problem in the Doctrine of opportunities)被寄給英國皇家學(xué)會(huì),但經(jīng)過了他的朋友理查德·普萊斯(Richard Price)的編輯和修改,發(fā)表在倫敦皇家學(xué)會(huì)哲學(xué)匯刊。在那篇文章中,貝葉斯以一種相當(dāng)繁復(fù)的方法描述了關(guān)于聯(lián)合概率的簡單定理,該定理引起了逆概率的計(jì)算,即貝葉斯定理。


自那以后,統(tǒng)計(jì)科學(xué)的兩個(gè)派別——貝葉斯學(xué)派和頻率學(xué)派(Frequentists)之間發(fā)生了許多爭論。但為了回歸本文的目的,讓我們暫時(shí)忽略歷史,集中于對(duì)貝葉斯推理的機(jī)制的簡單解釋。請(qǐng)看下面這個(gè)公式:



這個(gè)公式實(shí)際上告訴你,在看到數(shù)據(jù)/證據(jù)(可能性)之后更新你的信念(先驗(yàn)概率),并將更新后的信念程度賦予后驗(yàn)概率。你可以從一個(gè)信念開始,但每個(gè)數(shù)據(jù)點(diǎn)要么加強(qiáng)要么削弱這個(gè)信念,你會(huì)一直更新你的假設(shè)。


聽起來十分簡單而且直觀是吧?很好。


不過,我在這段話的最后一句話里耍了個(gè)小花招。你注意了嗎?我提到了一個(gè)詞“假設(shè)”。


在統(tǒng)計(jì)推理的世界里,假設(shè)就是信念。這是一種關(guān)于過程本質(zhì)(我們永遠(yuǎn)無法觀察到)的信念,在一個(gè)隨機(jī)變量的產(chǎn)生背后(我們可以觀察或測量到隨機(jī)變量,盡管可能有噪聲)。在統(tǒng)計(jì)學(xué)中,它通常被稱為概率分布。但在機(jī)器學(xué)習(xí)的背景下,它可以被認(rèn)為是任何一套規(guī)則(或邏輯/過程),我們認(rèn)為這些規(guī)則可以產(chǎn)生示例或訓(xùn)練數(shù)據(jù),我們可以學(xué)習(xí)這個(gè)神秘過程的隱藏本質(zhì)。


因此,讓我們嘗試用不同的符號(hào)重新定義貝葉斯定理——用與數(shù)據(jù)科學(xué)相關(guān)的符號(hào)。我們用D表示數(shù)據(jù),用h表示假設(shè),這意味著我們使用貝葉斯定理的公式來嘗試確定數(shù)據(jù)來自什么假設(shè),給定數(shù)據(jù)。我們把定理重新寫成:



現(xiàn)在,一般來說,我們有一個(gè)很大的(通常是無限的)假設(shè)空間,也就是說,有許多假設(shè)可供選擇。貝葉斯推理的本質(zhì)是,我們想要檢驗(yàn)數(shù)據(jù)以最大化一個(gè)假設(shè)的概率,這個(gè)假設(shè)最有可能產(chǎn)生觀察數(shù)據(jù)(observed data)。我們一般想要確定P(h|D)的argmax,也就是想知道哪個(gè)h的情況下,觀察到的D是最有可能的。為了達(dá)到這個(gè)目的,我們可以把這個(gè)項(xiàng)放到分母P(D)中,因?yàn)樗灰蕾囉诩僭O(shè)。這個(gè)方案就是最大后驗(yàn)概率估計(jì)(maximum a posteriori,MAP)。


現(xiàn)在,我們應(yīng)用以下數(shù)學(xué)技巧:

  • 最大化對(duì)于對(duì)數(shù)與原始函數(shù)的作用類似,即采用對(duì)數(shù)不會(huì)改變最大化問題

  • 乘積的對(duì)數(shù)是各個(gè)對(duì)數(shù)的總和

  • 一個(gè)量的最大化等于負(fù)數(shù)量的最小化



那些負(fù)對(duì)數(shù)為2的術(shù)語看起來很熟悉是不是......來自信息論(Information Theory)!


讓我們進(jìn)入克勞德·香農(nóng)(Claude Shannon)的世界吧!


香農(nóng)和信息熵


如果要描述克勞德·香農(nóng)的天才和奇特的一生,長篇大論也說不完。香農(nóng)幾乎是單槍匹馬地奠定了信息論的基礎(chǔ),引領(lǐng)我們進(jìn)入了現(xiàn)代高速通信和信息交流的時(shí)代。


香農(nóng)在MIT電子工程系完成的碩士論文被譽(yù)為20世紀(jì)最重要的碩士論文:在這篇論文中,22歲的香農(nóng)展示了如何使用繼電器和開關(guān)的電子電路實(shí)現(xiàn)19世紀(jì)數(shù)學(xué)家喬治布爾(George Boole)的邏輯代數(shù)。數(shù)字計(jì)算機(jī)設(shè)計(jì)的最基本的特征——將“真”和“假”、“0”和“1”表示為打開或關(guān)閉的開關(guān),以及使用電子邏輯門來做決策和執(zhí)行算術(shù)——可以追溯到香農(nóng)論文中的見解。


但這還不是他最偉大的成就。


1941年,香農(nóng)去了貝爾實(shí)驗(yàn)室,在那里他從事戰(zhàn)爭事務(wù),包括密碼學(xué)。他還研究信息和通信背后的原始理論。1948年,貝爾實(shí)驗(yàn)室研究期刊發(fā)表了他的研究,也就是劃時(shí)代的題為“通信的一個(gè)數(shù)學(xué)理論”論文。


香農(nóng)將信息源產(chǎn)生的信息量(例如,信息中的信息量)通過一個(gè)類似于物理學(xué)中熱力學(xué)熵的公式得到。用最基本的術(shù)語來說,香農(nóng)的信息熵就是編碼信息所需的二進(jìn)制數(shù)字的數(shù)量。對(duì)于概率為p的信息或事件,它的最特殊(即最緊湊)編碼將需要-log2(p)比特。


而這正是在貝葉斯定理中的最大后驗(yàn)表達(dá)式中出現(xiàn)的那些術(shù)語的本質(zhì)!

因此,我們可以說,在貝葉斯推理的世界中,最可能的假設(shè)取決于兩個(gè)術(shù)語,它們引起長度感(sense of length),而不是最小長度。



那么長度的概念是什么呢?


Length (h): 奧卡姆剃刀


奧卡姆的威廉(William of Ockham,約1287-1347)是一位英國圣方濟(jì)會(huì)修士和神學(xué)家,也是一位有影響力的中世紀(jì)哲學(xué)家。他作為一個(gè)偉大的邏輯學(xué)家而享有盛名,名聲來自他的被稱為奧卡姆剃刀的格言。剃刀一詞指的是通過“剔除”不必要的假設(shè)或分割兩個(gè)相似的結(jié)論來區(qū)分兩個(gè)假設(shè)。


奧卡姆剃刀的原文是“如無必要勿增實(shí)體”。用統(tǒng)計(jì)學(xué)的話說,我們必須努力用最簡單的假設(shè)來解釋所有數(shù)據(jù)。


其他杰出人物響應(yīng)了類似的原則。


牛頓說:“解釋自然界的一切,應(yīng)該追求使用最少的原理?!?/span>


羅素說:“只要有可能,用已知實(shí)體的結(jié)構(gòu)去替代未知實(shí)體的推論。”


人們總是喜歡更短的假設(shè)。


那么我們需要一個(gè)關(guān)于假設(shè)的長度的例子嗎?


下面哪個(gè)決策樹的長度更?。緼還是B?



即使沒有一個(gè)對(duì)假設(shè)的“長度”的精確定義,我相信你肯定會(huì)認(rèn)為左邊的樹(A)看起來更小或更短。當(dāng)然,你是對(duì)的。因此,更短的假設(shè)就是,它要么自由參數(shù)更少,要么決策邊界更不復(fù)雜,或者這些屬性的某種組合可以表示它的簡潔性。


那么Length(D | h)是什么?


給定假設(shè)是數(shù)據(jù)的長度。這是什么意思?


直觀地說,它與假設(shè)的正確性或表示能力有關(guān)。給定一個(gè)假設(shè),它支配著數(shù)據(jù)的“推斷”能力。如果假設(shè)很好地生成了數(shù)據(jù),并且我們可以無錯(cuò)誤地測量數(shù)據(jù),那么我們就根本不需要數(shù)據(jù)。


想想牛頓的運(yùn)動(dòng)定律。


牛頓運(yùn)動(dòng)定律第一次出現(xiàn)在《自然哲學(xué)的數(shù)學(xué)原理》上時(shí),它們并沒有任何嚴(yán)格的數(shù)學(xué)證明。它們不是定理。它們很像基于對(duì)自然物體運(yùn)動(dòng)的觀察而做出的假設(shè)。但是它們對(duì)數(shù)據(jù)的描述非常好。因此它們就變成了物理定律。


這就是為什么你不需要記住所有可能的加速度數(shù)字,你只需要相信一個(gè)簡潔的假設(shè),即F=ma,并相信所有你需要的數(shù)字都可以在必要時(shí)從這個(gè)假設(shè)中計(jì)算出來。它使得Length(D | h) 非常小。


但是如果數(shù)據(jù)與假設(shè)有很大的偏差,那么你需要對(duì)這些偏差是什么,它們可能的解釋是什么等進(jìn)行詳細(xì)描述。


因此,Length(D | h)簡潔地表達(dá)了“數(shù)據(jù)與給定假設(shè)的匹配程度”這個(gè)概念。


實(shí)質(zhì)上,它是錯(cuò)誤分類(misclassication)或錯(cuò)誤率( error rate)的概念。對(duì)于一個(gè)完美的假設(shè),它是很短的,在極限情況下它為零。對(duì)于一個(gè)不能完美匹配數(shù)據(jù)的假設(shè),它往往很長。


而且,存在著權(quán)衡。


如果你用奧卡姆剃刀刮掉你的假設(shè),你很可能會(huì)得到一個(gè)簡單的模型,一個(gè)無法獲得所有數(shù)據(jù)的模型。因此,你必須提供更多的數(shù)據(jù)以獲得更好的一致性。另一方面,如果你創(chuàng)建了一個(gè)復(fù)雜的(長的)假設(shè),你可能可以很好地處理你的訓(xùn)練數(shù)據(jù),但這實(shí)際上可能不是正確的假設(shè),因?yàn)樗`背了MAP 原則,即假設(shè)熵是小的。



將所有這些結(jié)合起來


因此,貝葉斯推理告訴我們,最好的假設(shè)就是最小化兩個(gè)項(xiàng)之和:假設(shè)的長度和錯(cuò)誤率。


這句話幾乎涵蓋了所有(有監(jiān)督)機(jī)器學(xué)習(xí)。


想想它的結(jié)果:

  • 線性模型的模型復(fù)雜度——選擇多項(xiàng)式的程度,如何減少平方和殘差。

  • 神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇——如何不公開訓(xùn)練數(shù)據(jù),達(dá)到良好的驗(yàn)證精度,并且減少分類錯(cuò)誤。

  • 支持向量機(jī)正則化和kernel選擇——軟邊界與硬邊界之間的平衡,即用決策邊界非線性來平衡精度


我們真正得出的結(jié)論是什么?


我們從最小描述長度(MDL)原理的分析中得出什么結(jié)論?


這是否一勞永逸地證明了短的假設(shè)就是最好的?


沒有。


MDL表明,如果選擇假設(shè)的表示(representation)使得h的大小為-log2 P(h),并且如果異常(錯(cuò)誤)的表示被選擇,那么給定h的D的編碼長度等于-log2 P(D | h),然后MDL原則產(chǎn)生MAP假設(shè)。


然而,為了表明我們有這樣一個(gè)表示,我們必須知道所有先驗(yàn)概率P(h),以及P(D | h)。沒有理由相信MDL假設(shè)相對(duì)于假設(shè)和錯(cuò)誤/錯(cuò)誤分類的任意編碼應(yīng)該是首選。


對(duì)于實(shí)際的機(jī)器學(xué)習(xí),人類設(shè)計(jì)者有時(shí)可能更容易指定一種表示來獲取關(guān)于假設(shè)的相對(duì)概率的知識(shí),而不是完全指定每個(gè)假設(shè)的概率。


這就是知識(shí)表示和領(lǐng)域?qū)I(yè)知識(shí)變得無比重要的地方。它使(通常)無限大的假設(shè)空間變小,并引導(dǎo)我們走向一組高度可能的假設(shè),我們可以對(duì)其進(jìn)行最優(yōu)編碼,并努力找到其中的一組MAP假設(shè)。


總結(jié)和思考


一個(gè)奇妙的事實(shí)是,如此簡單的一套數(shù)學(xué)操作就能在概率論的基本特征之上產(chǎn)生對(duì)監(jiān)督機(jī)器學(xué)習(xí)的基本限制和目標(biāo)的如此深刻而簡潔的描述。對(duì)這些問題的簡明闡述,讀者可以參考來自CMU的一篇博士論文《機(jī)器學(xué)習(xí)為何有效》(Why Machine Learning Works)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多