日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

 taotao_2016 2019-09-19

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

指數(shù)分布

高斯分布、二項(xiàng)分布、多項(xiàng)分布、泊松分布、伽瑪分布和貝塔分布都屬于指數(shù)分布。它的一般形式是

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Aη)是累積量函數(shù)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

其指數(shù)e?是歸一化因子,A(η)也稱(chēng)為對(duì)數(shù)配分函數(shù)。η是自然參數(shù)。T(x)被稱(chēng)為充分統(tǒng)計(jì)量。在許多特定的分布中,如伯努利分布,它等于x。

考慮以下伯努利分布,其取值為1的概率為α,值為0的概率為1- α。我們可以用指數(shù)形式重寫(xiě)伯努利分布。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

然后

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

h,T和A的選固定擇將定義一個(gè)特定的指數(shù)分布,如伯努利分布。如果我們轉(zhuǎn)換η,它將成為恢復(fù)伯努利分布的模型參數(shù)α的邏輯函數(shù)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

因此,它可以用自然參數(shù)η表示為指數(shù),而不是用參數(shù)α來(lái)建模伯努利分布。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

對(duì)于二項(xiàng)式和泊松分布

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

到目前為止,我們的分布只需要一個(gè)參數(shù)來(lái)建模。對(duì)于由多個(gè)參數(shù)建模的分布,η將包含值向量。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

許多概率模型中的概率密度,如在圖模型中由馬爾可夫隨機(jī)場(chǎng)MRF建模的概率密度,可以表示為指數(shù)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

因此,指數(shù)族分布成為建模概率模型的自然選擇。

讓我們來(lái)看看Aη)的導(dǎo)數(shù)

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

它的一階導(dǎo)數(shù)是充分統(tǒng)計(jì)量T(x)的期望。對(duì)于T(x)=x,這個(gè)導(dǎo)數(shù)等于分布的均值。

在泊松分布中,用傳統(tǒng)的積分定義計(jì)算E[x](均值)并不容易。將T(x)定義為泊松分布中的x,A '(η)等于E [ x ]。一般來(lái)說(shuō),微分比積分簡(jiǎn)單,我們利用它來(lái)解期望。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

二階導(dǎo)數(shù)A '(η)等于方差。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

A的導(dǎo)數(shù)實(shí)際上幫助我們定義了分布。

矩匹配

矩定量地描述了函數(shù)的形狀。定義為

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這一矩被稱(chēng)為關(guān)于零的矩。但是如果我們先用平均值減去x,它將被稱(chēng)為中心矩。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

k階矩等于a(η)的k階導(dǎo)數(shù)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

A(η)是凸函數(shù)(其二階導(dǎo)數(shù)大于0)。由于A'(η)= μ,η具有與μ(力矩參數(shù))的一對(duì)一映射。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

根據(jù)充分統(tǒng)計(jì)量t(x)的定義,導(dǎo)數(shù)A'η),A''η),...... A?η)具有特殊的意義,可以通過(guò)采樣數(shù)據(jù)進(jìn)行估計(jì)。因此,我們?cè)跇颖緮?shù)據(jù)、分布矩和分布參數(shù)之間創(chuàng)建一個(gè)鏈接。在機(jī)器學(xué)習(xí)中,我們要用q*來(lái)模擬種群密度p。在矩匹配中,我們從樣本數(shù)據(jù)中計(jì)算矩,以使它們的充分統(tǒng)計(jì)量的期望值相匹配。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

假設(shè)繪制的所有數(shù)據(jù)都是iid,最大似然估計(jì)將是:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

可以通過(guò)從樣本數(shù)據(jù)中找出充分統(tǒng)計(jì)量的平均值來(lái)計(jì)算μ。這稱(chēng)為矩匹配。估計(jì)后,我們可以找到分布的參數(shù)。

考慮一個(gè)簡(jiǎn)單的zero-centered分布f

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

讓我們看看如何通過(guò)采樣計(jì)算分布參數(shù)σ。矩計(jì)算如下:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這些矩是鐘形分布的均值和方差。我們可以通過(guò)采樣來(lái)估計(jì)二階矩。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

通過(guò)將理論矩和樣本矩聯(lián)系起來(lái),得到了對(duì)σ(sampled σ)的估計(jì)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

在上面的例子中,通過(guò)積分求E (x)和E (x2)很容易。一般來(lái)說(shuō)。對(duì)于許多其他指數(shù)分布來(lái)說(shuō),這并不容易,比如gamma分布。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

自然參數(shù)及其逆定義為:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

充分統(tǒng)計(jì)為(log x,x),a(η)為

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

使用Aη)的導(dǎo)數(shù),我們找到了充分統(tǒng)計(jì)的期望

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

然后利用樣本數(shù)據(jù)計(jì)算充分統(tǒng)計(jì)量的平均值,對(duì)上述參數(shù)α和β進(jìn)行反求。

貝葉斯推斷

頻率推斷從事件的頻率得出結(jié)論。如果我們兩次擲硬幣兩次正面(head),p(head)等于100%嗎?然而,由于樣本量太小,頻率推斷不太可能發(fā)布這樣的結(jié)果。

貝葉斯推斷利用貝葉斯定理從似然和先驗(yàn)信念中導(dǎo)出后驗(yàn)分布。當(dāng)有新的觀測(cè)結(jié)果時(shí),我們將后驗(yàn)轉(zhuǎn)換為先驗(yàn),并根據(jù)新的證據(jù)計(jì)算新的后驗(yàn)。由于后驗(yàn)是一個(gè)確定性分布而不是一個(gè)點(diǎn)估計(jì),我們可以繼續(xù)將其與新的證據(jù)相結(jié)合,形成一個(gè)新的belief。簡(jiǎn)言之,我們從某個(gè)p(h)開(kāi)始,并在新的證據(jù)下繼續(xù)更新后驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

例如,可以通過(guò)結(jié)合汽車(chē)如何移動(dòng)的動(dòng)態(tài)模型和GPS之前的測(cè)量數(shù)據(jù)來(lái)開(kāi)始對(duì)汽車(chē)位置的預(yù)先判斷。或者我們甚至可以完全從直覺(jué)或經(jīng)驗(yàn)開(kāi)始一個(gè)先驗(yàn)。給定當(dāng)前傳感器讀數(shù),我們形成了給定不同位置假設(shè)的當(dāng)前傳感器讀數(shù)的可能性。利用貝葉斯推理,我們可以得到給定傳感器讀數(shù)的當(dāng)前汽車(chē)位置的概率分布P(H|E)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

我們將后驗(yàn)轉(zhuǎn)換為前驗(yàn),以便下一次迭代時(shí)進(jìn)行新的觀察。樣本量越小,似然曲線越寬,峰值越低。我們還沒(méi)有畫(huà)出足夠的數(shù)據(jù)來(lái)排除許多可能性。因此,如果后驗(yàn)是強(qiáng)的(窄的和尖的),后驗(yàn)將與前驗(yàn)相似。當(dāng)收集到的數(shù)據(jù)越多,似然值越尖,后驗(yàn)分布越接近似然曲線。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Frequentist vs Bayesian

Frequentist應(yīng)用最大似然估計(jì)來(lái)找到解釋觀察結(jié)果的最佳模型參數(shù)。貝葉斯聚焦在模型參數(shù)θ上,并使用貝葉斯定理計(jì)算模型參數(shù)的后驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

貝葉斯推斷在給定觀察的情況下計(jì)算不同模型的概率。當(dāng)然,對(duì)于高維或大的連續(xù)空間,這可能非常復(fù)雜。進(jìn)一步簡(jiǎn)化似然模型和先驗(yàn)?zāi)P褪强尚械??;蛘呶覀兛梢酝ㄟ^(guò)采樣或近似來(lái)解決這個(gè)問(wèn)題。

根據(jù)樣本收集的方式,回答P(x|y)可能比回答P(y|x)更容易。有時(shí),概率很容易在相反的方向上建模。例如,P(y | x, θ)和P(θ)通常用高斯分布或β分布建模。下面是貝葉斯線性回歸的一個(gè)例子。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

我們忽略貝葉斯定理中的分母P(y | X),因?yàn)樗皇铅鹊暮瘮?shù)。對(duì)于P(y | x, θ)和P(θ),我們?cè)谪惾~斯線性回歸中用單獨(dú)的高斯模型對(duì)它們進(jìn)行建模。實(shí)際上,P(y |X)或P(X)通常很難計(jì)算,所以這是優(yōu)化后驗(yàn)的一個(gè)很好的簡(jiǎn)化。

在貝葉斯定理,我們有相對(duì)較大的自由選擇模型P(θ)。但并不是每個(gè)選擇都是相等的,這個(gè)選擇影響后驗(yàn)分析計(jì)算的難易程度。如果相應(yīng)的后驗(yàn)函數(shù)屬于前驗(yàn)函數(shù)的同一類(lèi)分布,則前驗(yàn)函數(shù)是共軛前驗(yàn)函數(shù)。由于后驗(yàn)在下一次迭代中經(jīng)常被用作先驗(yàn),我們可以簡(jiǎn)單地重復(fù)同樣的數(shù)學(xué)計(jì)算后驗(yàn)。例如,如果似然和先驗(yàn)都可以用高斯函數(shù)建模,那么后驗(yàn)函數(shù)也是高斯函數(shù),易于計(jì)算。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

如果模型θ可以使用共軛先驗(yàn)對(duì)應(yīng)于特定似然分布來(lái)建模,我們通??梢匀菀椎睾头治龅亟鉀Q后驗(yàn)。

Beta分布的貝葉斯推斷

對(duì)于二項(xiàng)分布,我們可以使用beta分布對(duì)其進(jìn)行建模。如果可能性是二項(xiàng)式或伯努利,我們將在beta分布之前選擇我們的共軛。這個(gè)選擇使得我們可以將后驗(yàn)分布為β分布,并且可以容易地分析計(jì)算計(jì)算。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這是關(guān)于使用β分布來(lái)尋找后驗(yàn)的框架,其中我們對(duì)p(data|θ)和p(θ)都使用β分布。后驗(yàn)p(θ|data)將是β分布,所涉及的數(shù)學(xué)只是一些補(bǔ)充。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

讓我們考慮一個(gè)人接觸病毒的感染率。如果我們沒(méi)有先驗(yàn)知識(shí),我們可以從均勻分布開(kāi)始先驗(yàn)(如下)。貝葉斯推理中的后驗(yàn)與頻率論的結(jié)果相似,因?yàn)槲覀兊腷elief較弱。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

否則,我們可以從一些基于過(guò)去經(jīng)驗(yàn)、知識(shí)甚至直覺(jué)的先驗(yàn)知識(shí)開(kāi)始。然而,如果我們的belief是錯(cuò)的,我們需要收集更多的數(shù)據(jù)來(lái)逐漸重塑后驗(yàn)曲線。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

讓我們看看貝葉斯推理與頻率推斷的不同之處。在貝葉斯中,我們首先認(rèn)為流感感染率可以建模為B(2,6)。這將是我們下面的第一張圖。假設(shè)我們只有一個(gè)實(shí)驗(yàn)室結(jié)果,并測(cè)試呈陽(yáng)性。一個(gè)普通的頻率推斷者會(huì)說(shuō)根據(jù)樣本感染率是100%。但我們知道這在科學(xué)上是不合理的。但是對(duì)于貝葉斯來(lái)說(shuō),隨著結(jié)果的逐漸出現(xiàn),我們?nèi)匀豢梢岳秘惾~斯推理得出某種結(jié)論。從某種角度來(lái)看,如果我們先驗(yàn)是合理的,貝葉斯推理給我們一個(gè)合理的圖像。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Gamma分布作為共軛先驗(yàn)

如果似然可以用高斯分布來(lái)建模,我們可以用伽馬分布作為共軛先驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

似然px |θ)的高斯分布可以用以下形式表示

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

應(yīng)用貝葉斯定理,我們也可以以Gamma分布的形式推導(dǎo)出后驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Dirichlet - 多項(xiàng)式的共軛先驗(yàn)

Dirichlet分布是多項(xiàng)式的共軛先驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

后驗(yàn)是:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Dirichlet分布也是分類(lèi)分布之前的共軛:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

共軛先驗(yàn)概述

以下是對(duì)應(yīng)于特定似然分布的一些其他共軛先驗(yàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

預(yù)測(cè)與正則化

利用bayes定理,在給定觀測(cè)值的情況下,計(jì)算了θ模型的后驗(yàn)概率。假設(shè)模型參數(shù)θ為zero-centered高斯分布,則先驗(yàn)p(θ)在目標(biāo)函數(shù)中轉(zhuǎn)化為l2正則項(xiàng)。從概念上講,p(θ)可以看作是一個(gè)正則化因子。它可以懲罰成本函數(shù)。如下圖所示,如果我們事先知道θ是什么樣子的,我們可以對(duì)p(θ)應(yīng)用一個(gè)相當(dāng)復(fù)雜的模型。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

為了進(jìn)行新的預(yù)測(cè),我們?cè)谟?xùn)練中使用后驗(yàn)p(θ| X,y)作為p(θ)。然后我們通過(guò)積分θ得到邊際概率p(y 0 | x 0)。這是邊際推斷。我們通過(guò)將其他所有內(nèi)容相加來(lái)計(jì)算變量的概率。

導(dǎo)數(shù)

雅可比矩陣和Hessian矩陣

這些矩陣分別是f的一階和二階導(dǎo)數(shù)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這種表示法稱(chēng)為分子布局。hessian矩陣是對(duì)稱(chēng)的。具有hessian矩陣和向量v的二次方程的上界是

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

下面,我們使用分母布局。它是分子布局的轉(zhuǎn)置。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這是微分一個(gè)向量和一個(gè)矩陣的結(jié)果

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

矩陣分解

圖形解釋

我們可以通過(guò)將x投影到x軸和y軸來(lái)表示二維向量x。因此數(shù)據(jù)點(diǎn)可以表示為(x?,y?)。我們可以選擇單位向量q并計(jì)算x對(duì)q的投影。投影向量為qq?x,其大小等于q?x。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

在機(jī)器學(xué)習(xí)(ML)中,我們將特征從高維空間提取到低維潛在空間(比如k維)。概念上,我們把x投射到k個(gè)不同的向量q ?上。選擇q?是很重要的。如果做得正確,我們可以使用更少的成分來(lái)表示信息。例如,如果我們選擇下面的q 1和q 2,我們可以忽略q 2(藍(lán)點(diǎn))。它們可能太小,我們可以忽略它們。但是,如果我們選擇x軸和y軸,則情況并非如此。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

SVD將矩陣分解為獨(dú)立的成分。SVD中選取的所有q相互獨(dú)立(正交),即提取的特征不相關(guān)。從概念上講,SVD選擇第一個(gè)q,當(dāng)其余成分被刪除時(shí),則最小化下面的最小平方誤差

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

XX?是對(duì)稱(chēng)的。 最優(yōu)q(命名為q 1)將是XX?的特征向量,具有最大特征值λ或最大奇異值σλ=σ2

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

然后我們基于相同的原理選擇下一個(gè)組件,條件是q彼此正交。因此,所選擇的q 2將具有第二大的特征值。我們可以繼續(xù)這個(gè)過(guò)程,直到我們用完特征向量。

奇異值分解(SVD)

SVD在線性代數(shù)中的表現(xiàn)方式不同。任何矩陣A都可以分解為

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

其中U由u構(gòu)成- AA?和u?的本征向量彼此正交。類(lèi)似地,v由A?A的特征向量v?組成,該特征向量也彼此正交。

從上面的等式,A也可以寫(xiě)成

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

其中u?和v?是單位向量。因此,當(dāng)我們?cè)u(píng)估分解成分的重要性時(shí),我們可以忽略那些具有非常小的σ?的項(xiàng)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

如果我們僅保留具有最大σ?的最頂部k項(xiàng),我們有效地將A的維度減小為k,即,提取的特征僅在k維度上??紤]到每個(gè)主成分的重要性,我們有效地減少了輸入的維度。這就是PCA所做的。

主成分分析PCA

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

直觀地說(shuō),兩個(gè)輸入特征可能相互關(guān)聯(lián),因此您可以創(chuàng)建一個(gè)新特征來(lái)表示這兩個(gè)特征。對(duì)于主成分分析,我們希望找到k個(gè)獨(dú)立的特征來(lái)表示我們的數(shù)據(jù)。

PCA示例

在機(jī)器學(xué)習(xí)(ML)中,SVD將包含訓(xùn)練數(shù)據(jù)的矩陣分解為獨(dú)立的特征。例如,矩陣的行包含來(lái)自用戶(hù)的電影評(píng)級(jí)。列包含電影的用戶(hù)評(píng)分。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

如果我們選擇AA?的前K個(gè)特征值,其相應(yīng)的特征向量等效于下面的前K個(gè)優(yōu)化q k向量:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

回想一下,我們將x投影到這些主成分qk中。求出最上面K個(gè)優(yōu)化的qk,將x的維數(shù)降為K,就可以得到投影向量是x的第K個(gè)潛在因子。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

我們可以連接q?形成矩陣Q。我們可以通過(guò)將Q?與用戶(hù)的電影分級(jí)相乘得出user? 的潛在特征。(q?是M ×1,其中M是電影的數(shù)量,Q是M × K)

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

SVD發(fā)現(xiàn)用戶(hù)評(píng)級(jí)的模式(主成分)。我們可以想象一些主成分可能代表電影的類(lèi)型或發(fā)行的年代。例如,z?中的第一個(gè)成分可以指示用戶(hù)是否喜歡喜劇。

概率PCA

在svd中,我們將x分解為USV?。而概率pca模型X≈WZ。我們將使用em算法來(lái)學(xué)習(xí)W和Z,其中Z可以作為X的潛在特征。與svd不同,W不需要是正交的。列不需要是單位長(zhǎng)度或彼此垂直。

首先,我們假設(shè)潛變量z?是zero-centered高斯分布。利用W,我們可以通過(guò)WZ重建原始數(shù)據(jù)X,其中x也由高斯建模。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Z是EM算法中的潛在變量θ2,W是θ1。我們的目標(biāo)是

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

在E步驟中,我們計(jì)算qz?)的高斯分布

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

在M步驟中,我們進(jìn)行優(yōu)化

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

算法是:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Kernel PCA

從一個(gè)角度來(lái)看,PCA找到一組最大化q?XX?q的向量q 。由于XX?是對(duì)稱(chēng)的,因此q將是具有最大特征值的XX?的特征向量。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

因此,問(wèn)題變?yōu)檎业骄哂凶畲筇卣髦档奶卣飨蛄俊?/p>

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

我們用核(Kernel)替換XX?以將輸入映射到更高維度。這允許我們創(chuàng)建線性邊界來(lái)對(duì)在低維空間中不可線性分離的數(shù)據(jù)進(jìn)行分類(lèi)。相反,PCA通常被認(rèn)為是降維技術(shù)。所以這兩種技術(shù)似乎都朝著相反的方向發(fā)展。然而,有時(shí)候,我們需要在變小之前變大。進(jìn)入高維空間使我們能夠以更簡(jiǎn)單明確的邊界對(duì)信息進(jìn)行聚類(lèi)。一旦信息清晰地聚類(lèi),將更容易將其映射到較低維度的空間。這是PCA kernel背后的動(dòng)機(jī)。讓我們從以下等式開(kāi)始

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

經(jīng)過(guò)一些操作,我們得到

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

因此,假設(shè)矩陣K保持核結(jié)果,我們可以通過(guò)找到K的特征向量找到a?。讓我們用高斯函數(shù)定義核函數(shù)。x的相應(yīng)潛在因子可以計(jì)算為:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

下面是我們?nèi)绾问褂肒ernel PCA 預(yù)測(cè)新輸入x 0

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Cholesky分解

Hermitian正定矩陣A的Cholesky分解是

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Hermitian矩陣是一個(gè)等于其轉(zhuǎn)置共軛的方陣。轉(zhuǎn)置共軛物取每個(gè)元素的復(fù)共軛,然后轉(zhuǎn)置矩陣。

協(xié)方差矩陣是對(duì)稱(chēng)的(如果值都是real,則是Hermitian的特殊情況)和半正定。因此,Cholesky分解通常用于機(jī)器學(xué)習(xí)(ML),以便更容易和更穩(wěn)定地操作。

Moore-Penrose Pseudoinverse

對(duì)于線性方程組,我們可以計(jì)算方陣A的倒數(shù)來(lái)求解x。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

但并非所有矩陣都是可逆的。在機(jī)器學(xué)習(xí)(ML)中,由于數(shù)據(jù)中存在噪聲,因此不太可能找到精確解。但x的解可以估算為

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

其中

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

統(tǒng)計(jì)顯著性

空假設(shè)H 0表示兩個(gè)測(cè)量現(xiàn)象之間沒(méi)有關(guān)系,例如,財(cái)富和幸福之間沒(méi)有相關(guān)性。如果觀察到的數(shù)據(jù)具有統(tǒng)計(jì)顯著性,則拒絕零假設(shè)。例如,如果我們?cè)?00次拋硬幣中看到100個(gè)正面,我們可以“否定”硬幣是公平的假設(shè)。因此,備擇假設(shè) H 1(一種與H 0相矛盾的假設(shè))可能是真的(硬幣不均勻)。實(shí)際上,要量化兩個(gè)變量之間的關(guān)系比計(jì)算收集到的數(shù)據(jù)只是偶然發(fā)生的概率要難得多。因此,零假設(shè)是對(duì)兩種現(xiàn)象得出結(jié)論的較好方法。

p值(概率值)是零假設(shè)為真時(shí)觀測(cè)樣本的概率。一個(gè)小的p值(通?!?.05或≤0.01)顯示出與原假設(shè)相反的有力證據(jù),即偶然發(fā)生的情況很少見(jiàn)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

例如,在收集100個(gè)數(shù)據(jù)點(diǎn)之后,我們可以基于數(shù)據(jù)計(jì)算相關(guān)系數(shù)。如上所示,如果我們收集的100個(gè)數(shù)據(jù)點(diǎn)的相關(guān)性為-0.25,則其對(duì)應(yīng)的PDF約為0.012。只有2.5%的群體可能具有小于-0.2的相關(guān)性。因此,零假設(shè)可能是錯(cuò)誤的。

置信區(qū)間

在進(jìn)行實(shí)驗(yàn)收集樣本后。我們可以使用樣本數(shù)據(jù)點(diǎn)來(lái)估計(jì)一個(gè)像平均值這樣的總體參數(shù)(稱(chēng)為estimator)。置信區(qū)間可以計(jì)算為這個(gè)樣本均值周?chē)姆秶?5%置信水平意味著在95%的實(shí)驗(yàn)中,其置信區(qū)間包含總體的真實(shí)均值。換句話說(shuō),一個(gè)實(shí)驗(yàn)的置信區(qū)間不包含真實(shí)均值的概率是1 / 20。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

這是計(jì)算樣本均值的置信區(qū)間的骨架

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

樣本方差:

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

卡方檢驗(yàn)

卡方檢驗(yàn)(Chi-square test)是一種常用的檢驗(yàn)方法,用于測(cè)量觀察到的數(shù)據(jù)之間的相關(guān)性只是偶然的可能性,而不是兩個(gè)變量之間的某種相關(guān)性。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

利用上述公式計(jì)算卡方統(tǒng)計(jì)量。我們比較樣本的實(shí)際計(jì)數(shù)和假設(shè)不存在相關(guān)性的期望計(jì)數(shù)。下面是一個(gè)決定性別是否影響寵物選擇的例子。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

在這個(gè)例子中,如果性別不是一個(gè)因素,我們計(jì)算了擁有汽車(chē)的男性的實(shí)際數(shù)量減去預(yù)期數(shù)量之間的差額。我們平方它,除以期望的計(jì)數(shù)然后計(jì)算相應(yīng)的卡方值。在我們的表格中,我們有四種可能的組合(雄貓、雄狗、雌貓、雌狗)。因此,我們有四個(gè)自由度,我們需要把所有四個(gè)值加起來(lái)來(lái)計(jì)算卡方統(tǒng)計(jì)量。

對(duì)于雙邊檢驗(yàn),我們將給定的顯著性水平α除以2。例如,對(duì)于α=0.05,如果卡方統(tǒng)計(jì)量只有0.05/2=0.025的概率是偶然的,我們可以接受相關(guān)。由于卡方分布是不對(duì)稱(chēng)的,我們通常會(huì)查表,看看對(duì)應(yīng)的特定概率值的卡方統(tǒng)計(jì)量是多少。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

例如,當(dāng)自由度為4時(shí),如果upper-tail表卡方統(tǒng)計(jì)量大于11.1,我們將接受相關(guān)性。當(dāng)然,我們也需要參考bottom-tail表來(lái)檢查卡方值是否太小。

探索性數(shù)據(jù)分析

為了探索數(shù)據(jù),我們可以計(jì)算兩個(gè)變量之間的協(xié)方差,或執(zhí)行如下所示的散點(diǎn)圖來(lái)發(fā)現(xiàn)趨勢(shì)。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

例如,下面的綠點(diǎn)和藍(lán)點(diǎn)分別是SF和NY的房子。對(duì)于海拔高度>73英尺,我們有一個(gè)決策樹(shù)樁,滿足這個(gè)條件的很可能是SF。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

范數(shù)

L1, L2-norm

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

Lp-norm, L∞-norm (max norm) & Frobenius norm

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

相似度

Jaccard相似度

Jaccard相似度測(cè)量交集大小與并集大小之間的比率。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

余弦相似度

余弦相似度測(cè)量?jī)蓚€(gè)矢量之間的角度。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

皮爾遜相似度

Pearson相關(guān)系數(shù)ρ測(cè)量?jī)蓚€(gè)變量之間的相關(guān)性。

機(jī)器學(xué)習(xí)總結(jié)(基礎(chǔ)):指數(shù)分布、矩匹配、矩陣分解等

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多