日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

<td id="gup6s"><code id="gup6s"><small id="gup6s"></small></code></td>

<strike id="gup6s"><code id="gup6s"></code></strike>

<fieldset id="gup6s"><table id="gup6s"></table></fieldset>

<menu id="gup6s"><form id="gup6s"></form></menu>

<span id="gup6s"><i id="gup6s"></i></span>

搜索

分享

QQ空間 QQ好友新浪微博微信

機器學習推導|主成分分析

漢無為 2022-11-19 發(fā)布于湖北

展開全文

一、樣本均值與樣本方差

概述

假設有以下數據：

樣本均值與樣本方差

以下定義了數據的樣本均值與樣本方差：

接下來需要對樣本均值與樣本方差進行一些變換來獲得其另一種表示形式：

中心矩陣具備以下性質：

因此最終可以得到

二、主成分分析的思想

一個中心：PCA是對原始特征空間的重構，將原來的線性相關的向量轉換成線性無關的向量；

兩個基本點：最大投影方差和最小重構距離，這是本質相同的兩種方法，在接下來的部分將具體介紹。

PCA首先要將數據中心化（即減去均值）然后投影到一個新的方向上，這個新的方向即為重構的特征空間的坐標軸，同時也要保證投影以后得到的數據的方差最大，即最大投影方差，這樣也保證了數據的重構距離最小。

四、最大投影方差

假設投影方向為，由于我們只關注投影的方向，因此將的模設置為，即，則中心化后的數據在方向上的投影為，是一個標量。按照最大投影方差的思想，我們定義損失函數如下：

因此該問題就轉換為以下最優(yōu)化問題：

然后使用拉格朗日乘子法進行求解：

最后解得符合條件的向量是協(xié)方差矩陣的特征向量。如果想要降到維（），則只需要將對應特征值最大的前個特征向量取出來作為投影方向然后獲得數據在這些方向上的投影即為重構的坐標，即：

特征向量表示投影變換的方向，特征值表示投影變換的強度。通過降維,我們希望減少冗余信息,提高識別的精度,或者希望通過降維算法來尋找數據內部的本質結構特征。找最大的特征值是因為，在降維之后要最大化保留數據的內在信息，并期望在所投影的維度上的離散最大。

五、最小重構距離

最小重構距離是另一種求解的方法，其本質上和最大投影方差是相同的。

我們知道有個投影方向符合條件，因此原來的數據可以表示為以下形式，降維的數據也就是舍棄掉第到第這幾個方向上的信息。

因此重構距離也就是指，本著最小化重構距離的思想我們可以設置新的損失函數如下：

然后就可以轉化為以下最優(yōu)化問題：

顯然這里的每個是可以單獨求解的，最終也可以解得是協(xié)方差矩陣的特征向量，只不過這里的是對應特征值較小的幾個特征向量。

六、SVD角度看PCA和PCoA

協(xié)方差矩陣的特征分解：

.

將中心化的結果做奇異值分解：

接下里可以做以下變換：

接下來我們構造矩陣：

對比和，我們可以發(fā)現：
①將進行特征分解然后得到投影的方向，也就是主成分，然后矩陣即為重構坐標系的坐標矩陣；
②將進行特征分解可以直接獲得坐標矩陣。
（注意應保證和特征分解得到的特征向量是單位向量。）

關于為什么將進行特征分解可以直接獲得坐標矩陣，現做以下解釋：

這兩種?法都可以得到主成分，但是由于?差矩陣是的，?是的，所以對樣本量較少的時候可以采? PCoA的?法。

七、概率PCA（p-PCA）

概述

假設有以下數據：

其中是原始數據，是降維后的數據，可以將看做隱變量（latent variable），看做觀測變量（observed variable），則p-PCA就可以看做生成模型。

和滿足以下關系：

這是一個線性高斯模型，其中是噪聲，與是獨立的。求解這個模型要經過兩個階段：
①inference：求
②learning：使用EM算法求解參數。

的生成過程如下：

上圖中數據空間為?維，潛在空間為?維。?個觀測數據點的?成?式為：?先從潛在變量的先驗分布中抽取?個潛在變量的值，然后從?個各向同性的?斯分布（?紅?圓圈表示）中抽取?個的值，這個各向同性的?斯分布的均值為，協(xié)?差為。綠?橢圓畫出了邊緣概率分布的密度輪廓線。

推斷（inference）

求解的過程如下：

求

求

求

該問題和《高斯分布|機器學習推導系列（二）》中第六部分的問題是類似的。

利用《高斯分布|機器學習推導系列（二）》中第五部分的公式可以求解：

學習（learning）

使用EM算法求解，這里不做展示。

參考資料

ref:降維時為什么找最大的特征值對應的特征向量
ref:《模式識別與機器學習》

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：漢無為 > 《機器學習基礎》

舉報/認領

0條評論

請遵守用戶評論公約

類似文章 更多

漢無為

關注對話

TA的最新館藏

[轉] 4招教你正確“追漲” 招招好用！
中國核心資產價值重估概念名單出爐！
資本資產定價模型（CAPM模型）
手機里常用的AI工具
萬萬沒想到！中醫(yī)‘望聞問切’竟能讓你秒懂體質！手把手教你自查，建議收藏！
頻譜態(tài)勢感知系統(tǒng)的演習測試與實戰(zhàn)效能評估：理論、方法與實踐-全文3.29萬字絕對技術干貨

喜歡該文的人也喜歡更多

熱門閱讀換一換