關(guān)于主成分分析matlab代碼實現(xiàn)的總結(jié)

宗邑 2019-01-30

展開全文

方法一：

1：用zscore函數(shù)對原始數(shù)據(jù)S進行標準化。

2：用cov函數(shù)求出標準化后的數(shù)據(jù)的協(xié)方差。

3：求出此協(xié)方差的特征向量與特征根（eig函數(shù)）。

4：將產(chǎn)生的特征向量依據(jù)特征根大小從大到小進行排列（即將特征向量按列倒序）。

5：依據(jù)需求取出倒序后的向量的前幾列（一般根據(jù)特征根來算貢獻率，使得累計貢獻率大于85%），組成新的矩陣T

6：做S*T得到分析后的新的數(shù)據(jù)。

7：依據(jù)特征根算貢獻率，并繪圖。

代碼如下：

X=load('shuju.txt')

z=zscore(X) %數(shù)據(jù)標準化

M=cov(z) %協(xié)方差

[V,D]=eig(M); %求出協(xié)方差矩陣的特征向量、特征根

d=diag(D); %取出特征根矩陣列向量（提取出每一主成分的貢獻率）

eig1=sort(d,'descend') %將貢獻率按從大到小元素排列

v=fliplr(V) %依照D重新排列特征向量

S=0;

i=0;

while S/sum(eig1)<0.85

i=i 1;

S=S eig1(i);

end %求出累積貢獻率大于85%的主成分

NEW=z*v(:,1:i) %輸出產(chǎn)生的新坐標下的數(shù)據(jù)

W=100*eig1/sum(eig1)

figure(1)

pareto(W); %畫出貢獻率的直方圖

方法二：

1：用zscore函數(shù)對原始數(shù)據(jù)S進行標準化，（同上）。

2：利用matlab自帶的princomp函數(shù)直接求得其特征向量，新坐標下的數(shù)據(jù)，特征根（并且已經(jīng)排列好了）。

3：選擇恰當?shù)那皫醉椫鞒煞峙c標準化后的數(shù)據(jù)相乘。得到在新坐標下的數(shù)據(jù)。

4：如方法一，利用特征根算貢獻率。

代碼如下：

X=load('shuju.txt')

x=zscore(X) %標準化

[coef,score,eig,t]=princomp(x); %利用princomp處理矩陣

t %每一組數(shù)據(jù)在新坐標下到原點的距離

s=0;

i=1;

while s/sum(eig)<0.85

s=s eig(i);

i=i 1;

end %獲得累計貢獻率大于85%幾組數(shù)據(jù)

NEW=x*coef(:,1:i-1) %輸出新的數(shù)據(jù)

figure

pareto(eig/sum(eig)); %輸出貢獻率直方圖

figure(2)

plot(eig,'r ');

hold on

plot(eig,'b-');

二：令我糾結(jié)的一些東西

1：歸一化、均值化、標準化、白化

歸一化：將數(shù)據(jù)歸結(jié)到某兩個數(shù)之間。

計算公式：y = (ymax - ymin)*(x - xmin)/(xmax - xmin) ymin

Matlab實現(xiàn)方法：利用mapminmax函數(shù)，具體格式為[y,ps] = mapminmax(x,ymin,ymax)（矩陣中以行來歸一化）。

均值化：將數(shù)據(jù)中的每一個數(shù)除以其相應(yīng)指標的平均值（數(shù)據(jù)矩陣中由于一般每一列描述一個特征，matlab處理時要按列處理）（這種方法可以說修正了常用的標準化會浪費部分數(shù)據(jù)的情況，可以替代標準化對數(shù)據(jù)進行預(yù)處理）。

標準化：使數(shù)據(jù)均值為0方差為1，即將每一個數(shù)據(jù)減去所在列的均值后對數(shù)據(jù)矩陣每一列除以其對應(yīng)的方差。

Matlab實現(xiàn)方法：使用zscore函數(shù)。

主成分分析中，原始數(shù)據(jù)的單位不同，需要使用一種數(shù)據(jù)處理方法使其轉(zhuǎn)換為無量綱數(shù)，歸一化與標準化都有消除量剛的作用，但是，主成分分析根據(jù)方差來建立新坐標系的，所以歸一化矩陣可能不適用于PCA中，所以，基本上主成分分析在數(shù)據(jù)預(yù)處理上都用的是標準化，但是，標準化矩陣本身會損失一部分信息，而均值化不會損失信息，均值化可以更好的改進PCA算法（網(wǎng)上找到的一篇論文中說到的）。

白化：白化通常為獨立成分分析中的數(shù)據(jù)處理方式，其與PCA處理方式基本一致，個人理解ICA就是對PCA數(shù)據(jù)作的進一步處理，找到其中相互獨立的部分。

2：princomp函數(shù)與eig函數(shù)的不同

在開始我一直以為利用princomp函數(shù)與eig函數(shù)產(chǎn)生的特征向量只有順序有所不同，但是我發(fā)現(xiàn)，即使是同一組數(shù)據(jù)，其產(chǎn)生的特征向量也有所不同，表現(xiàn)為某幾個數(shù)據(jù)正負號不同，具體如下：

原始數(shù)據(jù)：

使用eig函數(shù)的得到的特征向量：

使用princomp函數(shù)的特征向量：

可以看出，不僅是列的位置有所不同，某些數(shù)據(jù)的正負情況也有所不同，這也是我的一個疑惑：相同數(shù)據(jù)的特征向量為什么會有正負號的偏差？為保險起見，我覺得matlab自帶的princomp函數(shù)可能更準確。

3：PCA與ICA的異同

幾何意義上：PCA是在找尋保留最大信息的方向，而ICA是在找尋各個獨立的分量，也就是說PCA的第一主成分貢獻率永遠最大并且貢獻率主成分次數(shù)增高逐漸降低，而ICA并沒有，他只是將原有的信號解混，并不考慮信息量的大小。

處理方式上：處理ICA時要先用PCA做白化處理，因為PCA協(xié)方差矩陣為對角陣，其必不相關(guān)，獨立必不相關(guān)，所以通過PCA使數(shù)據(jù)之間沒有相關(guān)性，之后再進行迭代操作，求出相互獨立的分量。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：宗邑 > 《待分類》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

宗邑

關(guān)注對話

TA的最新館藏

趙炳南辨治皮膚濕病理法探究
20200505回讀者留言！干祖望治療過敏性鼻炎的選方用藥思路
我的脈診經(jīng)驗：10癥狀說透傷寒脈法
只要是內(nèi)痔出血，喝消痔湯吧
李可一句話，救了無數(shù)腫瘤患者！
加加減減，我用止嗽散治療各類型咳嗽

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

關(guān)于主成分分析matlab代碼實現(xiàn)的總結(jié)

二：令我糾結(jié)的一些東西