算法筆記（15）特征提取及Python代碼實現(xiàn)

禁忌石 2022-05-23 發(fā)布于浙江

展開全文

特征提取從初始的一組測量數(shù)據(jù)開始，并建立旨在提供信息和非冗余的派生值（特征），從而促進后續(xù)的學習和泛化步驟，并且在某些情況下帶來更好的可解釋性。本節(jié)主要講述2種特征提取方法：PCA主成分分析法用于特征提取、非負矩陣分解用于特征提取。

對人臉數(shù)據(jù)集進行特征提取

PCA主成分分析法用于特征提取

基本思想從一組特征中計算出一組按照重要性的大小從大到小依次排列的新特征，它們是原有特征的線性組合，并且新特征之間不相關, 我們計算出原有特征在新特征上的映射值即為新的降維后的樣本。
Python代碼實現(xiàn)：

mlp=MLPClassifier(hidden_layer_sizes=[100,100], random_state=62,                  max_iter=400)mlp.fit(X_train, y_train)print('模型識別準確率:{:.2f}'.format(mlp.score(X_test, y_test)))pca = PCA(whiten=True, n_components=0.9, random_state=62).fit(X_train)X_train_whiten = pca.transform(X_train)X_test_whiten = pca.transform(X_test)print('白化后數(shù)據(jù)形態(tài)：{}'.format(X_train_whiten.shape))mlp.fit(X_train_whiten, y_train)print('數(shù)據(jù)白化后模型識別準確率:{:.2f}'.format(mlp.score(X_test_whiten,                                              y_test)))

模型識別準確率:0.55
數(shù)據(jù)白化后模型識別準確率:0.58
結果分析：模型的準確率輕微的提高了，PCA的數(shù)據(jù)白化功能對于提高神經(jīng)網(wǎng)絡模型的準確率是有一定幫助的。

非負矩陣分解用于特征提取

非負矩陣分解是指矩陣中所有元素均為非負數(shù)約束條件之下的矩陣分解方法。
Python代碼實現(xiàn)：

from sklearn.decomposition import NMFnmf = NMF(n_components=105,random_state=62).fit(X_train)X_train_nmf = nmf.transform(X_train)X_test_nmf = nmf.transform(X_test)print('NMF處理后數(shù)據(jù)形態(tài)：{}'.format(X_train_nmf.shape))mlp.fit(X_train_nmf, y_train)print('nmf處理后模型準確率：{:.2f}'.format(mlp.score(X_test_nmf,                                           y_test)))

nmf處理后模型準確率：0.54
結果分析：NMF處理后的數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡模型準確率和PCA處理后的模型準確率基本持平，略微低一點點。
與PCA不同：
（1）降低NMF的成分數(shù)量，會重新生成新的成分，而新的成分和原來的成分是完全不一樣的；
（2）NMF中的成分是沒有順序的。