無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

niudp 2019-02-08

展開全文

無監(jiān)督學習是一組統(tǒng)計工具，用于只有一組特征而沒有目標的情景。因此，我們無法進行預測，因為每個觀察都沒有相關的響應。我們感興趣的是找到一種有趣的方法來可視化數(shù)據(jù)或發(fā)現(xiàn)類似觀察的子組。

無監(jiān)督學習往往更具挑戰(zhàn)性，因為分析沒有明確的目標，而且往往是主觀的。此外，很難評估獲得的結果是否良好，因為沒有公認的機制來對獨立機器學習數(shù)據(jù)集執(zhí)行交叉驗證或驗證結果，因為我們不知道真正的答案。

本文將重點介紹兩種技術：主成分分析和聚類。

主成分分析（PCA）

PCA指的是計算主成分并用于更好地理解機器學習數(shù)據(jù)集中數(shù)據(jù)的過程。PCA也可用于可視化。

什么是主成分？

假設你希望用一組p特性(作為探索性數(shù)據(jù)分析的一部分)對n個觀測值進行可視化。我們可以一次檢查2個特征的2D散點圖，但是如果有很多預測因子，就會很難可視化。

通過PCA，我們可以找到一個低維空間的數(shù)據(jù)集，它包含了盡可能多的變化。我們將獲得最感興趣的特征。

如何找到主要成分？

第一個主成分是具有最大方差的特征的歸一化線性組合：

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

第一主成分方程

符號Φ稱為loadings。loadings必須最大化：

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

聚類方法（Clustering methods）

聚類是指用于在數(shù)據(jù)集中查找子組或clusters的一組廣泛技術。這有助于我們將觀察分成不同的組，以便每個組包含彼此相似的觀察。例如，在乳腺癌的情景中，分組可以代表腫瘤級別。在市場細分的市場營銷中，它也非常有用，因為它可以識別出更容易接受某種產(chǎn)品的人群。

有許多聚類方法，但我們將專注于k-means聚類和層次聚類。在k-means聚類中，我們希望將數(shù)據(jù)劃分為預先指定的數(shù)量為K的聚類。另一方面，通過層次聚類，我們不知道需要多少個聚類，我們想要一個樹狀圖，它允許我們查看每個可能數(shù)量的聚類獲得的所有聚類。

k - means聚類

該方法簡單地將觀測數(shù)據(jù)分離為K個聚類。假設：

1.每個觀測至少屬于K個聚類中的一個
2.聚類不重疊

此外，每個聚類內(nèi)的變化最小化。

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

如何根據(jù)指定聚類的數(shù)量對觀察進行聚類

這是通過最小化聚類內(nèi)每個觀測值之間的歐幾里德平方距離的總和來實現(xiàn)的：

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

k - means聚類的優(yōu)化函數(shù)

為了最小化，我們遵循以下算法：

1.隨機選取K個種子點。這些用作觀測的初始聚類分配。

2.迭代直到聚類分配停止更改：

對于K個聚類中的每一個，計算聚類質(zhì)心。第k個聚類質(zhì)心是第k個聚類中的觀測的p個特征均值的向量
將每個觀測值分配給質(zhì)心最接近的聚類（歐幾里德距離最短）

請注意，上述算法將找到局部最小值。因此，獲得的結果將取決于初始隨機聚類分配。因此，多次運行算法很重要。

層次聚類

k-means聚類的潛在缺點是它需要人工輸入來指定聚類的數(shù)量。層次聚類不需要初始數(shù)量的聚類。

最常見的層次聚類類型是自下而上的。這指的是樹形圖是從葉子開始生成的，并將聚類組合到樹干上。

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

樹形圖的例子

該算法實際上非常簡單。它首先定義每對觀測值之間的不同度量值開始，如歐氏距離。然后，它首先假設每個觀測都屬于它自己的聚類。然后，融合兩個最相似的聚類，所以有n-1個聚類。然后，融合其他兩個相似的聚類，產(chǎn)生n-2個聚類。迭代地重復該過程，直到所有觀測結果都是單個聚類的一部分。

雖然簡單，但有些問題沒有得到解決。如何定義聚類之間的不相似性度量呢？最常見的四種連接方式如下表所示：

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

最常見的四種連接方式

Complete，Average和Centroid是最常用的連接類型，因為single 接傾向于產(chǎn)生不平衡的樹狀圖。請注意，得到的樹狀圖很大程度上取決于所用連接的類型。

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

連接對最終樹狀圖的影響

此外，選擇合適的不同度量也很關鍵。如果兩個特征高度相關，則認為兩個特征是相似的。

無監(jiān)督學習簡介：了解主成分分析（PCA）和聚類方法

Observation 1 and 2是高度相關的

例如，假設在線零售商有興趣根據(jù)過去的購物歷史對購物者進行聚類。目標是確定類似購物者的子群，以便向他們展示可能感興趣的廣告。使用歐幾里德距離，那些購買了少量物品的購物者將聚集在一起，這可能不是理想的情況。使用基于相關性的距離，具有相似偏好的購物者（他們購買物品A和B，但沒有購買物品C和D）將被聚集在一起。

在所有情況下，我們?nèi)匀恍枰斯ぽ斎雭泶_定層次聚類完成后要使用的集群的最終數(shù)量。