日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

手把手教你如何利用K均值聚類實現(xiàn)異常值的識別

 千鋒Python學堂 2019-08-26

首先,借助于Python隨機生成兩組二維數(shù)據(jù),用于后文的實戰(zhàn)。為了能夠更加直觀地洞察該數(shù)據(jù),我們將其繪制成散點圖。

# 導入第三方包
import numpy as np
import matplotlib.pyplot as plt
# 隨機生成兩組二元正態(tài)分布隨機數(shù)
np.random.seed(1234)
mean1 = [0.5, 0.5]
cov1 = [[0.3, 0], [0, 0.1]]
x1, y1 = np.random.multivariate_normal(mean1, cov1, 5000).T
mean2 = [0, 8]
cov2 = [[0.8, 0], [0, 2]]
x2, y2 = np.random.multivariate_normal(mean2, cov2, 5000).T
# 繪制兩組數(shù)據(jù)的散點圖
plt.rcParams['axes.unicode_minus'] = False
plt.scatter(x1, y1)
plt.scatter(x2, y2)
# 顯示圖形
plt.show()

手把手教你如何利用K均值聚類實現(xiàn)異常值的識別

如上圖所示,圖中藍色和紅色之間形成鮮明的簇,其中每個簇內(nèi)包含5000個數(shù)據(jù)。如果數(shù)據(jù)中存在異常點,目測藍色的簇可能會包含更多異常,因為數(shù)據(jù)點相對分散一些。

K均值聚類的介紹

K均值聚類算法的思路非常通俗易懂,就是不斷地計算各樣本點與簇中心之間的距離,直到收斂為止,其具體的步驟如下:

(1)從數(shù)據(jù)中隨機挑選k個樣本點作為原始的簇中心。

(2)計算剩余樣本與簇中心的距離,并把各樣本標記為離k個簇中心最近的類別。

(3)重新計算各簇中樣本點的均值,并以均值作為新的k個簇中心。

(4)不斷重復(2)和(3),直到簇中心的變化趨于穩(wěn)定,形成最終的k個簇。

也許上面的4個步驟還不足以讓讀者明白Kmeans的執(zhí)行過程,可以結(jié)合下圖更進一步地理解其背后的思想。

手把手教你如何利用K均值聚類實現(xiàn)異常值的識別

如上圖所示,通過9個子圖對Kmeans聚類過程加以說明:子圖1,從原始樣本中隨機挑選兩個數(shù)據(jù)點作為初始的簇中心,即子圖中的兩個五角星;子圖2,將其余樣本點與這兩個五角星分別計算距離(距離的度量可選擇歐氏距離、曼哈頓距離等),然后將每個樣本點劃分到離五角星最近的簇,即子圖中按虛線隔開的兩部分;子圖3,計算兩個簇內(nèi)樣本點的均值,得到新的簇中心,即子圖中的五角星;子圖4,根據(jù)新的簇中心,繼續(xù)計算各樣本與五角星之間的距離,得到子圖5的劃分結(jié)果和子圖6中新的簇內(nèi)樣本均值;以此類推,最終得到理想的聚類效果,如子圖9所示,圖中的五角星即最終的簇中心點。

在上文中,我們生成了兩組隨機數(shù)據(jù),從圖中一眼就可以看出需聚為兩類,然而在實際應用中,很多數(shù)據(jù)都無法通過可視化或直覺判斷聚類的個數(shù)(即K值)。但這不代表沒有方法鎖定最佳的K值,在書《從零開始學Python數(shù)據(jù)分析與挖掘》的第十五章介紹了“拐點法”、“輪廓系數(shù)法”和“間隔統(tǒng)計量法”,感興趣的朋友可以去了解一下。這里就使用書中的自定義函數(shù),測試一下K應該對應的值:


# 將兩組數(shù)據(jù)集匯總到數(shù)據(jù)框中
X = pd.DataFrame(np.concatenate([np.array([x1, y1]), np.array([x2, y2])], axis=1).T)
X.rename(columns = {0:'x1',1:'x2'}, inplace = True)
# 自定義函數(shù)的調(diào)用
k_SSE(X, 10)

手把手教你如何利用K均值聚類實現(xiàn)異常值的識別

如上圖所示,當簇的個數(shù)為2時形成了一個明顯的“拐點”,因為 K值從1到2時,折線的斜率都比較大,但是值為3時斜率突然就降低了很多,并且之后的簇對應的斜率都變動很小。所以,合理的值應該為2,與模擬的兩個簇數(shù)據(jù)相吻合。

異常點識別原理

使用K均值聚類的思想識別數(shù)據(jù)中的異常點還是非常簡單的,具體步驟如下:

  • 利用“拐點法”、“輪廓系數(shù)法”、“間隔統(tǒng)計量法”或者“經(jīng)驗法”確定聚類的個數(shù);

  • 基于具體的K值,對數(shù)據(jù)實施K均值聚類的應用;

  • 基于聚類的結(jié)果,計算簇內(nèi)每個點到簇中心的距離;

  • 將距離跟閾值相比較,如果其大于閾值則認為是異常,否則正常;

案例實戰(zhàn)

為了驗證我們在前文所說的的直覺(“目測藍色的簇可能會包含更多異?!保?,接下來通過構(gòu)造自定義函數(shù),計算簇內(nèi)的每個點與簇中心的距離,并判斷其是否超過閾值的異常點下方代碼可能有點長,但仔細閱讀并查看對應的注釋內(nèi)容,相信你一定能夠理解代碼的思想。


def kmeans_outliers(data, clusters, is_scale = True):
# 指定聚類個數(shù),準備進行數(shù)據(jù)聚類
kmeans = KMeans(n_clusters=clusters)
# 用于存儲聚類相關(guān)的結(jié)果
cluster_res = []
# 判斷是否需要對數(shù)據(jù)做標準化處理
if is_scale:
std_data = scale(data) # 標準化
kmeans.fit(std_data) # 聚類擬合
# 返回簇標簽
labels = kmeans.labels_
# 返回簇中心
centers = kmeans.cluster_centers_
for label in set(labels):
# 計算簇內(nèi)樣本點與簇中心的距離
diff = std_data[np.array(labels) == label,] - \
- np.array(centers[label])
dist = np.sum(np.square(diff), axis=1)
# 計算判斷異常的閾值
UL = dist.mean() + 3*dist.std()
# 識別異常值,1表示異常,0表示正常
OutLine = np.where(dist > UL, 1, 0)
raw_data = data.loc[np.array(labels) == label,]
new_data = pd.DataFrame({'Label':label,'Dist':dist,'OutLier':OutLine})
# 重新修正兩個數(shù)據(jù)框的行編號
raw_data.index = new_data.index = range(raw_data.shape[0])
# 數(shù)據(jù)的列合并
cluster_res.append(pd.concat([raw_data,new_data], axis = 1))
else:
kmeans.fit(data) # 聚類擬合
# 返回簇標簽
labels = kmeans.labels_
# 返回簇中心
centers = kmeans.cluster_centers_
for label in set(labels):
# 計算簇內(nèi)樣本點與簇中心的距離
diff = np.array(data.loc[np.array(labels) == label,]) - \
- np.array(centers[label])
dist = np.sum(np.square(diff), axis=1)
UL = dist.mean() + 3*dist.std()
OutLine = np.where(dist > UL, 1, 0)
raw_data = data.loc[np.array(labels) == label,]
new_data = pd.DataFrame({'Label':label,'Dist':dist,'OutLier':OutLine})
raw_data.index = new_data.index = range(raw_data.shape[0])
cluster_res.append(pd.concat([raw_data,new_data], axis = 1))
# 返回數(shù)據(jù)的行合并結(jié)果
return pd.concat(cluster_res)
# 調(diào)用函數(shù),返回異常檢測的結(jié)果
res = kmeans_outliers(X,2,False)
# res
# 繪圖
sns.lmplot(x="x1", y="x2", hue='OutLier', data=res,
fit_reg=False, legend=False)
plt.legend(loc='best')
plt.show()

手把手教你如何利用K均值聚類實現(xiàn)異常值的識別

如上圖所示,藍色的點即為異常點。從藍色點的分布來看,上面那一簇所對應的異常點比較多(與之前的預判一致),而下面簇的異常點較少,且全部集中在散點的右側(cè)。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多