缺失值處理的三種方法:直接使用含有缺失值的特征;刪除含有缺失值的特征(該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的);缺失值補全。 常見的缺失值補全方法:均值插補、同類均值插補、建模預(yù)測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全。 (1)均值插補 如果樣本屬性的距離是可度量的,則使用該屬性有效值的平均值來插補缺失的值; 如果的距離是不可度量的,則使用該屬性有效值的眾數(shù)來插補缺失的值。如果使用眾數(shù)插補,出現(xiàn)數(shù)據(jù)傾斜會造成什么影響? (2)同類均值插補 首先將樣本進行分類,然后以該類中樣本的均值來插補缺失值。 (3)建模預(yù)測 將缺失的屬性作為預(yù)測目標來預(yù)測,將數(shù)據(jù)集按照是否含有特定屬性的缺失值分為兩類,利用現(xiàn)有的機器學(xué)習(xí)算法對待預(yù)測數(shù)據(jù)集的缺失值進行預(yù)測。 該方法的根本的缺陷是如果其他屬性和缺失屬性無關(guān),則預(yù)測的結(jié)果毫無意義;但是若預(yù)測結(jié)果相當準確,則說明這個缺失屬性是沒必要納入數(shù)據(jù)集中的;一般的情況是介于兩者之間。 (4)高維映射 將屬性映射到高維空間,采用獨熱碼編碼(one-hot)技術(shù)。將包含K個離散取值范圍的屬性值擴展為K+1個屬性值,若該屬性值缺失,則擴展后的第K+1個屬性值置為1。 這種做法是最精確的做法,保留了所有的信息,也未添加任何額外信息,若預(yù)處理時把所有的變量都這樣處理,會大大增加數(shù)據(jù)的維度。這樣做的好處是完整保留了原始數(shù)據(jù)的全部信息、不用考慮缺失值;缺點是計算量大大提升,且只有在樣本量非常大的時候效果才好。 暫時未理解? (5)多重插補(MultipleImputation,MI) 多重插補認為待插補的值是隨機的,實踐上通常是估計出待插補的值,再加上不同的噪聲,形成多組可選插補值,根據(jù)某種選擇依據(jù),選取最合適的插補值。 (6)壓縮感知和矩陣補全 (7)手動插補 插補處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實。在許多情況下,根據(jù)對所在領(lǐng)域的理解,手動對缺失值進行插補的效果會更好。
|
|
來自: 淺頌ndjcp386al > 《待分類》