一、定義 數(shù)據(jù)標(biāo)準(zhǔn)化(Normalization),也稱為歸一化,歸一化就是將你需要處理的數(shù)據(jù)在通過某種算法經(jīng)過處理后,限制將其限定在你需要的一定的范圍內(nèi)。 數(shù)據(jù)標(biāo)準(zhǔn)化處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要對數(shù)據(jù)進行歸一化處理,解決數(shù)據(jù)指標(biāo)之間的可比性問題。 二、優(yōu)點 如上面所說,數(shù)據(jù)歸一化的目的就是為了把不同來源的數(shù)據(jù)統(tǒng)一到同一數(shù)量級(一個參考坐標(biāo)系)下,這樣使得比較起來有意義。歸一化使得后面數(shù)據(jù)的處理更為方便,它有兩大優(yōu)點:(1)歸一化可以加快梯度下降求最優(yōu)解的速度,(2)歸一化有可能提高精度。 (1)歸一化提高梯度下降發(fā)求解最優(yōu)解的速度 如下圖,藍色的圈圈表示特征的等高線。其中左圖的兩個特征x1和x2區(qū)間相差較大,x1~[0,2000],x2~[1,5],期所形成的等高線在一些區(qū)域相距非常遠,當(dāng)使用梯度下降法求解最優(yōu)解的時候,很可能垂直等高線走“之字型”路線(左圖紅色路徑),從而導(dǎo)致需要迭代很多次才能收斂,也可能不收斂。而右圖對兩個原始特征進行了歸一化處理,其對應(yīng)的等高線顯得很圓,在梯度下降的時候就能很快收斂。因此,如果機器學(xué)習(xí)使用梯度下降法求解最優(yōu)解時,歸一化往往是非常有必要的。 (2)歸一化有可能提高精度 一些分類器(如KNN)需要計算樣本之間的距離(如歐式距離)。如果一個特征值域范圍非常大,那么距離計算就要取決于這個特征,如果這時實際情況是值域范圍小的特征更重要,那么歸一化就要起作用了。 三、歸一化方法 (1)線性歸一化,也稱min-max標(biāo)準(zhǔn)化、離差標(biāo)準(zhǔn)化;是對原始數(shù)據(jù)的線性變換,使得結(jié)果值映射到[0,1]之間。轉(zhuǎn)換函數(shù)如下: 這種歸一化比較適用在數(shù)值較集中的情況。這種方法有一個缺陷,就是如果max和min不穩(wěn)定的時候,很容易使得歸一化的結(jié)果不穩(wěn)定,影響后續(xù)使用效果。其實在實際應(yīng)用中,我們一般用經(jīng)驗常量來替代max和min。 (2)標(biāo)準(zhǔn)差歸一化,也叫Z-score標(biāo)準(zhǔn)化,這種方法給予原始數(shù)據(jù)的均值(mean,μ)和標(biāo)準(zhǔn)差(standard deviation,σ)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)為: (3)非線性歸一化,這種方法一般使用在數(shù)據(jù)分析比較大的場景,有些數(shù)值很大,有些很小,通過一些數(shù)學(xué)函數(shù),將原始值進行映射。一般使用的函數(shù)包括log、指數(shù)、正切等,需要根據(jù)數(shù)據(jù)分布的具體情況來決定非線性函數(shù)的曲線。 四、結(jié)構(gòu) (1)深度模型的激活函數(shù) (2)激活函數(shù)導(dǎo)致的梯度消失 (3)批量歸一化 (4)自歸一化神經(jīng)網(wǎng)絡(luò) 具體內(nèi)容可參考july上的視頻,鏈接:http://www./video/play/69/686 |
|