Pandas中的缺失值處理

CDA數(shù)據(jù)分析師 2019-04-12

展開全文

相信大家在處理數(shù)據(jù)的時候經(jīng)常會發(fā)現(xiàn)有一些數(shù)據(jù)的缺失,這個時候便會很頭大,因為有時候的缺失的數(shù)據(jù)是本來就沒有的,這些數(shù)據(jù)不管就好了,有的數(shù)據(jù)雖然沒有,但是也可以根據(jù)一些數(shù)據(jù)推算出來這個數(shù)據(jù)是多少然后給它填上,但是有的數(shù)據(jù)缺失是隨機缺失的完全不知道應該怎么處理,所以呢今天我就帶大家了解一下數(shù)據(jù)中的缺失值以及如何對缺失值進行處理。

讀取數(shù)據(jù)

相信大家在使用python讀取數(shù)據(jù)的時候會出現(xiàn)這種報錯的情況。

這種情況是因為文件名中有中文,遇到這種情況第一種方式就是講文件名改為英文,或者這樣處理可以。

先使用open打開,然后賦值給變量,然后關閉掉文件,使用被賦值的變量就可以了。

二、處理缺失值

1、什么是缺失值

俗話說知己知彼,百戰(zhàn)百勝,在處理缺失值之前我們首先要了解一下什么是缺失值? 直觀上理解，缺失值表示的是“缺失的數(shù)據(jù)”?？梢运伎家粋€問題：是什么原因造成的缺失值呢？其實有很多原因，實際生活中可能由于有的數(shù)據(jù)不全所以導致數(shù)據(jù)缺失，也有可能由于誤操作導致數(shù)據(jù)缺失，又或者人為地造成數(shù)據(jù)缺失,但是主要的還是分為機械原因和人為原因。

機械原因是由于機械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失，比如數(shù)據(jù)存儲的失敗，存儲器損壞，機械故障導致某段時間數(shù)據(jù)未能收集（對于定時數(shù)據(jù)采集而言）。

人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失，比如，在市場調(diào)查中被訪人拒絕透露相關問題的答案，或者回答的問題是無效的，數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)

缺失值從缺失的分布來講可以分為完全隨機缺失，隨機缺失和完全非隨機缺失。

完全隨機缺失（missing completely at random，MCAR）指的是數(shù)據(jù)的缺失是隨機的，數(shù)據(jù)的缺失不依賴于任何不完全變量或完全變量。
隨機缺失(missing at random，MAR)指的是數(shù)據(jù)的缺失不是完全隨機的，即該類數(shù)據(jù)的缺失依賴于其他完全變量。
完全非隨機缺失(missing not at random，MNAR)指的是數(shù)據(jù)的缺失依賴于不完全變量自身。

缺失值從缺失值的所屬屬性來講可以分為單值缺失，任意缺失和單調(diào)缺失。

單值缺失:如果所有的缺失值都是同一屬性，那么這種缺失成為單值缺失。
任意缺失:如果缺失值屬于不同的屬性，稱為任意缺失。
單調(diào)缺失:對于時間序列類的數(shù)據(jù)，可能存在隨著時間的缺失，這種缺失稱為單調(diào)缺失

在Python中缺失值被認為是None、np.nan、NaT的形式。

原理性的東西我們就說這么多,下面我們進入代碼部門,首先我們?nèi)藶榈脑斐梢恍?shù)據(jù)的缺失

然后我們生成一列英雄們的生日的數(shù)據(jù)列

查看數(shù)據(jù)表的信息。

2、轉(zhuǎn)換數(shù)據(jù)列的類型

這個時候我們通過info()方法發(fā)現(xiàn)生日列的類型是object的,需要將生日列的類型通過to_datetime()轉(zhuǎn)換為日期型

3、掩碼提取空值

首先使用isnull()或者notnull()來查看是否缺失

Isnull()是將缺失值判斷為True,非缺失值判斷為False

Notnull()將缺失值判斷為False,非缺失值判斷為True

將有空值的行提取出來

反之將非空行的數(shù)據(jù)提取出來

掩碼的其他用處

4.1、將不是地球的英雄提取出來

首先將那個星球的列名改為星球

然后將外星球的英雄提取出來。

4.2、將1980年之后出生的英雄提取出來

4.3、將1988年1月1號之前出生的英雄提取出來

5、丟棄缺失值

既然在數(shù)據(jù)中有缺失值了，常見的一種處理辦法就是丟棄缺失值。使用 dropna 方法可以丟棄缺失值。

user_info.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

seriese使用dropna比較簡單，對于DataFrame 來說,可以設置更多的參數(shù)。

axis 參數(shù)用于控制行或列，跟其他不一樣的是，axis=0 （默認）表示操作行，axis=1 表示操作列。

how 參數(shù)可選的值為 any（默認）或者 all。any 表示一行/列有任意元素為空時即丟棄，all 一行/列所有值都為空時才丟棄。subset 參數(shù)表示刪除時只考慮的索引或列名。thresh參數(shù)的類型為整數(shù)，它的作用是，比如 thresh=3，會在一行/列中至少有 3 個非空值時將其保留。