作者:Jay Alammar 翻譯&潤色:極客猴 如果讀者們計劃學(xué)習(xí)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、或者用 Python 做數(shù)據(jù)科學(xué)的研究,你會經(jīng)常接觸到 Pandas 庫。Pandas 是一個開源、能用于數(shù)據(jù)操作和分析的 Python 庫。 1. 加載數(shù)據(jù) 加載數(shù)據(jù)最方便、最簡單的辦法是我們能一次性把表格(CSV 文件或者 EXCEL 文件)導(dǎo)入。然后我們能用多種方式對它們進(jìn)行切片和裁剪。 Pandas 可以說是我們加載數(shù)據(jù)的完美選擇。Pandas 不僅允許我們加載電子表格,而且支持對加載內(nèi)容進(jìn)行預(yù)處理。 Pandas 有個核心類型叫 DataFrame。DataFrame 是表格型的數(shù)據(jù)結(jié)構(gòu)。因此,我們可以將其當(dāng)做表格。DataFrame 是以表格類似展示,而且還包含行標(biāo)簽、列標(biāo)簽。另外,每列可以是不同的值類型(數(shù)值、字符串、布爾型等)。 我們可以使用 read_csv() 來加載 CSV 文件。
其中變量 DF 是 Pandas 的 DataFrame 類型。 Pandas 同樣支持操作 Excel 文件,使用 read_excel() 接口能從 EXCEL 文件中讀取數(shù)據(jù)。 2. 選擇數(shù)據(jù) 我們能使用列標(biāo)簽來選擇列數(shù)據(jù)。比如,我們想獲取 Artist 所在的整列數(shù)據(jù), 可以將 artists 當(dāng)做下標(biāo)來獲取。 同樣,我們可以使用行標(biāo)簽來獲取一列或者多列數(shù)據(jù)。表格中的下標(biāo)是數(shù)字,比如我們想獲取第 1、2 行數(shù)據(jù),可以使用 df[1:3] 來拿到數(shù)據(jù)。 Pandas 的利器之一是索引和數(shù)據(jù)選擇器。我們可以隨意搭配列標(biāo)簽和行標(biāo)簽來進(jìn)行切片,從而得到我們所需要的數(shù)據(jù)。比如,我們想得到第 1, 2, 3 行的 Artist 列數(shù)據(jù)。 import pandas as pd 3. 過濾數(shù)據(jù) 過濾數(shù)據(jù)是最有趣的操作。我們可以通過使用特定行的值輕松篩選出行。比如我們想獲取音樂類型(Genre)為值為 Jazz 行。 再比如獲取超過 180萬聽眾的 藝術(shù)家。 4. 處理空值 數(shù)據(jù)集來源渠道不同,可能會出現(xiàn)空值的情況。我們需要數(shù)據(jù)集進(jìn)行預(yù)處理時。 如果想看下數(shù)據(jù)集有哪些值是空值,可以使用 isnull() 函數(shù)來判斷。
假設(shè)我們之前的音樂數(shù)據(jù)集中 有空值(NaN)的行。 我們對之前的音樂.csv 文件進(jìn)行判斷,得到結(jié)果如下: 如果我想知道哪列存在空值,可以使用 df.isnull().any() import pandas as pd 結(jié)果如下: 處理空值,Pandas 庫提供很多方式。最簡單的辦法就是刪除空值的行。 除此之外,還可以使用取其他數(shù)值的平均值,使用出現(xiàn)頻率高的值進(jìn)行填充缺失值。
5. 分組 ![]() ![]()
|
|