各位客官姥爺好,歡迎回來。我們之前的內(nèi)容一直圍繞著正則表達(dá)式展開,這次我們就講點別的。既然我的公眾號名稱叫做轉(zhuǎn)行學(xué)數(shù)據(jù)分析,那么我們今天就來講講數(shù)據(jù)分析有關(guān)的,一個常見的Python的數(shù)據(jù)分析庫--Pandas庫 1. Pandas的介紹 Pandas是python中的一個數(shù)據(jù)分析包,Pandas的名稱來源于面板數(shù)據(jù)(Panel Aata)和python數(shù)據(jù)分析(Data Analysis)。支持?jǐn)?shù)據(jù)的增、 刪、查、改,并且?guī)в胸S富的數(shù)據(jù)處理函數(shù),支持靈活處理缺失數(shù)據(jù)等。目前是python下最強大的數(shù)據(jù)分析工具。 這里有兩個關(guān)鍵詞:面板數(shù)據(jù)和數(shù)據(jù)分析。 2. 面板數(shù)據(jù) 什么是面板數(shù)據(jù)呢? 面板數(shù)據(jù)具有時間序列和截面兩個維度, 當(dāng)這類數(shù)據(jù)按照這兩個維度排列時, 整個表格像是一個面板, 所以稱作"面板數(shù)據(jù)". 也就是說. 它是將時間序列數(shù)據(jù)和截面數(shù)據(jù)綜合化的一種數(shù)據(jù)形式. 1)時間序列數(shù)據(jù): 是某一事物在不同時間上收集的數(shù)據(jù), 根據(jù)觀察時間的不同, 時間序列數(shù)據(jù)中的時間可以是年份、季度、月份或其他任何時間形式. 比如XXXX有限公司A廠區(qū)的銷售額就是時間序列數(shù)據(jù): 2)截面數(shù)據(jù): 不同主體在同一時間點或同一時間段的數(shù)據(jù), 也稱為靜態(tài)數(shù)據(jù). 比如XXXX有限公司四個廠區(qū)在第一季度的銷售額就是截面數(shù)據(jù): 3)面板數(shù)據(jù): 將XXXX有限公司銷售額按照時間序列和截面兩個維度排列: 可以把面板數(shù)據(jù)看成是m*n的矩陣, 即m個時間序列上,取n個截面對象的某項數(shù)據(jù)指標(biāo). 3. 數(shù)據(jù)分析 數(shù)據(jù)分析是一個過程,根據(jù)實際需求收集相應(yīng)的數(shù)據(jù),隨后將收集到的原始數(shù)據(jù)經(jīng)過處理、轉(zhuǎn)換、分析成對決策有用的信息。 主要包括:明確目的、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析與展現(xiàn)、撰寫報告這五大步驟。而我們的Pandas庫主要負(fù)責(zé)數(shù)據(jù)的處理、數(shù)據(jù)分析與展現(xiàn)這兩大環(huán)節(jié)。 到目前為止,我們了解了Pandas庫的介紹,下面我們進(jìn)入Pandas庫的安裝環(huán)節(jié)。 4. Pandas庫的安裝 1)安裝環(huán)境 需先安裝好Python并配置好環(huán)境變量等。 2)pip安裝命令 在CMD命令行窗口執(zhí)行以下命令: pip install pandas 安裝成功,到這里pandas的介紹與安裝就介紹完畢了,后續(xù)會講Pandas的用法。 以上就是本次的分享,歡迎各位客官姥爺關(guān)注我,方便您第一次時間收到【干貨】! |
|
來自: 徐_清風(fēng) > 《待分類》