日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

 靜幻堂 2020-01-03
有趣的程序媛 2019-12-04 13:50:35

在 30 秒內(nèi),完成你全部的標(biāo)準(zhǔn)數(shù)據(jù)分析,這就是用 Pandas 進(jìn)行數(shù)據(jù)分析產(chǎn)生的“奇跡”。

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

Pandas 是 Python 中處理數(shù)據(jù)的首選庫(kù),它使用起來(lái)很容易,非常靈活,能夠處理不同類(lèi)型和大小的數(shù)據(jù),而且它有大量的 函數(shù) ,這讓操作數(shù)據(jù)簡(jiǎn)直是小菜一碟。

Pandas 基礎(chǔ)之旅

私信小編01 領(lǐng)取完整項(xiàng)目代碼!

用 Python 處理過(guò)數(shù)據(jù)的人大概對(duì) pandas 不陌生。

如果想處理行或列排序的格式化數(shù)據(jù),大多數(shù)情況下,你可以使用 pandas 處理。如果沒(méi)安裝 pandas,可以用你喜歡的命令終端安裝,一定要用 pip 命令:

 復(fù)制代碼

pipinstallpandas

現(xiàn)在,讓我們看看默認(rèn)的 pandas 實(shí)現(xiàn)都可以做什么:

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

非常簡(jiǎn)潔,但也很平淡無(wú)奇,“method”這列去哪兒?

我們解釋一下上面代碼和輸出的含義:

Pandas 的任何“數(shù)據(jù)幀”都有一個(gè) describe() 方法,這個(gè)方法會(huì)返回上面的輸出。但請(qǐng)注意,這個(gè)方法的以上輸出數(shù)據(jù)中,關(guān)于類(lèi)別的變量漏掉了。在上面的例子中,輸出信息里,“ method”這一列被完全移除。

讓我們看看是否能做得更好。

Pandas 剖析

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

這僅僅是剖析報(bào)告的開(kāi)頭部分

如果我告訴你,我僅用 3 行 Python 代碼即可生成以下統(tǒng)計(jì)數(shù)據(jù),你會(huì)感覺(jué)如何( 如果不算 imports 語(yǔ)句的話(huà),實(shí)際上只需要 1 行代碼即可 ):

  • 核心信息 :類(lèi)型、唯一值、缺失值
  • 分位數(shù)統(tǒng)計(jì) :如最小值、Q1、中位數(shù)、Q3、最大值、范圍、四分位數(shù)范圍等
  • 描述性統(tǒng)計(jì) :如平均值、眾數(shù)、標(biāo)準(zhǔn)差、求和、中位數(shù)絕對(duì)偏差、擾動(dòng)系數(shù)、峰度、偏度等
  • 高頻使用的數(shù)值
  • 直方圖
  • 相關(guān)性 :會(huì)突出顯示高相關(guān)度變量、Spearman、Pearson 和 Kendall 矩陣
  • 缺失值 :矩陣、計(jì)數(shù)、熱力圖和缺失值樹(shù)狀圖

(以上特征列表直接摘自 Pandas Profiling GitHub 頁(yè)面

使用 Pandas Profiling 包,我們僅用 1 行代碼就可以得到以上數(shù)據(jù)!在命令行終端只需使用 pip 即可安裝 Pandas Profiling 包:

 復(fù)制代碼

pipinstallpandas_profiling

乍一看,經(jīng)驗(yàn)豐富的數(shù)據(jù)分析師可能會(huì)嘲笑這是華而不實(shí)的,但是,它可以幫助你快速獲得你擁有的數(shù)據(jù)概況:

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

看到了嗎,正如我所說(shuō),1 行代碼搞定!

你看到的第一部分內(nèi)容是“ 概覽 ”(請(qǐng)看上圖),這部分內(nèi)容會(huì)呈現(xiàn)給你一些非常高級(jí)的數(shù)據(jù)和變量統(tǒng)計(jì),以及像變量高相關(guān)性和高偏態(tài)性等這類(lèi) 警告

但是它提供的信息遠(yuǎn)遠(yuǎn)不止這些。往下滑動(dòng),我們會(huì)發(fā)現(xiàn)這份輸出報(bào)告包含多個(gè)部分。僅用圖片顯示這個(gè) 1 行代碼的輸出都是不大合適的,所以我制作了一張 GIF 圖:

數(shù)據(jù)分析神器 Pandas:如何用 1 行 Python 代碼挖掘數(shù)據(jù)?

我強(qiáng)烈建議你自己來(lái)探索這個(gè)軟件包里的特色——畢竟,這只有 1 行代碼,而且你會(huì)在以后的數(shù)據(jù)分析中發(fā)現(xiàn)這個(gè)軟件包真的很好用。

 復(fù)制代碼

import pandasaspd
import pandas_profiling
pd.read_csv('https://raw./mwaskom/seaborn-data/master/planets.csv').profile_report()

更多類(lèi)似的代碼庫(kù)

如果你喜歡使用這些易用的東西來(lái)改進(jìn)你的 Python 工作流,可以看看我的 一些最新文章 。

最后的思考

這篇文章真的很短小。我自己才剛剛發(fā)現(xiàn) Pandas Profiling 這個(gè)庫(kù),覺(jué)得可以拿來(lái)分享!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多