數(shù)據(jù)可視化本來是一個(gè)非常復(fù)雜的過程,但隨著Pandas數(shù)據(jù)幀plot()函數(shù)的出現(xiàn),使得創(chuàng)建可視化圖形變得很容易。在數(shù)據(jù)幀上進(jìn)行操作的plot()函數(shù)只是matplotlib中plt.plot()函數(shù)的一個(gè)簡(jiǎn)單包裝 ,可以幫助你在繪圖過程中省去那些長(zhǎng)長(zhǎng)的matplotlib代碼。最近,一位來自印度的小哥以2019年世界幸福指數(shù)的數(shù)據(jù)為例,詳細(xì)講述了在Pandas中plot()函數(shù)的各種參數(shù)設(shè)置的小技巧,熟練掌握這些技巧后,你也能繪制出豐富多彩的可視化圖表。在繪制圖形前,我們首先需要導(dǎo)入csv文件: 1import pandas as pd 2df=pd.read_csv(‘./world-happiness-report-2019.csv’) 3df.head(3) 這個(gè)csv圖標(biāo)的內(nèi)容是各個(gè)國家按照不同維度評(píng)價(jià)的幸福指數(shù)(數(shù)據(jù)下載地址見文末):數(shù)據(jù)幀中一些列的名稱比較冗長(zhǎng),可以重命名使其更加簡(jiǎn)潔:1df.rename(columns={“Country (region)”: “Country”, “Log of GDPper capita”: “Log_GDP_per_capita”, “Healthy life 2expectancy”:”Health_life_expect”},inplace=True) 3df.columns
從最近簡(jiǎn)單的柱狀圖開始,只統(tǒng)計(jì)腐敗程度、自由度、寬容度、社會(huì)支持等幾個(gè)維度1%matplotlib tk 2df1=df[:5] 3df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘bar’) 嫌直接寫名稱太麻煩?沒關(guān)系,我們也可以用所在列的數(shù)字來繪制,比如上述4個(gè)列分別為7、6、8、5:1%matplotlib tk 2df1=df[:5] 3df1.plot(‘Country’,[7,6,8,5],kind = ‘bar’) 在上面的代碼中kind = ‘bar’,所以繪制的圖形是柱狀圖,如果我們把參數(shù)改成kind = ‘line’,畫出的就是線狀圖。1df1=df[:5] 2df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘line’) 同樣的,如果把參數(shù)改成kind = ‘line’,還能繪制出箱形圖:1df[:5].plot(x=’Country’,kind=’box’)
對(duì)于散點(diǎn)圖,設(shè)置kind=’scatter’,繪制出腐敗程度與自由度之間的關(guān)系,用color=’R’將點(diǎn)定義為紅色:1df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’) 此外,Pandas中還有一個(gè)輔助函數(shù)pandas.plotting.table,它創(chuàng)建一個(gè)來自數(shù)據(jù)幀的表格,并將其添加到matplotlib Axes實(shí)例中。1from pandas.plotting import table 2df1=df[:5] 3df1=df.loc[:5,[‘Country (region)’,’Corruption’,’Freedom’,’Generosity’,’Social support’]] 4ax=df1.plot(‘Country (region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’], kind = ‘bar’, title =’Bar Plot’,legend=None) 5table(ax, np.round(df1.describe(), 2),loc=’upper right’) 坐標(biāo)軸的設(shè)置 取值范圍使用xlim和ylim兩個(gè)參數(shù)可設(shè)置x和y軸的范圍。在折線圖中,我們要將x軸設(shè)置為0到20,y限制為從0到100。1df1=df[:20] 2df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))
x、y軸刻度有時(shí)候坐標(biāo)軸上的刻度并不理想,我們希望在上面標(biāo)上我們喜歡的數(shù)值。比如對(duì)于x軸,我們想要標(biāo)上0、10、15和20幾個(gè)值;對(duì)于y軸,我們想要標(biāo)上0、50、70、100幾個(gè)值,可以在xticks和yticks參數(shù)中悉數(shù)列出。1df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]), title = ‘xticks’) 但是用列表來制定坐標(biāo)刻度的方法,在數(shù)值太多的時(shí)候就比較麻煩了,因此我們還能通過指定刻度間隔的方法來繪制坐標(biāo)軸,比如指定x軸間隔是1,y軸間隔是10:1df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1 for w in range(20)]),yticks=([w10 for w in range(40)])) 如果我們不希望在坐標(biāo)軸上看到數(shù)字,而是想要設(shè)置標(biāo)簽。我們還可以將x軸標(biāo)簽更改為文本標(biāo)簽“低、中、高”這種樣式。1ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30 for w in range(40)])) 2ax.set_xticklabels([‘Low’,’Med’,’High’])
對(duì)數(shù)坐標(biāo)如果數(shù)據(jù)的跨度范圍非常大,橫跨好幾個(gè)數(shù)量級(jí),那么用線性坐標(biāo)就無法很好地展示數(shù)據(jù)。這時(shí)候我們需要用到對(duì)數(shù)坐標(biāo),設(shè)置方法是將logx或者logy的值設(shè)置為Ture。如果我們只想設(shè)置x軸為對(duì)數(shù)坐標(biāo),y軸仍保持線性坐標(biāo),那么1df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True) 可以使用stacked參數(shù)來繪制帶有條形圖的堆疊圖。在這里,我們繪制堆疊的水平條,stacked設(shè)置為True。將grid參數(shù)設(shè)置為True,可以給圖表加入網(wǎng)格。有了subplot參數(shù)還可以繪制子圖,根據(jù)需要指定行數(shù)和列數(shù)以及繪圖的數(shù)量。在上面的子圖中,我們沒有給子圖添加標(biāo)題。當(dāng)subplot 設(shè)置為True 時(shí),在設(shè)置一組title的值,即可在列表上方加入標(biāo)題。原文鏈接: https:///2019/09/16/dataframe-visualization-with-pandas-plot/表格下載地址: https://www./PromptCloudHQ/world-happiness-report-2019/version/1
|