日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

 禁忌石 2023-08-06 發(fā)布于浙江
Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

Series和DataFrame對象都支持NumPy的數(shù)組接口,因此可以直接使用NumPy提供的ufunc函數(shù)對它們進行運算。此外它們還提供各種運算方法,例如max()、min()、mean()、std()等。這些函數(shù)都有如下三個常用參數(shù):

·axis:指定運算對應(yīng)的軸。

·level:指定運算對應(yīng)的索引級別。

·skipna:運算是否自動跳過NaN。

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

下面分別計算每列的平均值、每行的平均值以及行索引的第1級別Contour中每個等高線對應(yīng)的平均值:

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

除了支持加減乘除等運算符之外,Pandas還提供了add()、sub()、mul()、div()、mod()等與二元運算符對應(yīng)的函數(shù)。這些函數(shù)可以通過axis、level和fill_value等參數(shù)控制其運算行為。在下面的例子中,對不同的等高線的Ca的值乘上不同的系數(shù),fill_value參數(shù)為1表示對于不存在的值或NaN使用默認值1。因此結(jié)果中,所有Depression對應(yīng)的值為原來的0.9倍,Slope對應(yīng)的值為原來的1.2倍,而Top對應(yīng)的值保持不變。

s = pd.Series(dict(Depression=0.9, Slope=1.2))df_soil.Ca.mul(s, level=1, fill_value=1)Depth Contour 0-10 Depression 9.6Slope 15Top 1310-30 Depression 6.8Slope 11Top 10dtype: float64

Pandas還提供了rolling_*()函數(shù)來對序列中相鄰的N個元素進行移動窗口運算。例如可以使用rolling_median()實現(xiàn)中值濾波,使用rolling_mean()計算移動平均。圖1顯示了使用這兩個函數(shù)對帶脈沖噪聲的正弦波進行處理的結(jié)果。它們的第二個參數(shù)為窗口包含的元素個數(shù),而center參數(shù)為True表示移動窗口以當(dāng)前元素為中心。

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

圖1 中值濾波和移動平均

由于rolling_median()采用了更高效的算法,因此當(dāng)窗口很大時它的運算速度比SciPy章節(jié)中介紹過的signal.order_filter()更快。

t = np.linspace(0, 10, 400)x = np.sin(0.5*2*np.pi*t)x[np.random.randint(0, len(t), 40)] += np.random.normal(0, 0.3, 40)s = pd.Series(x, index=t)s_mean = pd.rolling_mean(s, 5, center=True)s_median = pd.rolling_median(s, 5, center=True)

expanding_*()函數(shù)對序列進行擴展窗口運算,例如expanding_max()返回到每個元素為止的歷史最大值。圖2顯示了expanding_max()、expanding_mean()和expanding_min()的運算結(jié)果。

請讀者思考如何使用NumPy提供的ufunc函數(shù)計算圖2中的三條曲線。?

np.random.seed(42)x = np.cumsum(np.random.randn(400))x_max = pd.expanding_max(x)x_min = pd.expanding_min(x)x_mean = pd.expanding_mean(x)
Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

圖2 用expanding_*計算歷史最大值、平均值、最小值

字符串處理

Series對象提供了大量的字符串處理方法,由于數(shù)量眾多,因此Pandas使用了一個類似名稱空間的對象str來包裝這些字符串相關(guān)的方法。例如下面的程序調(diào)用str.upper()將序列中的所有字母都轉(zhuǎn)換為大寫:

s_abc = pd.Series(['a', 'b', 'c'])print s_abc.str.upper()0    A1    B2    Cdtype: object

Python中包含兩種字符串:字節(jié)字符串和Unicode字符串。通過str.decode()可以將字節(jié)字符串按照指定的編碼解碼為Unicode字符串。例如在UTF-8編碼中,一個漢字占用三個字符,因此下面的s_utf8中的字符串長度分別為6、9、12。當(dāng)調(diào)用str.decode()將其轉(zhuǎn)換為Unicode字符串的序列之后,其各個元素的長度為實際的文字個數(shù)。str.encode()可以把Unicode字符串按照指定的編碼轉(zhuǎn)換為字節(jié)字符串,在常用的漢字編碼GB2312中,一個漢字占用兩個字節(jié),因此s_gb2312的元素長度分別為4、6、8。

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

無論Series對象包含哪種字符串對象,其dtype屬性都是object,因此無法根據(jù)它判斷字符串類型。在處理文本數(shù)據(jù)時,需要格外注意字符串的類型。

可以對str使用整數(shù)或切片下標,相當(dāng)于對Series對象中的每個元素進行下標運算,例如:?

print s_unicode.str[:2]0 北京1 北京2 北京dtype: object

字符串序列與字符串一樣,支持加法和乘法運算,例如:

print s_unicode + u'-' + s_abc * 20    北京-aa1     北京市-bb2  北京地區(qū)-ccdtype: object

也可以使用str.cat()連接兩個字符串序列的對應(yīng)元素:

print s_unicode.str.cat(s_abc, sep='-')0 北京-a1 北京市-b2 北京地區(qū)-cdtype: object

調(diào)用astype()方法可以對Series對象中的所有元素進行類型轉(zhuǎn)換,例如下面將整數(shù)序列轉(zhuǎn)換為字符串序列:

print s_unicode.str.len().astype(unicode)0    21    32    4dtype: object

str中的有些方法可以對元素類型為列表的Series對象進行處理,例如下面調(diào)用str.split()將s中的每個字符串使用字符'|'分隔,所得到的結(jié)果s_list的元素類型為列表。然后調(diào)用它的str.join()方法以逗號連接每個列表中的元素:

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

對字符串序列進行處理時,經(jīng)常會得到元素類型為列表的序列。Pandas沒有提供處理這種序列的方法,不過可以通過str[]獲取其中的元素:?

s_list.str[1]0 bc1 xyzdtype: object

或者先將其轉(zhuǎn)換為嵌套列表,然后再轉(zhuǎn)換為DataFrame對象:

print pd.DataFrame(s_list.tolist(), columns=['A', 'B', 'C'])A    B   C0  a   bc  de1  x  xyz  yz

Pandas還提供了一些正則表達式相關(guān)的方法。例如使用其中的str.extract()可以從字符串序列中抽取出需要的部分,得到DataFrame對象。下面的例子中,df_extract1對應(yīng)的正則表達式包含三個未命名的組,因此其結(jié)果包含三個自動命名的列。而df_extract2對應(yīng)的正則表達式包含兩個命名組,因此其列名為組名。?

df_extract1 = s.str.extract(r'(\w+)\|(\w+)\|(\w+)')df_extract2 = s.str.extract(r'(?P<A>\w+)\|(?P<B>\w+)|')df_extract1 df_extract2------------- -----------0 1 2 A B 0 a bc de 0 a bc 1 x xyz yz 1 x xyz

在處理數(shù)據(jù)時,經(jīng)常會遇到這種以特定分隔符分隔關(guān)鍵字的數(shù)據(jù),例如下面的數(shù)據(jù)可以用于表示有向圖,其第一列為邊的起點、第二列為以'|'分隔的多個終點。下面使用read_csv()讀入該數(shù)據(jù),得到一個兩列的DataFrame對象:

import iotext = '''A, B|C|DB, E|FC, AD, B|C'''df = pd.read_csv(io.BytesIO(text), skipinitialspace=True, header=None)print df0      10  A  B|C|D1  B    E|F2  C      A

可以使用下面的程序?qū)⑸鲜鰯?shù)據(jù)轉(zhuǎn)換為每行對應(yīng)一條邊的數(shù)據(jù)。?nodes是一個元素類型為列表的Series對象。?調(diào)用NumPy數(shù)組的repeat()方法將第一列數(shù)據(jù)重復(fù)相應(yīng)的次數(shù)。由于repeat()只能接受32位整數(shù),而str.len()返回的是64位整數(shù),因此還需要進行類型轉(zhuǎn)換。?將嵌套列表平坦化,轉(zhuǎn)換為一維數(shù)組。

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)
Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

還可以把原始數(shù)據(jù)的第二列看作第一列數(shù)據(jù)的標簽,為了后續(xù)的數(shù)據(jù)分析,通常使用str.get_dummies()將這種數(shù)據(jù)轉(zhuǎn)換為布爾DataFrame對象,每一列與一個標簽對應(yīng),元素值為1表示對應(yīng)的行包含對應(yīng)的標簽:

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

當(dāng)字符串操作很難用向量化的字符串方法表示時,可以使用map()函數(shù),將針對每個元素運算的函數(shù)運用到整個序列之上:?

df[1].map(lambda s:max(s.split('|')))0 D1 F2 A3 CName: 1, dtype: object

當(dāng)用字符串序列表示分類信息時,其中會有大量相同的字符串,將其轉(zhuǎn)換為分類(Category)序列可以節(jié)省內(nèi)存、提高運算效率。例如在下面的df_soil對象中,Contour、Depth和Gp列都是表示分類的數(shù)據(jù),因此有許多重復(fù)的字符串。

df_soil = pd.read_csv('Soils.csv', usecols=[2, 3, 4, 6])print df_soil.dtypesContour     objectDepth       objectGp          objectpH         float64dtype: object

下面循環(huán)調(diào)用astype('category')將這三列轉(zhuǎn)換為分類列:

for col in ['Contour', 'Depth', 'Gp']:df_soil[col] = df_soil[col].astype('category')print df_soil.dtypesContour categoryDepth categoryGp categorypH float64dtype: object

與名稱空間對象str類似,元素類型為category的Series對象提供了名稱空間對象cat,其中保存了與分類序列相關(guān)的各種屬性和方法。例如cat.categories是保存所有分類的Index對象:

Gp = df_soil.Gpprint Gp.cat.categoriesIndex([u'D0', u'D1', u'D3', u'D6', u'S0', u'S1', u'S3', u'S6', u'T0', u'T1',u'T3', u'T6'],dtype='object')

而cat.codes則是保存下標的整數(shù)序列,元素類型為int8,因此一個元素用一個字節(jié)表示。

Python 數(shù)據(jù)分析——Pandas 數(shù)值運算函數(shù)

分類數(shù)據(jù)有無序和有序兩種,無序分類中的不同分類無法比較大小,例如性別;有序分類則可以比較大小,例如年齡段。上面創(chuàng)建的三個分類列為無序分類,可以通過cat.as_ordered()和cat.as_unordered()在這兩種分類之間相互轉(zhuǎn)換。下面的程序通過cat.as_ordred()將深度分類列轉(zhuǎn)換為有序分類,注意最后一行分類名之間使用“<”連接,表示是有序分類。

depth = df_soil.Depthdepth.cat.as_ordered().head() ------------------------------------------------------0 0-10 1 0-10 2 0-10 3 0-10 4 10-30 dtype: category Categories (4, object): [0-10 10-30 30-60 60-90]

如果需要自定義分類中的順序,可以使用cat.reorder_categories()指定分類的順序:?

contour = df_soil.Contourcategories = ['Top', 'Slope', 'Depression']contour.cat.reorder_categories(categories, ordered=True).head()---------------------------------------------------------------0    Top                                                       1    Top                                                       2    Top                                                       3    Top                                                       4    Top                                                       dtype: category                                                Categories (3, object): [Top < Slope < Depression]     

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多