Series和DataFrame對象都支持NumPy的數(shù)組接口,因此可以直接使用NumPy提供的ufunc函數(shù)對它們進行運算。此外它們還提供各種運算方法,例如max()、min()、mean()、std()等。這些函數(shù)都有如下三個常用參數(shù): ·axis:指定運算對應(yīng)的軸。 ·level:指定運算對應(yīng)的索引級別。 ·skipna:運算是否自動跳過NaN。 ![]() 下面分別計算每列的平均值、每行的平均值以及行索引的第1級別Contour中每個等高線對應(yīng)的平均值: ![]() 除了支持加減乘除等運算符之外,Pandas還提供了add()、sub()、mul()、div()、mod()等與二元運算符對應(yīng)的函數(shù)。這些函數(shù)可以通過axis、level和fill_value等參數(shù)控制其運算行為。在下面的例子中,對不同的等高線的Ca的值乘上不同的系數(shù),fill_value參數(shù)為1表示對于不存在的值或NaN使用默認值1。因此結(jié)果中,所有Depression對應(yīng)的值為原來的0.9倍,Slope對應(yīng)的值為原來的1.2倍,而Top對應(yīng)的值保持不變。 s = pd.Series(dict(Depression=0.9, Slope=1.2))df_soil.Ca.mul(s, level=1, fill_value=1)Depth Contour 0-10 Depression 9.6Slope 15Top 1310-30 Depression 6.8Slope 11Top 10dtype: float64 Pandas還提供了rolling_*()函數(shù)來對序列中相鄰的N個元素進行移動窗口運算。例如可以使用rolling_median()實現(xiàn)中值濾波,使用rolling_mean()計算移動平均。圖1顯示了使用這兩個函數(shù)對帶脈沖噪聲的正弦波進行處理的結(jié)果。它們的第二個參數(shù)為窗口包含的元素個數(shù),而center參數(shù)為True表示移動窗口以當(dāng)前元素為中心。 ![]() 圖1 中值濾波和移動平均 由于rolling_median()采用了更高效的算法,因此當(dāng)窗口很大時它的運算速度比SciPy章節(jié)中介紹過的signal.order_filter()更快。
expanding_*()函數(shù)對序列進行擴展窗口運算,例如expanding_max()返回到每個元素為止的歷史最大值。圖2顯示了expanding_max()、expanding_mean()和expanding_min()的運算結(jié)果。 請讀者思考如何使用NumPy提供的ufunc函數(shù)計算圖2中的三條曲線。? np.random.seed(42)x = np.cumsum(np.random.randn(400))x_max = pd.expanding_max(x)x_min = pd.expanding_min(x)x_mean = pd.expanding_mean(x) ![]() 圖2 用expanding_*計算歷史最大值、平均值、最小值 字符串處理 Series對象提供了大量的字符串處理方法,由于數(shù)量眾多,因此Pandas使用了一個類似名稱空間的對象str來包裝這些字符串相關(guān)的方法。例如下面的程序調(diào)用str.upper()將序列中的所有字母都轉(zhuǎn)換為大寫:
Python中包含兩種字符串:字節(jié)字符串和Unicode字符串。通過str.decode()可以將字節(jié)字符串按照指定的編碼解碼為Unicode字符串。例如在UTF-8編碼中,一個漢字占用三個字符,因此下面的s_utf8中的字符串長度分別為6、9、12。當(dāng)調(diào)用str.decode()將其轉(zhuǎn)換為Unicode字符串的序列之后,其各個元素的長度為實際的文字個數(shù)。str.encode()可以把Unicode字符串按照指定的編碼轉(zhuǎn)換為字節(jié)字符串,在常用的漢字編碼GB2312中,一個漢字占用兩個字節(jié),因此s_gb2312的元素長度分別為4、6、8。 ![]() 無論Series對象包含哪種字符串對象,其dtype屬性都是object,因此無法根據(jù)它判斷字符串類型。在處理文本數(shù)據(jù)時,需要格外注意字符串的類型。 可以對str使用整數(shù)或切片下標,相當(dāng)于對Series對象中的每個元素進行下標運算,例如:? print s_unicode.str[:2]0 北京1 北京2 北京dtype: object 字符串序列與字符串一樣,支持加法和乘法運算,例如:
也可以使用str.cat()連接兩個字符串序列的對應(yīng)元素: print s_unicode.str.cat(s_abc, sep='-')0 北京-a1 北京市-b2 北京地區(qū)-cdtype: object 調(diào)用astype()方法可以對Series對象中的所有元素進行類型轉(zhuǎn)換,例如下面將整數(shù)序列轉(zhuǎn)換為字符串序列:
str中的有些方法可以對元素類型為列表的Series對象進行處理,例如下面調(diào)用str.split()將s中的每個字符串使用字符'|'分隔,所得到的結(jié)果s_list的元素類型為列表。然后調(diào)用它的str.join()方法以逗號連接每個列表中的元素: ![]() 對字符串序列進行處理時,經(jīng)常會得到元素類型為列表的序列。Pandas沒有提供處理這種序列的方法,不過可以通過str[]獲取其中的元素:? s_list.str[1]0 bc1 xyzdtype: object 或者先將其轉(zhuǎn)換為嵌套列表,然后再轉(zhuǎn)換為DataFrame對象:
Pandas還提供了一些正則表達式相關(guān)的方法。例如使用其中的str.extract()可以從字符串序列中抽取出需要的部分,得到DataFrame對象。下面的例子中,df_extract1對應(yīng)的正則表達式包含三個未命名的組,因此其結(jié)果包含三個自動命名的列。而df_extract2對應(yīng)的正則表達式包含兩個命名組,因此其列名為組名。? df_extract1 = s.str.extract(r'(\w+)\|(\w+)\|(\w+)')df_extract2 = s.str.extract(r'(?P<A>\w+)\|(?P<B>\w+)|')df_extract1 df_extract2------------- -----------0 1 2 A B 0 a bc de 0 a bc 1 x xyz yz 1 x xyz 在處理數(shù)據(jù)時,經(jīng)常會遇到這種以特定分隔符分隔關(guān)鍵字的數(shù)據(jù),例如下面的數(shù)據(jù)可以用于表示有向圖,其第一列為邊的起點、第二列為以'|'分隔的多個終點。下面使用read_csv()讀入該數(shù)據(jù),得到一個兩列的DataFrame對象:
可以使用下面的程序?qū)⑸鲜鰯?shù)據(jù)轉(zhuǎn)換為每行對應(yīng)一條邊的數(shù)據(jù)。?nodes是一個元素類型為列表的Series對象。?調(diào)用NumPy數(shù)組的repeat()方法將第一列數(shù)據(jù)重復(fù)相應(yīng)的次數(shù)。由于repeat()只能接受32位整數(shù),而str.len()返回的是64位整數(shù),因此還需要進行類型轉(zhuǎn)換。?將嵌套列表平坦化,轉(zhuǎn)換為一維數(shù)組。 ![]() ![]() 還可以把原始數(shù)據(jù)的第二列看作第一列數(shù)據(jù)的標簽,為了后續(xù)的數(shù)據(jù)分析,通常使用str.get_dummies()將這種數(shù)據(jù)轉(zhuǎn)換為布爾DataFrame對象,每一列與一個標簽對應(yīng),元素值為1表示對應(yīng)的行包含對應(yīng)的標簽: ![]() 當(dāng)字符串操作很難用向量化的字符串方法表示時,可以使用map()函數(shù),將針對每個元素運算的函數(shù)運用到整個序列之上:? df[1].map(lambda s:max(s.split('|')))0 D1 F2 A3 CName: 1, dtype: object 當(dāng)用字符串序列表示分類信息時,其中會有大量相同的字符串,將其轉(zhuǎn)換為分類(Category)序列可以節(jié)省內(nèi)存、提高運算效率。例如在下面的df_soil對象中,Contour、Depth和Gp列都是表示分類的數(shù)據(jù),因此有許多重復(fù)的字符串。
下面循環(huán)調(diào)用astype('category')將這三列轉(zhuǎn)換為分類列: for col in ['Contour', 'Depth', 'Gp']:df_soil[col] = df_soil[col].astype('category')print df_soil.dtypesContour categoryDepth categoryGp categorypH float64dtype: object 與名稱空間對象str類似,元素類型為category的Series對象提供了名稱空間對象cat,其中保存了與分類序列相關(guān)的各種屬性和方法。例如cat.categories是保存所有分類的Index對象:
而cat.codes則是保存下標的整數(shù)序列,元素類型為int8,因此一個元素用一個字節(jié)表示。 ![]() 分類數(shù)據(jù)有無序和有序兩種,無序分類中的不同分類無法比較大小,例如性別;有序分類則可以比較大小,例如年齡段。上面創(chuàng)建的三個分類列為無序分類,可以通過cat.as_ordered()和cat.as_unordered()在這兩種分類之間相互轉(zhuǎn)換。下面的程序通過cat.as_ordred()將深度分類列轉(zhuǎn)換為有序分類,注意最后一行分類名之間使用“<”連接,表示是有序分類。 depth = df_soil.Depthdepth.cat.as_ordered().head() ------------------------------------------------------0 0-10 1 0-10 2 0-10 3 0-10 4 10-30 dtype: category Categories (4, object): [0-10 < 10-30 < 30-60 < 60-90] 如果需要自定義分類中的順序,可以使用cat.reorder_categories()指定分類的順序:?
|
|