還有另外一個管道函數pipe()
,是表級的應用函數。
以下是內容展示,完整數據、和代碼可戳??《pandas進階寶典V1.1.6》進行了解。
pipe函數介紹
函數:
pipe函數可應用在series和dataframe兩個數據結構上。
series.pipe(func, *args, **kwargs)
dataframe.pipe(func, *args, **kwargs)
------
返回:函數的返回類型
參數:
- func:用于處理數據的函數,可以是內置函數、庫函數、自定義函數或匿名函數
pipe函數應用
一、單個函數
df.pipe(np.exp).pipe(lambda x:round(x,2))
以上pipe
分別傳入了numpy的exp函數和逆函數,都是單個函數,實現了對數據進行了e次方操作,并結果保留小數點后兩位有效數字。

當只傳入一個函數時,pipe()
的效果等同于直接用函數對dataframe處理:func(df)
,與apply()
、applymap()
、map()
等的處理結果是一樣的。
這種基礎操作建議優(yōu)先使用apply()
函數,pipe()
函數的精髓在于鏈式調用。
二、鏈式調用
我們先用三個函數分別對dataframe操作。
df_01 = np.square(df)
df_02 = np.multiply(df_01, 1.5)
df_03 = np.add(df_02, 8)
三個函數按順序依次對dataframe操作,第一個函處理后的結果返回給第二個函數,第二個給第三個。如果想省略臨時的dataframe也可以將函數像下面這樣套用一行代碼解決。
rlt = np.add(np.multiply(np.square(df), 1.5), 8)
但上面的寫反可讀性太差了,一點不優(yōu)雅,而且隨著嵌套增多非常容易看錯。這種情況就該pipe()
管道函數登場了。
pi = df.pipe(np.square). \
pipe(np.multiply, 1.5). \
pipe(np.add, 8)
或者
pi = (df.pipe(np.square)
.pipe(np.multiply, 1.5)
.pipe(np.add, 8))

pipe鏈式調用的原理是:
pipe將每次執(zhí)行完的函數結果傳遞給下一個函數,即上個輸出作為下個函數的輸入,以此類推像鏈子一樣可以一直傳遞下去,這也是管道函數名字的由來。
這樣做的優(yōu)點是:
三、特殊傳參方式
pipe()
默認情況下會將dataframe傳給調用函數的第一個參數,但一些函數在定義時第一個參數并不是用來接收dataframe輸入數據的,如果直接將函數傳到pipe()
中會提示報錯。
為了解決這個問題,pipe()
中規(guī)定了一種特殊的參數傳遞方法,是元組(callable, data_keyword)的形式。
data_keyword
:指定將dataframe傳給函數中的哪一個參數
def spcl(num, df):
return df.add(num)
df.pipe((spcl,'df'), 2)

以上pipe()
中用(spcl,'df')
代替了常規(guī)時的函數spcl
,清楚地指明了函數中的df
參數是接受dataframe數據的參數,這樣就不會報錯。此外,函數的*args和**kwargs傳遞方式不變。