導(dǎo)讀數(shù)據(jù)導(dǎo)入是數(shù)據(jù)處理、分析的第一步,Pandas提供非常多的方法,對不同格式、不同來源的數(shù)據(jù)進(jìn)行導(dǎo)入和導(dǎo)出操作。 Pandas對以下數(shù)據(jù)源導(dǎo)入/導(dǎo)出方法列表:Pandas還有很多數(shù)據(jù)導(dǎo)入/導(dǎo)出方法,不是特別常用,就沒有列舉
比較常用的: - 對CSV文件的讀寫:read_csv\to_csv
- 對excel文件的讀寫:read_excel\to_excel
Pandas數(shù)據(jù)導(dǎo)入方法參數(shù)比較多,容錯(cuò)性,識別能力較好: - 支持類型推斷和數(shù)據(jù)轉(zhuǎn)換
- 支持用戶自定義的值轉(zhuǎn)換,自定義的缺失值
- 支持時(shí)間日期識別,自動(dòng)解析
- 支持對大型文件的分塊迭代
- 清理數(shù)據(jù)功能:跳過行、頁腳、注釋以及其他次要數(shù)據(jù)
- 識別數(shù)字千位符號
使用read_csv/to_csv方法,對csv格式數(shù)據(jù)文件進(jìn)行導(dǎo)入/導(dǎo)出操作- pd.read_csv方法,數(shù)據(jù)導(dǎo)入
read_csv方法一些參數(shù)說明: - path 文件路徑
- sep/delimiter 指定分隔符
- header 指定哪行作為列名,默認(rèn)為0,如果文件中沒有列名,可設(shè)置為None
- index_col 指定那列作為行索引的列編號或者列名
- names 指定列名列表
- skiprows 忽略跳過的行數(shù)、行號列表
- na_values 替代缺失值的列表
- comment 在行結(jié)尾處分隔注釋的字符
- parse_dates 嘗試將數(shù)據(jù)解析為datetime,默認(rèn)是False,如果是True,將嘗試解析所有列,也可以指定列號列名列表進(jìn)行解析
- converters 列名稱跟函數(shù)映射的字典
- dayfirst 解析費(fèi)明確日期時(shí),按照國際格式處理,默認(rèn)是False
- date_parser 指定用于解析日期的函數(shù)
- nrows 從文件開頭處讀入的行數(shù)
- skip_footer 忽略文件尾部的行數(shù)
- encoding 指定文件編碼
- thousands 指定千分位分隔符
- pd.to_csv方法,數(shù)據(jù)導(dǎo)出
參數(shù)說明: - 指定輸出文件名
- sep:用’,’分隔
- header:是否帶頭部信息
- index:是否帶行號
使用read_excel/to_excel方法,對Excel文件進(jìn)行導(dǎo)入/導(dǎo)出操作最后
|