首頁 > 軟體

pandas進行資料輸入和輸出的方法詳解

2022-03-23 19:00:22

1.文字格式資料的讀寫

read_csv():從檔案、URL或檔案型物件讀取分隔好的資料,逗號是預設分隔符

read_table():從檔案、URL或檔案型物件讀取分隔好的資料,製表符('t')是預設分隔符

Windows使用者列印檔案的原始內容

因為這個檔案是逗號分隔的,我們可以使用read_csv將它讀入一個DataFrame:

也可以用read_table,並指定分隔符

 剛剛是檔案包含表頭行的情況,但有的檔案並不包含表頭行,比如

如果直接讀取的話,預設將第一行作為表頭了,也就是預設header=0,表示第一行為標題行。

 有兩種方法改,

一是允許pandas自動分配預設列名,

 二是自己指定列名。

 假設想要message列成為返回DataFrame的索引,可以指定位置4的列為索引,或將'message'傳給引數index_col:

 從多個列中形成一個分層索引

 解析函數有很多附加引數處理各種發生異常的檔案格式,例如,可以使用skiprows來跳過第一行,第三行,第四行。

處理缺失值

通常情況下,缺失值要麼不顯示(空字串,要麼用一些標識值)

預設情況下,pandas用一些常見的標識,如NaN和NULL

na_values選項可以傳入一個列表或一組字串來處理缺失值

在字典中,每列可以指定不同的缺失值標識

 1.1 分塊讀入文字檔案

如果只想讀取一小部分(避免讀取整個檔案),可以指明nrows

 為了分塊讀入檔案,可以指定chunksize作為每一塊的行數

 read_csv返回的TextParser物件允許根據chunksize遍歷檔案,並對'a'列聚合獲得計數值

 1.2 將資料寫入文字格式

使用DataFrame的to_csv方法,可將資料匯出為逗號分隔的檔案

 預設若是沒有其他選項被指定的話,行和列的標籤都會被寫入,不過二者也都可以禁止寫入

也可以僅僅寫入列的子集,並且按照選擇的順序寫入

預設缺失值在輸出時以空字串出現,可以用其他標識值對缺失值進行標註

(寫入到sys.stdout時,控制檯中列印的文字結果)

預設分隔符是逗號,可以用sep選項選擇分隔符

 Series也有to_csv方法

 不知道為啥最後寫入有,0這行????

總結

本篇文章就到這裡了,希望能夠給你帶來幫助,也希望您能夠多多關注it145.com的更多內容!


IT145.com E-mail:sddin#qq.com