<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Pandas read_excel()引數使用詳解
def read_excel(io, sheet_name=0, header=0, names=None, index_col=None, parse_cols=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)
引數說明:
【例1】通過io和sheet_name讀取Excel表
records.xlsx內容:
date val percent 2014/3/1 0.947014982 10% 2014/6/1 0.746103818 11% 2014/9/1 0.736764841 12% 2014/12/1 0.724937624 13% 2015/3/1 0.85043738 14% 2015/6/1 0.332503212 15% 2015/9/1 0.75289366 16% 2015/12/1 0.358275104 17% 2016/3/1 0.077250716 18% 2016/6/1 0.436182277 19% 2016/9/1 0.424714671 20% 2016/12/1 0.842471104 21% 2017/3/1 0.740035625 22% 2017/6/1 0.183588529 23% 2017/9/1 0.143363207 24%
Code:
In [166]: import pandas as pd ...: df = pd.read_excel(io="records.xlsx", sheet_name="Sheet1") ...: df ...: Out[166]: date val percent 0 2014/3/1 0.947015 10% 1 2014/6/1 0.746104 11% 2 2014/9/1 0.736765 12% 3 2014/12/1 0.724938 13% 4 2015/3/1 0.850437 14% 5 2015/6/1 0.332503 15% 6 2015/9/1 0.752894 16% 7 2015/12/1 0.358275 17% 8 2016/3/1 0.077251 18% 9 2016/6/1 0.436182 19% 10 2016/9/1 0.424715 20% 11 2016/12/1 0.842471 21% 12 2017/3/1 0.740036 22% 13 2017/6/1 0.183589 23% 14 2017/9/1 0.143363 24%
說明:此處io和sheet_name引數都可以不明確指定,直接使用:
df = pd.read_excel("records.xlsx", "Sheet1")
如果records.xlsx檔案只有一張表,或者要讀取的資料表為第一張表,sheet_name引數可以省略:
df = pd.read_excel("records.xlsx")
【例2】通過header引數指定表頭位置
records.xlsx內容:
2020年XXX表 date val percent 2014/3/1 0.947014982 10% 2014/6/1 0.746103818 11% 2014/9/1 0.736764841 12% 2014/12/1 0.724937624 13% 2015/3/1 0.85043738 14% 2015/6/1 0.332503212 15% 2015/9/1 0.75289366 16% 2015/12/1 0.358275104 17% 2016/3/1 0.077250716 18% 2016/6/1 0.436182277 19% 2016/9/1 0.424714671 20% 2016/12/1 0.842471104 21% 2017/3/1 0.740035625 22% 2017/6/1 0.183588529 23% 2017/9/1 0.143363207 24%
我們在【例1】的基礎上為records.xlsx的“Sheet1”表增加了一行表頭說明,如果繼續使用【例1】的程式碼,得到的結果是這樣的:
In [169]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1") ...: df ...: Out[169]: 2020年XXX表 Unnamed: 1 Unnamed: 2 0 date val percent 1 2014/3/1 0.947015 10% 2 2014/6/1 0.746104 11% 3 2014/9/1 0.736765 12% 4 2014/12/1 0.724938 13% 5 2015/3/1 0.850437 14% 6 2015/6/1 0.332503 15% 7 2015/9/1 0.752894 16% 8 2015/12/1 0.358275 17% 9 2016/3/1 0.077251 18% 10 2016/6/1 0.436182 19% 11 2016/9/1 0.424715 20% 12 2016/12/1 0.842471 21% 13 2017/3/1 0.740036 22% 14 2017/6/1 0.183589 23% 15 2017/9/1 0.143363 24%
這樣得到的列標及資料都不是我們想要的,這種情況下就需要通過header引數來指定表頭了,注意到表頭是在第2行,根據header引數的說明可知,行號是從0開始計算的,所以header引數應該為1.
Code:
In [170]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1) ...: df ...: Out[170]: date val percent 0 2014/3/1 0.947015 10% 1 2014/6/1 0.746104 11% 2 2014/9/1 0.736765 12% 3 2014/12/1 0.724938 13% 4 2015/3/1 0.850437 14% 5 2015/6/1 0.332503 15% 6 2015/9/1 0.752894 16% 7 2015/12/1 0.358275 17% 8 2016/3/1 0.077251 18% 9 2016/6/1 0.436182 19% 10 2016/9/1 0.424715 20% 11 2016/12/1 0.842471 21% 12 2017/3/1 0.740036 22%
【例3】通過skipfooter引數忽略表尾資料
有時我們的資料是從第3方獲取到的,往往會在表的末尾新增一行“資料來源:xxx”.如:
2020年XXX表 date val percent 2014/3/1 0.947014982 10% 2014/6/1 0.746103818 11% 2014/9/1 0.736764841 12% 2014/12/1 0.724937624 13% 2015/3/1 0.85043738 14% 2015/6/1 0.332503212 15% 2015/9/1 0.75289366 16% 2015/12/1 0.358275104 17% 2016/3/1 0.077250716 18% 2016/6/1 0.436182277 19% 2016/9/1 0.424714671 20% 2016/12/1 0.842471104 21% 2017/3/1 0.740035625 22% 2017/6/1 0.183588529 23% 2017/9/1 0.143363207 24% 資料來源: XXX
這種情況下,可以通過skipfooter引數來忽略該資料。
Code:
In [173]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1) ...: df ...: Out[173]: date val percent 0 2014/3/1 0.947015 10% 1 2014/6/1 0.746104 11% 2 2014/9/1 0.736765 12% 3 2014/12/1 0.724938 13% 4 2015/3/1 0.850437 14% 5 2015/6/1 0.332503 15% 6 2015/9/1 0.752894 16% 7 2015/12/1 0.358275 17% 8 2016/3/1 0.077251 18% 9 2016/6/1 0.436182 19% 10 2016/9/1 0.424715 20% 11 2016/12/1 0.842471 21% 12 2017/3/1 0.740036 22% 13 2017/6/1 0.183589 23% 14 2017/9/1 0.143363 24% 2.4. index_col引數
【例4】通過index_col引數指定DataFrame index
在【例3】中,檢視我們讀取得到的DataFrame的索引:
In [174]: df.index Out[174]: RangeIndex(start=0, stop=15, step=1)
它是一個自動新增的整型索引,但如果現在我想要使用“date”列作為索引,可以通過index_col引數指定:
In [175]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1,index_col=0) ...: df ...: Out[175]: val percent date 2014/3/1 0.947015 10% 2014/6/1 0.746104 11% 2014/9/1 0.736765 12% 2014/12/1 0.724938 13% 2015/3/1 0.850437 14% 2015/6/1 0.332503 15% 2015/9/1 0.752894 16% 2015/12/1 0.358275 17% 2016/3/1 0.077251 18% 2016/6/1 0.436182 19% 2016/9/1 0.424715 20% 2016/12/1 0.842471 21% 2017/3/1 0.740036 22% 2017/6/1 0.183589 23% 2017/9/1 0.143363 24% In [176]: df.index Out[176]: Index(['2014/3/1', '2014/6/1', '2014/9/1', '2014/12/1', '2015/3/1', '2015/6/1', '2015/9/1', '2015/12/1', '2016/3/1', '2016/6/1', '2016/9/1', '2016/12/1', '2017/3/1', '2017/6/1', '2017/9/1'], dtype='object', name='date')
或者改成這樣:
df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1, index_col=「date」)
檢視【例4】index的引數型別:
In [183]: type(df.index[0]) Out[183]: str
發現並不是我們想要的日期型別,而是str。現在我們想把它轉換為日期型別,可選的一種方法就是通過parse_dates引數來實現。
【例5】parse_dates引數處理日期
Code:
In [184]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1,i ...: ndex_col="date", parse_dates=True) ...: df ...: Out[184]: val percent date 2014-03-01 0.947015 10% 2014-06-01 0.746104 11% 2014-09-01 0.736765 12% 2014-12-01 0.724938 13% 2015-03-01 0.850437 14% 2015-06-01 0.332503 15% 2015-09-01 0.752894 16% 2015-12-01 0.358275 17% 2016-03-01 0.077251 18% 2016-06-01 0.436182 19% 2016-09-01 0.424715 20% 2016-12-01 0.842471 21% 2017-03-01 0.740036 22% 2017-06-01 0.183589 23% 2017-09-01 0.143363 24% In [185]: type(df.index[0]) Out[185]: pandas._libs.tslibs.timestamps.Timestamp
當parase_date設定為True時,預設將index處理為日期型別。
如果要處理的列不是index列,可以通過parse_dates= "date"來實現。
如果要處理的列包含多個,可以通過parse_dates= [“col1”,“col2”,…]來實現。
在前面幾個例子中,我們發現percent列的資料都是xx%這樣的表示,且是str型別:
In [187]: type(df["percent"][0]) Out[187]: str
str型別並不是我們所希望的,現在我們希望可以將之轉化為float型別,這可以通過converters引數來實現。
【例6】converters引數進行資料型別轉換
Code:
In [189]: import pandas as pd ...: def convertPercent(val): ...: return float(val.split("%")[0])*0.01 ...: ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1,i ...: ndex_col="date", parse_dates=True, converters={"percent":convertPerce ...: nt}) ...: df ...: Out[189]: val percent date 2014-03-01 0.947015 0.10 2014-06-01 0.746104 0.11 2014-09-01 0.736765 0.12 2014-12-01 0.724938 0.13 2015-03-01 0.850437 0.14 2015-06-01 0.332503 0.15 2015-09-01 0.752894 0.16 2015-12-01 0.358275 0.17 2016-03-01 0.077251 0.18 2016-06-01 0.436182 0.19 2016-09-01 0.424715 0.20 2016-12-01 0.842471 0.21 2017-03-01 0.740036 0.22 2017-06-01 0.183589 0.23 2017-09-01 0.143363 0.24
【例7】na_values引數處理na資料
很多時候,並不是所有的資料都是有效資料,例如下表中2014/12/1和2016/6/1兩行的資料均為“–”:
2020年XXX表 date val percent 2014/3/1 0.947014982 10% 2014/6/1 0.746103818 11% 2014/9/1 0.736764841 12% 2014/12/1 -- -- 2015/3/1 0.85043738 14% 2015/6/1 0.332503212 15% 2015/9/1 0.75289366 16% 2015/12/1 0.358275104 17% 2016/3/1 0.077250716 18% 2016/6/1 -- -- 2016/9/1 0.424714671 20% 2016/12/1 0.842471104 21% 2017/3/1 0.740035625 22% 2017/6/1 0.183588529 23% 2017/9/1 0.143363207 24% 資料來源: XXX
這種情況下可以通過na_values引數來處理。
Code
In [191]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1,i ...: ndex_col="date", parse_dates=True, na_values="--") ...: df ...: Out[191]: val percent date 2014-03-01 0.947015 10% 2014-06-01 0.746104 11% 2014-09-01 0.736765 12% 2014-12-01 NaN NaN 2015-03-01 0.850437 14% 2015-06-01 0.332503 15% 2015-09-01 0.752894 16% 2015-12-01 0.358275 17% 2016-03-01 0.077251 18% 2016-06-01 NaN NaN 2016-09-01 0.424715 20% 2016-12-01 0.842471 21% 2017-03-01 0.740036 22% 2017-06-01 0.183589 23% 2017-09-01 0.143363 24%
【例8】 usecols引數選擇列
當我們只想處理資料表中的某些指定列時,可以通過usecols引數來指定。例如,我只想處理"date"和"val"兩列資料,可以這樣通過
usecols=["date","val"]
來指定。
Code
In [193]: import pandas as pd ...: df = pd.read_excel("records.xlsx", "Sheet1", header=1, skipfooter=1,i ...: ndex_col="date", parse_dates=True, na_values="--", usecols=["date","v ...: al"]) ...: df ...: Out[193]: val date 2014-03-01 0.947015 2014-06-01 0.746104 2014-09-01 0.736765 2014-12-01 NaN 2015-03-01 0.850437 2015-06-01 0.332503 2015-09-01 0.752894 2015-12-01 0.358275 2016-03-01 0.077251 2016-06-01 NaN 2016-09-01 0.424715 2016-12-01 0.842471 2017-03-01 0.740036 2017-06-01 0.183589 2017-09-01 0.143363
到此這篇關於python Pandas庫read_excel()引數的文章就介紹到這了,更多相關Pandas庫read_excel()引數內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45