首頁 > 軟體

Python中的pandas庫簡介及其使用教學

2022-11-09 14:01:55

pandas模組

pandas是一個強大的分析結構化資料的工具集;它的使用基礎是Numpy(提供高效能的矩陣運算);用於資料探勘和資料分析,同時也提供資料淨化功能。

  • 便捷的資料處理能力
  • 獨特的資料結構
  • 讀取檔案方便
  • 封裝了matplotlib的畫圖和numpy的計算

Pandas中常見的資料結構有兩種:

SeriesDateFrame
類似一維陣列的物件,類似多維陣列/表格陣列;每列資料可以是不同的型別;索引包括列索引和行索引。

Series

  • 構建Series:ser_obj = pd.Series(range(10))
  • 由索引和資料組成(索引在左<自動建立的>,資料在右)。
  • 獲取資料和索引:ser_obj.index; ser_obj.values
  • 預覽資料: ser_obj.head(n);ser_obj.tail(n)

DateFrame

  • 獲取列資料:df_obj[col_idx]或df_obj.col_idx
  • 增加列資料:df_obj[new_col_idx] = data
  • 刪除列:del df_obj[col_idx]
  • 按值排序:sort_values(by = “label_name”)

常用方法

Count非NA值得數量
describe針對Series或各DataFrame列計算彙總統計
minmax計算最小值和最大值
argminargmax計算能夠獲取到最大值或最小值的索引位置
idxminidxmax計算能夠獲取到最小值和最大值的索引值
quantile計算樣本的分位數(0-1)
sum值得總和
mean值得平均值
median值的算術中位數(50%分位數)
mad根據平均值計算平均絕對離差
var樣本值得方差
std樣本值得標準差
skew樣本值的偏度(三階距)
kurt樣本值的峰度(四階距)
cumsum樣本值的累計和
cummincummax樣本值的累計最大值和累計最小值
cumprod樣本值的累計積
diff計算一階差分(對時間序列很有用)
pct_change計算百分數變化

處理缺失資料

  • Dropna()丟棄缺失資料
  • Fillna()填充缺失資料

資料過濾

Df[filter_condition]依據filter_condition(條件)對Df(資料)進行過濾。

繪圖功能

Plot(kind,x,y,title,figsize)
Kind(繪製什麼形式的圖),x(x軸內容),y(y軸內容),title(圖示題),figsize(圖大小)

儲存圖片:plt.savefig()

"The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亞

到此這篇關於Python中的pandas庫簡介及其使用的文章就介紹到這了,更多相關Python pandas庫內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com