首頁 > 軟體

pandas應用範例之pivot函數詳解

2022-07-04 18:01:29

1、pivot函數的定義

pivot(index=None,columns=None,values=None) -> DataFrame

2、pivot函數的說明

通過給定的索引(index)和列(column)的值重新生一個DataFrame物件。

根據列值對資料進行整形(生成一個“透視”表)。從指定的索引/列中使用唯一的值來形成結果資料框的軸。此函數不支援資料聚合,多個值將導致列中的多索引。

3、pivo函數的引數

index:指定一列做為生成DataFrame物件的索引,如果為空則預設為原來的索引。

columns:指定一列的值作為列名,必須傳值。

values:指定一列作為生成DataFrame物件的值。可以為空。

4、pivot函數範例

df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'baz': [1, 2, 3, 4, 5, 6],
                    'zoo': ['x', 'y', 'z', 'q', 'w', 't']})

# 指定foo的值為新dataframe的index,bar的值為columns,dataframe中對應的值為baz
df.pivot(index='foo', columns='bar', values='baz')

# 沒有指定value,列名最外層保留原來的列,如下結果baz和zoo為原dataframe中的列名,新指定的列名bar在裡層(暫時這麼理解)。
df.pivot(index='foo', columns='bar')

# 可以通過索引的方式取指定的列資料
df.pivot(index='foo', columns='bar')['baz']

# 可以指定多個values
df.pivot(index='foo', columns='bar', values=['baz', 'zoo'])

# 指定多個columns
df.pivot(index='foo', columns=['bar','baz'], values=['zoo'])

# 指定多個index
df.pivot(index=['foo','bar'], columns='baz', values='zoo')

# 指定多個index可以通過index名取當個index的資料
df.pivot(index=['foo','bar'], columns='baz', values='zoo').loc["one",:]

# 這兩行程式碼執行將會報錯。
# 報錯提示:ValueError: Index contains duplicate entries, cannot reshape
# 意思是指定的索引one有兩個列bar=A衝突了。
df = pd.DataFrame({"foo": ['one', 'one', 'two', 'two'],
                   "bar": ['A', 'A', 'B', 'C'],
                   "baz": [1, 2, 3, 4]})
df.pivot(index='foo', columns='bar', values='baz')

5、pivot函數在實際工作中解決的案例

現在要上圖中的不同code之間從2020-11-16到2020-11-18三天內num序列數的相關性。

首先,dataframe物件可以直接呼叫函數corr()計算不同列之間的相關性,所以現在需要將原始的dataframe物件轉換成以code為列,date為索引,num為值的dataframe。
第一種比較笨的方法就是迴圈,此方法不但程式碼量較多而且在資料量很大時會比較耗時。不建議使用。

grouped = df.groupby(by=["code"])
df_num = pd.DataFrame()
for name,group in grouped:
    d = pd.Series(data=group["num"].values,name=name)
    df_num = pd.concat([df_num,d],axis=1)

df_close

第二種方法就是使用pivot函數,一行程式碼解決,執行快速。

df_num = df.pivot(index='date',columns='code',values='num')

想要的形式的dataframe生成了就可以直接呼叫corr()函數直接求出code之間的相關性了

# 計算列之間的相關性
df_num.corr()

總結

到此這篇關於pandas應用範例之pivot函數的文章就介紹到這了,更多相關pandas pivot函數內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com