首頁 > 軟體

Pandas自定義shift與DataFrame求差集的小技巧

2022-02-28 13:05:31

大家好,我是小小明。今天分享兩個小技巧:

Pandas的高階shift偏移

有很多玩量化的朋友經常碰到類似這樣的問題:

其中有位量化大佬居然在半年後的今天又問了我一遍怎麼實現這樣的效果,他居然忘了我之前給他寫過實現。為了避免有人再碰到類似的問題,特別寫下此文。

我們知道Pandas預設的API是不支援這樣的操作的,這個只能自己想辦法實現。下面我藉助數值索引實現這樣的功能,並封裝起來。

最終我們封裝的方法如下:

import numpy as np
import pandas as pd

def adv_shift(s, n, na_value=pd.NA):
    t = np.arange(s.shape[0])-n
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

然後生成測試資料完成這個需求:

df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]})
df['c'] = df.a-adv_shift(df.a, df.b, 0)
df
 abc
02001200
13001100
25001200
38002500
46001-200

可以看到結果完全滿足要求。

如果你希望直接給DataFrame物件增加高階偏移adv_shift方法,則可以這樣寫:

def adv_shift(self, field, n, na_value=pd.NA):
    t = np.arange(self.shape[0])-self[n]
    s = self[field]
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

pd.DataFrame.adv_shift = adv_shift

呼叫方式:

df['c'] = df.a-df.adv_shift("a", "b", 0)
df
 abc
02001200
13001100
25001200
38002500
46001-200

最終結果與上述一致。

Datafream物件求差集

下面我們再看看如何求解Datafream物件的交集、並集和差集:

import pandas as pd

df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]],
                   columns=['a', 'b'])
df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b'])
display(df1)
display(df2)

交集和並集一般的實現都是使用merge方法。

取交集:

df1.merge(df2)

去並集:

df1.merge(df2, how='outer')

關於取差集,我採用的是去重法。思路是,將df1與df2拼接,然後將重複的都去掉不保留,為了將df2全部去掉,將df2拼接兩次,這樣所有df2的資料都會產生重新而被刪除,df1存在於與df2一致的資料也會被刪除。

程式碼為:

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

測試結果:

總結 

到此這篇關於Pandas自定義shift與DataFrame求差集的文章就介紹到這了,更多相關Pandas shift與DataFrame求差集內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com