python Dataframe 合併與去重詳情

2022-08-09 18:00:16

1.合併

1.1 結構合併

將兩個結構相同的資料合併

1.1.1 concat函數

函數設定：

concat([dataFrame1, dataFrame2,…], index_ingore=False)

引數說明：index_ingore=False（表示合併的索引不延續），index_ingore=True（表示合併的索引可延續）

範例：

import pandas as pd
import numpy as np

# 建立一個十行兩列的二維資料
df = pd.DataFrame(np.random.randint(0, 10, (3, 2)), columns=['A', 'B'])

# 將資料拆分成兩份，並儲存在列表中
data_list = [df[0:2], df[3:]]

# 索引值不延續 
df1 = pd.concat(data_list, ignore_index=False)

# 索引值延續
df2 = pd.concat(data_list, ignore_index=True)

返回結果：

----------------df--------------------------
A B
0 7 8
1 7 3
2 5 9
3 4 0
4 1 8
----------------df1--------------------------
A B
0 7 8
1 7 3
3 4 0# -------------->這裡並沒有2出現，索引不連續
4 1 8
----------------df2--------------------------
A B
0 7 8
1 7 3
2 4 0
3 1 8

1.1.2 append函數

函數設定：

df.append(df1, index_ignore=True)

引數說明：index_ingore=False（表示索引不延續），index_ingore=True（表示索引延續）

範例：

import pandas as pd
import numpy as np

# 建立一個五行兩列的二維陣列
df = pd.DataFrame(np.random.randint(0, 10, (5, 2)), columns=['A', 'B'])

# 建立要追加的資料
narry = np.random.randint(0, 10, (3, 2))
data_list = pd.DataFrame(narry, columns=['A', 'B'])

# 合併資料
df1 = df.append(data_list, ignore_index=True)

返回結果：

----------------df--------------------------
A B
0 5 6
1 1 2
2 5 3
3 1 8
4 1 2
----------------df1--------------------------
A B
0 5 6
1 1 2
2 5 3
3 1 8
4 1 2
5 8 1
6 3 5
7 1 1

1.2 欄位合併

將同一個資料不同列合併

引數設定：

pd.merge( left, right, how="inner", on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=("_x", "_y"), copy=True, indicator=False, validate=None, )

引數說明：

引數	說明
how	連線方式：inner、left、right、outer，預設為 inner
on	用於連線的列名
left_on	左表用於連線的列名
right_on	右表用於連線的列名
Left_index	是否使用左表的行索引作為連線鍵，預設為False
Right_index	是否使用右表的行索引作為連線鍵，預設為False
sort	預設為False，將合併的資料進行排序
copy	預設為True。總是將資料複製到資料結構中，設定為False可以提高效能
suffixes	存在相同列名時在列名後面新增的字尾，預設為（’_x’, ‘_y’）
indicator	顯示合併資料中資料來自哪個表

範例1：

import pandas as pd
 
df1 = pd.DataFrame({'key':['a','b','c'], 'data1':range(3)})
df2 = pd.DataFrame({'key':['a','b','c'], 'data2':range(3)})
df = pd.merge(df1, df2) # 合併時預設以重複列並作為合併依據

結果展示：

----------------df1--------------------------
key data1
0 a 0
1 b 1
2 c 2
----------------df2--------------------------
key data2
0 a 0
1 b 1
2 c 2
----------------df---------------------------
key data1 data2
0 a 0 0
1 b 1 1
2 c 2 2

範例2：

# 多鍵連線時將連線鍵組成列表傳入
 
right=DataFrame({'key1':['foo','foo','bar','bar'],  
         'key2':['one','one','one','two'],  
         'lval':[4,5,6,7]})  
 
left=DataFrame({'key1':['foo','foo','bar'],  
         'key2':['one','two','one'],  
         'lval':[1,2,3]})  
  
pd.merge(left,right,on=['key1','key2'],how='outer')

結果展示：

----------------right-------------------------
key1 key2 lval
0 foo one 4
1 foo one 5
2 bar one 6
3 bar two 7
----------------left--------------------------
key1 key2 lval
0 foo one 1
1 foo two 2
2 bar one 3
----------------df---------------------------
key1 key2 lval_x lval_y
0 foo one 1.0 4.0
1 foo one 1.0 5.0
2 foo two 2.0 NaN
3 bar one 3.0 6.0
4 bar two NaN 7.0

2.去重

引數設定：

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

引數說明：

引數	說明
subset	列名，可選，預設為None
keep	{‘first’, ‘last’, False}, 預設值 ‘first’
first	保留第一次出現的重複行，刪除後面的重複行
last	刪除重複項，除了最後一次出現
False	刪除所有重複項
inplace	布林值，預設為False，是否直接在原資料上刪除重複項或刪除重複項後返回副本。（inplace=True表示直接在原來的DataFrame上刪除重複項，而預設值False表示生成一個副本。）

範例：

去除完全重複的行資料

data.drop_duplicates(inplace=True)

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

df.drop_duplicates()

結果展示：

---------------去重前的df---------------------------
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
---------------去重後的df---------------------------
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

使用subset 去除某幾列重複的行資料

data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

df.drop_duplicates(subset=['brand'])

結果展示：

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5

使用 keep刪除重複項並保留最後一次出現

df.drop_duplicates(subset=['brand', 'style'], keep='last')

結果展示：

brand style rating
1 Yum Yum cup 4.0
2 Indomie cup 3.5
4 Indomie pack 5.0

到此這篇關於python Dataframe 合併與去重詳情的文章就介紹到這了,更多相關python Dataframe內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com！

python Dataframe 合併與去重詳情

目錄

1.合併

1.1 結構合併

1.1.1 concat函數

1.1.2 append函數

1.2 欄位合併

2.去重

熱門文章