首頁 > 軟體

Python資料合併的concat函數與merge函數詳解

2022-05-15 19:00:05

一、concat函數

1.concat()函數可以沿著一條軸將多個物件進行堆疊,其使用方式類似資料庫中的資料表合併
pandas.concat(objs, axis=0, join=’outer’, join_axes=None, ignore_index=False, keys=None, levels=None, verify_integrity=False, sort=None, copy=True)

2.引數含義如下:

引數作用
axis表示連線的軸向,可以為0或者1,預設為0
join表示連線的方式,inner表示內連線,outer表示外連線,預設使用外連線
ignore_index接收布林值,預設為False。如果設定為True,則表示清除現有索引並重置索引值
keys接收序列,表示新增最外層索引
levels用於構建MultiIndex的特定級別(唯一值)
names設定了keys和level引數後,用於建立分層級別的名稱
verify_integerity檢查新的連線軸是否包含重複項。接收布林值,當設定為True時,如果有重複的軸將會丟擲錯誤,預設為False

3.根據軸方向的不同,可以將堆疊分成橫向堆疊與縱向堆疊,預設採用的是縱向堆疊方式

4.在堆疊資料時,預設採用的是外連線(join引數設為outer)的方式進行合併,當然也可以通過join=inner設定為內連線的方式。

1)橫向堆疊與外連線

import pandas as pd
df1=pd.DataFrame({'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
df1

橫向堆疊合並df1和df2,採用外連線的方式

pd.concat([df1,df2],join='outer',axis=1)

2) 縱向堆疊與內連線

import pandas as pd
first=pd.DataFrame({'A':['A0','A1','A2'],
                   'B':['B0','B1','B2'],
                   'C':['C0','C1','C2']})
first

second=pd.DataFrame({'B':['B3','B4','B5'],
                   'C':['C3','C4','C5'],
                    'D':['D3','D4','D5']})
second

3.當使用concat()函數合併時,若是將axis引數的值設為0,且join引數的值設為inner,則代表著使用縱向堆疊與內連線的方式進行合併

pd.concat([first,second],join='inner',axis=0)

二、merge()函數

1)主鍵合併資料

在使用merge()函數進行合併時,預設會使用重疊的列索引做為合併鍵,並採用內連線方式合併資料,即取行索引重疊的部分。

import pandas as pd
left=pd.DataFrame({'key':['K0','K1','K2'],
                  'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
left

right=pd.DataFrame({'key':['K0','K1','K2','K3'],
                   'C':['C0','C1','C2','C3'],
                   'D':['D0','D1','D2','D3']})
right

pd.merge(left,right,on='key')

2)merge()函數還支援對含有多個重疊列的DataFrame物件進行合併。

import pandas as pd
data1=pd.DataFrame({'key':['K0','K1','K2'],
                  'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
data1

data2=pd.DataFrame({'key':['K0','K5','K2','K4'],
                         'B':['B0','B1','B2','B5'],
                         'C':['C0','C1','C2','C3'],
                         'D':['D0','D1','D2','D3']})
data2

pd.merge(data1,data2,on=['key','B'])

1)根據行索引合併資料

join()方法能夠通過索引或指定列來連線多個DataFrame物件

join(other,on = None,how =‘left’,lsuffix =‘’,rsuffix =‘’,sort = False )

引數作用
on名稱,用於連線列名
how可以從{‘‘left’’ ,‘‘right’’, ‘‘outer’’, ‘‘inner’’}中任選一個,預設使用左連線的方式。
sort根據連線鍵對合並的資料進行排序,預設為False
import pandas as pd
data3=pd.DataFrame({'A':['A0','A1','A2'],
                   'B':['B0','B1','B2']})
data3

data4=pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                         'D': ['D0', 'D1', 'D2']},
                     index=['a','b','c'])
data3.join(data4,how='outer')  # 外連線

data3.join(data4,how='left')  #左連線

data3.join(data4,how='right')  #右連線

data3.join(data4,how='inner')  #內連線

import pandas as pd
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                        'B': ['B0', 'B1', 'B2'],
                      'key': ['K0', 'K1', 'K2']})
left

right = pd.DataFrame({'C': ['C0', 'C1','C2'],
                         'D': ['D0', 'D1','D2']},
                        index=['K0', 'K1','K2'])
right

on引數指定連線的列名

left.join(right,how='left',on='key')  #on引數指定連線的列名

2)合併重疊資料

當DataFrame物件中出現了缺失資料,而我們希望使用其他DataFrame物件中的資料填充缺失資料,則可以通過combine_first()方法為缺失資料填充。

import pandas as pd
import numpy as np
from numpy import NAN
left = pd.DataFrame({'A': [np.nan, 'A1', 'A2', 'A3'],
                        'B': [np.nan, 'B1', np.nan, 'B3'],
                        'key': ['K0', 'K1', 'K2', 'K3']})
left

right = pd.DataFrame({'A': ['C0', 'C1','C2'],
                         'B': ['D0', 'D1','D2']},
                         index=[1,0,2])
right

用right的資料填充left缺失的部分

left.combine_first(right) # 用right的資料填充left缺失的部分

到此這篇關於Python資料合併的concat函數與merge函數詳解的文章就介紹到這了,更多相關python 資料合併concat函數與merge函數內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com