首頁 > 軟體

Python pandas找出、刪除重複的資料範例

2022-07-11 22:02:20

前言

當我們使用pandas處理資料的時候,經常會遇到資料重複的問題,如何找出重複資料進而分析重複原因,或者如何直接刪除重複的資料是一個關鍵的步驟,pandas提供了很方便的方法:duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三種情況下,分別是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他們的用法都類似,前兩個會返回一個布林值的Series,最後一個會返回一個布林值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset:預設為None,需要標記重複的標籤或標籤序列

keep:預設為‘first’,如何標記重複標籤

  • first:將除第一次出現以外的重複資料標記為True
  • last:將除最後一次出現以外的重複資料標記為True
  • False:將所有重複的項都標記為True(不管是不是第一次出現)

Series.duplicated(keep=‘first’)

keep:與DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep:與DataFrame.duplicated的keep相同

例子:

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0 

df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(keep='last')

0     True
1    False
2    False
3    False
4    False
dtype: bool

df.duplicated(keep=False)

0     True
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

關於Index的重複標記:

df = df.set_index('brand')
df

        style  rating
brand                
Yum Yum   cup     4.0
Yum Yum   cup     4.0
Indomie   cup     3.5
Indomie  pack    15.0
Indomie  pack     5.0

df.index.duplicated()
array([False,  True, False,  True,  True])

二、drop_duplicates()

與duplicated()類似,drop_duplicates()是直接把重複值給刪掉。下面只會介紹一些含義不同的引數。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • subset:與duplicated()中相同
  • keep:與duplicated()中相同
  • inplace:與pandas其他函數的inplace相同,選擇是修改現有資料還是返回新的資料

Series.drop_duplicates()相比Series.duplicated()也是多了一個inplace引數,和上訴介紹一樣,Index.drop_duplicates()與Index.duplicated()引數相同就不做贅述。下面是例子:

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates()

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates(inplace = True)

df

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

總結

有剩餘無,pandas有很多好用的庫,但是系統學下來很不現實,都是在實際專案中不斷的發現、積累、記錄下來。

到此這篇關於Python pandas找出、刪除重複資料的文章就介紹到這了,更多相關pandas找出刪除重複資料內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com