<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
我們知道資料是一項寶貴的資產,近年來經歷了指數級增長。但是原始資料通常不能立即使用,它需要進行大量清理和轉換。
Pandas 是 Python 的資料分析和操作庫,它有多種清理資料的方法和函數。在本文中,我將做5個範例來幫助大家掌握資料清理技能。
這是一個包含髒資料的範例資料框
讓我們看看可以做些什麼來使這個資料集變得乾淨。
第一列是多餘的,應該刪除;
Date 沒有標準;
Name 寫成姓氏、名字,並有大寫和小寫字母;
Payment 代表一個數量,但它們顯示為字串,需要處理;
在 Note 中,有一些非字母數位應該被刪除;
刪除列是使用 drop 函數的簡單操作。除了寫列名外,我們還需要指定軸引數的值,因為 drop 函數用於刪除行和列。 最後,我們可以使用 inplace 引數來儲存更改。
import pandas as pd df.drop("Unnamed: 0", axis=1, inplace=True)
我們有多種選擇將日期值轉換為適當的格式。一種更簡單的方法是使用 astype 函數來更改列的資料型別。
它能夠處理範圍廣泛的值並將它們轉換為整潔、標準的日期格式。
df["Date"] = df["Date"].astype("datetime64[ns]")
關於名稱列,我們首先需要解決如下問題:
首先我們應該用所有大寫或小寫字母來表示它們。另一種選擇是將它們大寫(即只有首字母是大寫的);
切換姓氏和名字的順序;
df["Name"].str.split(",", expand=True)
然後,我將取第二列與第一列結合起來,中間有一個空格。最後一步是使用 lower 函數將字母轉換為小寫。
df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()
支付Payment的資料型別是不能用於數值分析的。在將其轉換為數位資料型別(即整數或浮點數)之前,我們需要刪除美元符號並將第一行中的逗號替換為點。
我們可以使用 Pandas 在一行程式碼中完成所有這些操作
df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")
Note 列中的一些字元也需要刪除。在處理大型資料集時,可能很難手動替換它們。
我們可以做的是刪除非字母數位字元(例如?、!、-、. 等)。在這種情況下也可以使用 replace 函數,因為它接受正規表示式。
如果我們只想要字母字元,下面是我們如何使用替換函數:
df["Note"].str.replace('[^a-zA-Z]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral Name: Note, dtype: object
如果我們想要字母和數位(即字母數位),我們需要在我們的正規表示式中新增數位:
df["Note"].str.replace('[^a-zA-Z0-9]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral0 Name: Note, dtype: object
請注意,這次沒有刪除最後一行中的 0,我只需選擇第一個選項。如果我還想在刪除非字母數位字元后將字母轉換為小寫
df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()
與初始形式相比,資料集看起來要好得多。當然,它是一個簡單的資料集,但這些清理操作在處理大型資料集時肯定會對你有所幫助。
到此這篇關於Python資料預處理常用的5個技巧的文章就介紹到這了,更多相關Python資料預處理內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45