首頁 > 軟體

如何使用Python創建資料字典

2021-05-17 14:30:18

在開始新項目時很少能找到有據可查的完整資料。通常會導致以下兩種結果之一:

您可以按原樣使用資料,通過理解它來推動完成一個半完整的項目,或者…

您需要完成為項目開發資料字典的繁瑣過程。但是誰真正有時間呢?

幸運的是,如果您花了一些時間來獲取和實施這些元資料管理軟體功能,並且獲得了實際使用它們的全部功能的管理許可權,則可以使用它們。

就我而言,這兩種方法都不適用,但是我仍然需要開發文件並製造出可用的產品。如果我們只是自動化了大部分流程,那該怎麼辦?通過一個簡單的python函數?

公開可用資料集的描述

可用的元資料

使用pandas .info()和.describe()進行的初步探索有所幫助

至少資料是乾淨的,我不必擔心丟失值。

「狀態」,「年份」,「格式」和「值」列都很有意義,但是「表」和「度量」列讓我感到困惑。

對於我期望看到的資料集類型,這兩列似乎都沒有多大意義。為了更好地理解,我查看了整個集合的唯一「表格」和「度量」值

每個「表」是一個國家彙總值的唯一報告,每個「度量」是該報告的彙總輸出。

因此,我們有一個數據集,其中包含每年的各種報告的彙總度量。

如果我們只有一個簡單的資料字典,那會容易得多。我們為什麼不將其自動化?

在這裡,我將創建一個類,以便將來可以將其快速匯入其他項目。

現在讓我們製作字典:

對於我的用途,我只是在尋找最重要的資訊(資料類型,總行數,空值總數,按列使用的記憶體以及資料的定義)。您可以通過更改此程式碼在自己的資料字典中新增所需的內容。

可以使用pandas dtypes和columns屬性獲取資料類型,使用列的長度獲取長度,使用isna()函數對空值求和,並使用pandas memory_usage()獲取按列使用的記憶體。

現在,我們需要為資料集中的功能新增含義:

這段程式碼迴圈遍歷我們當前的資料字典,要求使用者定義每個功能變數,然後轉置資料框架使其可用,最後返回我們資料框架的資料字典。這樣有效嗎?

這是工作流程:

現在,您要做的就是將新的資料字典匯出為PDF,JSON,XML或CSV檔案,並與您的項目一起儲存。

Quick Excel PDF匯出彙總資料

快速瀏覽HealthData.gov中缺少有用元資料的資料集。利用從該探索中獲得的見識,我創建了一個python類,以自動化用於未來資料科學項目的資料字典的開發。最後,用Excel開發的PDF文件的生成,該文件可以用作將來項目的基準元資料文件。

好了,本文到此結束。如果對程式設計、計算機、程式設計師方面感興趣的話,歡迎私信聯絡我,隨時交流!點個關注,是對我莫大的鼓勵!


IT145.com E-mail:sddin#qq.com