首頁 > 軟體

kaggle資料分析家庭電力消耗過程詳解

2022-12-13 14:00:08

一、家庭電力消耗分析

1.背景描述

本資料集包含了一個家庭6個月的用電資料,收集於2007年1月至2007年6月。
這些資料包括全球有功功率、全球無功功率、電壓、全球強度、分項計量1(廚房)、分項計量2(洗衣房)和分項計量3(電熱水器和空調)等資訊。該資料集共有260,640個測量值,可以為了解家庭用電情況提供重要的見解。

我們要感謝databeats團隊提供這個資料集。如果你在你的研究中使用這個資料集,請註明原作者:Georges Hébrail 和 Alice Bérard

資料說明

列名說明
Date日期
Time時間
Globalactivepower該家庭所消耗的總有功功率(千瓦)
Globalreactivepower該家庭消耗的總無功功率(千瓦)
Voltage向家庭輸送電力的電壓(伏特)
Global_intensity輸送到家庭的平均電流強度(安培)
Submetering1廚房消耗的有功功率(千瓦)
Submetering2洗衣房所消耗的有功功率(千瓦)
Submetering3電熱水器和空調所消耗的有功功率(千瓦)

2.資料來源

www.kaggle.com/datasets/th…

3.問題描述

本資料集可以用於機器學習的目的,如預測性建模或時間序列分析。例如,人們可以使用這個資料集,根據過去的資料來預測未來的家庭用電量。

分析不同型別的電氣裝置對耗電量的影響

研究電力消耗如何隨時間和地點而變化

構建一個預測模型來預測未來的電力消耗

二、資料載入

!pip install prophet  -i https://pypi.tuna.tsinghua.edu.cn/simple
data_path="/home/mw/input/Household_Electricity4767/household_power_consumption.csv"
import pandas as pd
import seaborn as sns
import numpy as np
from tqdm.auto import tqdm
from prophet import Prophet
df=pd.read_csv(data_path)
df.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

indexDateTimeGlobal_active_powerGlobal_reactive_powerVoltageGlobal_intensitySub_metering_1Sub_metering_2Sub_metering_3
01/1/070:00:002.580.136241.9710.6000.0
11/1/070:01:002.5520.1241.7510.4000.0
21/1/070:02:002.550.1241.6410.4000.0
31/1/070:03:002.550.1241.7110.4000.0
41/1/070:04:002.5540.1241.9810.4000.0
df.describe()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

indexSub_metering_3
count260640.000000256869.000000
mean130319.5000005.831825
std75240.4314188.186709
min0.0000000.000000
25%65159.7500000.000000
50%130319.5000000.000000
75%195479.25000017.000000
max260639.00000020.000000
df.dtypes
index                      int64
Date                      object
Time                      object
Global_active_power       object
Global_reactive_power     object
Voltage                   object
Global_intensity          object
Sub_metering_1            object
Sub_metering_2            object
Sub_metering_3           float64
dtype: object
df['Date']=pd.DatetimeIndex(df['Date'])
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
def floating(string):
    try:
        return float(string)
    except:
        return float(0)
for column in tqdm(make_em_num):
    df[column] = df[column].apply(lambda item: floating(item))
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
df.dtypes
index                             int64
Date                     datetime64[ns]
Time                             object
Global_active_power             float64
Global_reactive_power           float64
Voltage                         float64
Global_intensity                float64
Sub_metering_1                  float64
Sub_metering_2                  float64
Sub_metering_3                  float64
dtype: object
df.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

indexDateTimeGlobal_active_powerGlobal_reactive_powerVoltageGlobal_intensitySub_metering_1Sub_metering_2Sub_metering_3
02007-01-010:00:002.5800.136241.9710.60.00.00.0
12007-01-010:01:002.5520.100241.7510.40.00.00.0
22007-01-010:02:002.5500.100241.6410.40.00.00.0
32007-01-010:03:002.5500.100241.7110.40.00.00.0
42007-01-010:04:002.5540.100241.9810.40.00.00.0
sns.heatmap(df.drop(['index','Date','Time'], axis=1).corr(), annot=True)
<matplotlib.axes._subplots.AxesSubplot at 0x7f31603ed4e0>

三、預測

1.Prophet介紹

github.com/facebook/pr…

Prophet是一種基於可加性模型預測時間序列資料的程式,其中非線性趨勢可以按年度、每週和每日的季節性,以及假日效應進行擬合。它最適合於具有強烈季節效應的時間序列和有幾個季節的歷史資料。Prophet對於缺失的資料和趨勢的變化是穩健的,並且通常能夠很好地處理異常值。

2.模型介紹

Prophet模型如下:

  • g(t) 表示趨勢函數,擬合非週期性變化;
  • s(s)表示週期性變化,比如說每週,每年,季節等;
  • h(t)表示假期變化,節假日可能是一天或者多天;
  • ϵt為噪聲項,用他來表示隨機無法預測的波動,我們假設ϵt是高斯的。

趨勢中有兩個增長函數,分別是分段線性函數(linear)和非線性邏輯迴歸函數(logistic)擬合增長曲線趨勢。通過從資料中選擇變化點,Prophet自動探測趨勢變化;

使用傅立葉級數建模每年的季節分量;

使用虛變數代表過去,將來的相同節假日,屬於節假日就為1,不屬於就是0;

使用者提供的重要節假日列表

  • Modeling:建立時間序列模型。分析師根據預測問題的背景選擇一個合適的模型。
  • Forecast Evaluation:模型評估。根據模型對歷史資料進行模擬,在模型的引數不確定的情況下,我們可以進行多種嘗試,並根 據對應的模擬效果評估哪種模型更適合。
  • Surface Problems:呈現問題。如果嘗試了多種引數後,模型的整體表現依然不理想,這個時候可以將誤差較大的潛在原因呈現給分析師。
  • Visually Inspect Forecasts:以視覺化的方式反饋整個預測結果。當問題反饋給分析師後,分析師考慮是否進一步調整和構建模型。

3.Prophet優點

  • 準確,快速,擬合非常快,可以進行互動式探索
  • 全自動,無需人工操作就能對混亂的資料做出合理的預測
  • 可調整的預測,預測模型的引數非常容易解釋,可以用業務知識改進或調整預測
  • 對缺失值和變化劇烈的時間序列和離散值能做很好有很好的魯棒性,不需要填補缺失值;
import matplotlib.pyplot as plt
df.shape
(260640, 10)
df=df.sample(n=10000)
def prophet_forecaster(data, x, y, period=100):
    new_df = pd.DataFrame(columns=['ds', 'y'])
    new_df['ds']= data[x]
    new_df['y'] = data[y]
    model = Prophet()
    model.fit(new_df)
    future_dates = model.make_future_dataframe(periods=period)
    forecast = model.predict(future_dates)
    model.plot(forecast)
    plt.title(f"Forecasting on the next {period} days for {y}")
prophet_forecaster(df, x='Date', y='Global_active_power', period=100)
prophet_forecaster(df, x='Date', y='Voltage', period=100)
INFO:prophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this.
INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.

以上就是kaggle資料分析家庭電力消耗過程詳解的詳細內容,更多關於kaggle資料分析電力消耗的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com