<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
統計表中常常以本年累計、上年同期(累計)、當期(例如當月)完成、上月完成為統計資料,並進行同比、環比分析。
如下月報統計表所示樣例,本文將使用Python Pandas工具進行統計。
其中:
注:這裡的本期是指本月完成或當月完成,上期數是指上月完成。
範例資料:
注:為了演示方便,本案例資料來源僅使用2年,且每年5個月的資料。
在做統計分析開發中,按年度、按月累計某些統計資料,是比較常見的需求。對於資料來說,就是按規則逐行累加資料。
Pandas中的cumsum()函數可以實現按某時間維度累計需求。
# 取本年累計值 import pandas as pd df = pd.read_csv('data2021.csv') cum_columns_name = ['cum_churncount','cum_newcount'] df[cum_columns_name] = df[['years','churncount','newcount']].groupby(['years']).cumsum()
注:其中分組‘years’是指年度時間維度累計。
計算結果如下:
對於(上年)同期累計,將直接取上一年度累計值的同月份資料。pandas DataFrame.shift()函數可以把資料移動指定的行數。
接續上列,讀取同期資料。首先是把‘yearmonth’上移五行,如上圖所示得到新的DataFrame,通過‘yearmonth’進行兩表資料關聯(左關聯:左側為原表,右側為移動後的新表),實現去同期資料效果。
cum_columns_dict = {'cum_churncount':'cum_same_period_churncount', 'cum_newcount':'cum_same_period_newcount'} df_cum_same_period = df[['cum_churncount','cum_newcount','yearmonth']].copy() df_cum_same_period = df_cum_same_period.rename(columns=cum_columns_dict) #df_cum_same_period.loc[:,'yearmonth'] = df_cum_same_period['yearmonth'].shift(-12) # 一年12個月 df_cum_same_period.loc[:,'yearmonth'] = df_cum_same_period['yearmonth'].shift(-5) # 由於只取5個月資料的原因 df = pd.merge(left=df,right=df_cum_same_period,on='yearmonth',how='left')
取上月的資料,使用pandas DataFrame.shift()函數把資料移動指定的行數。
接續上列,讀取上期資料。(與取同期原理一樣,略)
last_mnoth_columns_dict = {'churncount':'last_month_churncount', 'newcount':'last_month_newcount'} df_last_month = df[['churncount','newcount','yearmonth']].copy() df_last_month = df_last_month.rename(columns=last_mnoth_columns_dict) df_last_month.loc[:,'yearmonth'] = df_last_month['yearmonth'].shift(-1) # 移動一行 df = pd.merge(left=df,right=df_last_month,on='yearmonth',how='left')
計算同比涉及到除法,需要剔除除數為零的資料。
df.fillna(0,inplace=True) # 空值填充為0 # 計算同比 df.loc[df['cum_same_period_churncount']!=0,'cum_churncount_rat'] = (df['cum_churncount']-df['cum_same_period_churncount'])/df['cum_same_period_churncount'] # 除數不能為零 df.loc[df['cum_same_period_newcount']!=0,'cum_newcount_rat'] = (df['cum_newcount']-df['cum_same_period_newcount'])/df['cum_same_period_newcount'] # 除數不能為零 df[['yearmonth','cum_churncount','cum_newcount','cum_same_period_churncount','cum_same_period_newcount','cum_churncount_rat','cum_newcount_rat']]
# 計算環比 df.loc[df['last_month_churncount']!=0,'churncount_rat'] = (df['churncount']-df['last_month_churncount'])/df['last_month_churncount'] # 除數不能為零 df.loc[df['last_month_newcount']!=0,'newcount_rat'] = (df['newcount']-df['last_month_newcount'])/df['last_month_newcount'] # 除數不能為零 df[['yearmonth','churncount','newcount','last_month_churncount','last_month_newcount','churncount_rat','newcount_rat']]
pandas做統計計算功能方法比較多,這裡總結用到的技術有累計cumsum()函數、行動資料shift()函數、表合併關聯merge()函數,以及通過loc條件修改資料。
以上為個人經驗,希望能給大家一個參考,也希望大家多多支援it145.com。
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45