<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
作為資料分析師,我們需要經常製作統計分析圖表。但是報表太多的時候往往需要花費我們大部分時間去製作報表。這耽誤了我們利用大量的時間去進行資料分析。但是作為資料分析師我們應該儘可能去挖掘表格圖表資料背後隱藏關聯資訊,而不是簡單的統計表格製作圖表再傳送報表。既然報表的工作不可免除,那我們應該如何利用我們所學的技術去更好的處理工作呢?這就需要我們製作一個Python小程式讓它自己去實現,這樣我們就有更多的時間去做資料分析。我們把讓程式自己執行的這個過程稱為自動化。
1.節省時間,提高效率
自動化總是能夠很好的節省時間,提高我們的工作效率。讓我們的程式程式設計儘可能的降低每個功能實現程式碼的耦合性,更好的維護程式碼。這樣我們會節省很多時間讓我們有空去做更多有價值有意義的工作。
2.減少錯誤
編碼實現效果正確無誤的話是是可以一直沿用的,如果是人為來操作的話反而可能會犯一些錯誤。交給固定的程式來做更加讓人放心,需求變更時僅修改部分程式碼即可解決問題。
首先我們需要根據業務需求來制定我們所需要的報表,並不是每個報表都需要進行自動化的,一些複雜二次開發的指標資料要實現自動化程式設計的比較複雜的,而且可能會隱藏著各種BUG。所以我們需要對我們工作所要用到的報表的特性進行歸納,以下是我們需要綜合考慮的幾個方面:
1.頻率
對於一些業務上經常需要用到的表,這些表我們可能要納入自動化程式的範圍。例如客戶資訊清單、銷售額流量報表、業務流失報表、環比同比報表等。
這些使用頻率較高的報表,都很有必要進行自動化。對於那些偶爾需要使用的報表,或者是二次開發指標,需要複製統計的報表,這些報表就沒必要實現自動化了。
2.開發時間
這就相當於成本和利率一樣,若是有些報表自動化實現困難,還超過了我們普通統計分析所需要的時間,就沒必要去實現自動化。所以開始自動化工作的時候要衡量一下開發指令碼所耗費的時間和人工做表所耗費的時間哪個更短了。當然我會提供一套實現方案,但是僅對一些常用簡單的報表。
3.流程
對於我們報表每個過程和步驟,每個公司都有所不同,我們需要根據業務場景去編碼實現各個步驟功能。所以我們製作的流程應該是符合業務邏輯的,製作的程式也應該是符合邏輯的。
首先我們需要知道我們需要什麼指標:
指標
反映某一資料指標的整體大小
相鄰時間段內的指標直接作差
相鄰時間段內某一共同時間點上指標的對比
我們拿一個簡單的報表來進行模擬實現:
首先我們要了解我們的資料是從哪裡來的,也就是資料來源。我們最終的資料處理都是轉化為DataFrame來進行分析的,所以需要對資料來源進行轉化為DataFrame形式:
import pandas as pd import json import pymysql from sqlalchemy import create_engine # 開啟資料庫連線 conn = pymysql.connect(host='localhost', port=3306, user='root', passwd='xxxx', charset = 'utf8' ) engine=create_engine('mysql+pymysql://root:xxxx@localhost/mysql?charset=utf8') def read_excel(file): df_excel=pd.read_excel(file) return df_excel def read_json(file): with open(file,'r')as json_f: df_json=pd.read_json(json_f) return df_json def read_sql(table): sql_cmd ='SELECT * FROM %s'%table df_sql=pd.read_sql(sql_cmd,engine) return df_sql def read_csv(file): df_csv=pd.read_csv(file) return df_csv
以上程式碼均通過測試可以正常使用,但是pandas的read函數針對不同的形式的檔案讀取,其read函數引數也有不同的含義,需要直接根據表格的形式來調整。
其他read函數將會在文章寫完之後後續補上,除了read_sql需要連線資料庫之外,其他的都是比較簡單的。
我們以使用者資訊為例:
我們需要統計的指標為:
#指標說明
單表圖:
前十個產品受眾最多的地區
#將城市空值的一行刪除 df=df[df['city_num'].notna()] #刪除error df=df.drop(df[df['city_num']=='error'].index) #統計 df = df.city_num.value_counts()
我們僅獲取前10名的城市就好了,封裝為餅圖:
def pie_chart(df): #將城市空值的一行刪除 df=df[df['city_num'].notna()] #刪除error df=df.drop(df[df['city_num']=='error'].index) #統計 df = df.city_num.value_counts() df.head(10).plot.pie(subplots=True,figsize=(5, 6),autopct='%.2f%%',radius = 1.2,startangle = 250,legend=False) pie_chart(read_csv('user_info.csv'))
將圖表儲存起來:
plt.savefig('fig_cat.png')
要是你覺得matplotlib的圖片不太美觀的話,你也可以換成echarts的圖片,會更加好看一些:
pie = Pie() pie.add("",words) pie.set_global_opts(title_opts=opts.TitleOpts(title="前十地區")) #pie.set_series_opts(label_opts=opts.LabelOpts(user_df)) pie.render_notebook()
封裝後就可以直接使用了:
def echart_pie(user_df): user_df=user_df[user_df['city_num'].notna()] user_df=user_df.drop(user_df[user_df['city_num']=='error'].index) user_df = user_df.city_num.value_counts() name=user_df.head(10).index.tolist() value=user_df.head(10).values.tolist() words=list(zip(list(name),list(value))) pie = Pie() pie.add("",words) pie.set_global_opts(title_opts=opts.TitleOpts(title="前十地區")) #pie.set_series_opts(label_opts=opts.LabelOpts(user_df)) return pie.render_notebook() user_df=read_csv('user_info.csv') echart_pie(user_df)
可以進行儲存,可惜不是動圖:
from snapshot_selenium import snapshot make_snapshot(snapshot,echart_pie(user_df).render(),"test.png")
儲存為網頁的形式就可以自動載入JS進行渲染了:
echart_pie(user_df).render('problem.html') os.system('problem.html')
做出來的一系列報表一般都要發給別人看的,對於一些每天需要傳送到指定郵箱或者需要傳送多封報表的可以使用Python來自動傳送郵箱。
在Python傳送郵件主要藉助到smtplib和email這個兩個模組。
不同種類的郵箱伺服器連線地址不一樣,大家根據自己平常使用的郵箱設定相應的伺服器進行連線。這裡博主用網易郵箱展示:
首先需要開啟POP3/SMTP/IMAP服務:
之後便可以根據授權碼使用python登入了。
import smtplib from email import encoders from email.header import Header from email.utils import parseaddr,formataddr from email.mime.application import MIMEApplication from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText #發件人郵箱 asender="fanstuck@163.com" #收件人郵箱 areceiver="1079944650@qq.com" #抄送人郵箱 acc="fanstuck@163.com" #郵箱主題 asubject="謝謝關注" #發件人地址 from_addr="fanstuck@163.com" #郵箱授權碼 password="####" #郵件設定 msg=MIMEMultipart() msg['Subject']=asubject msg['to']=areceiver msg['Cc']=acc msg['from']="fanstuck" #郵件正文 body="你好,歡迎關注fanstuck,您的關注就是我繼續創作的動力!" msg.attach(MIMEText(body,'plain','utf-8')) #新增附件 htmlFile = 'C:/Users/10799/problem.html' html = MIMEApplication(open(htmlFile , 'rb').read()) html.add_header('Content-Disposition', 'attachment', filename='html') msg.attach(html) #設定郵箱伺服器地址和介面 smtp_server="smtp.163.com" server = smtplib.SMTP(smtp_server,25) server.set_debuglevel(1) #登入郵箱 server.login(from_addr,password) #發生郵箱 server.sendmail(from_addr,areceiver.split(',')+acc.split(','),msg.as_string()) #斷開伺服器連線 server.quit()
執行測試:
下載檔案:
完全沒問題!!!
以上就是基於Python實現報表自動化並行送到郵箱的詳細內容,更多關於Python報表自動化的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45