首頁 > 軟體

Python視覺化神器pyecharts之繪製箱形圖

2022-07-06 18:00:48

箱形圖

概念

後面的圖形都是一些專業的統計圖形,當然也會是我們視覺化的物件。

箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組資料分散情況資料的統計圖。因形狀如箱子而得名。在各種領域也經常被使用,常見於​ ​品質管理​​。它主要用於反映原始資料分佈的特徵,還可以進行多組資料分佈特徵的比 較。箱線圖的繪製方法是:先找出一組資料的上邊緣、下邊緣、中位數和兩個四分位數;然後, 連線兩個四分位數畫出箱體;再將上邊緣和下邊緣與箱體相連線,中位數在箱體中間。

 用處

1.直觀明瞭地識別資料批中的異常值

上文講了很久的識別異常值,其實箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的資料可以變得任意遠而不會很大地擾動四分位數,所以異常值不會影響箱形圖的資料形狀,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優越性。

2.利用箱線圖判斷資料批的偏態和尾重

對於標準正態分佈的樣本,只有極少值為異常值。異常值越多說明尾部越重,自由度越小(即自由變動的量的個數);

而偏態表示偏離程度,異常值集中在較小值一側,則分佈呈左偏態;異常值集中在較大值一側,則分佈呈右偏態。

3.利用箱線圖比較幾批資料的形狀

同一數軸上,幾批資料的箱線圖並行排列,幾批資料的中位數、尾長、異常值、分佈區間等形狀資訊便昭然若揭。如上圖,可直觀得看出第三季度各分公司的銷售額大體都在下降。

箱形圖系列模板

第一個箱形圖

說實話這類圖形的繪製,如果不懂專業的知識可能也無法理解,對於如何深層次的理解這個圖形的具體含義,請移步到其他專欄,我會詳細介紹,這裡就不做過多的解釋了。

from pyecharts import options as opts
from pyecharts.charts import Boxplot
v1 = [
[850, 740, 900, 1070, 930, 850, 950, 980, 980, 880, 1000, 980],
[960, 940, 960, 940, 880, 800, 850, 880, 900, 840, 830, 790],
]
v2 = [
[890, 810, 810, 820, 800, 770, 760, 740, 750, 760, 910, 920],
[890, 840, 780, 810, 760, 810, 790, 810, 820, 850, 870, 870],
]
c = Boxplot()
c.add_xaxis(["expr1", "expr2"])
c.add_yaxis("A", c.prepare_data(v1))
c.add_yaxis("B", c.prepare_data(v2))
c.set_global_opts(title_opts=opts.TitleOpts(title="標題"))
c.render("簡單範例.html")
print(c.prepare_data(v1))

複雜一點的圖例

import pyecharts.options as opts
from pyecharts.charts import Grid, Boxplot, Scatter

y_data = [
[
850,
740,
900,
1070,
930,
850,
950,
980,
980,
880,
1000,
980,
930,
650,
760,
810,
1000,
1000,
960,
960,
],
[
960,
940,
960,
940,
880,
800,
850,
880,
900,
840,
830,
790,
810,
880,
880,
830,
800,
790,
760,
800,
],
[
880,
880,
880,
860,
720,
720,
620,
860,
970,
950,
880,
910,
850,
870,
840,
840,
850,
840,
840,
840,
],
[
890,
810,
810,
820,
800,
770,
760,
740,
750,
760,
910,
920,
890,
860,
880,
720,
840,
850,
850,
780,
],
[
890,
840,
780,
810,
760,
810,
790,
810,
820,
850,
870,
870,
810,
740,
810,
940,
950,
800,
810,
870,
],
]
scatter_data = [650, 620, 720, 720, 950, 970]

box_plot = Boxplot()

box_plot = (
box_plot.add_xaxis(xaxis_data=["expr 0", "expr 1", "expr 2", "expr 3", "expr 4"])
.add_yaxis(series_name="", y_axis=box_plot.prepare_data(y_data))
.set_global_opts(
title_opts=opts.TitleOpts(
pos_left="center", title="Michelson-Morley Experiment"
),
tooltip_opts=opts.TooltipOpts(trigger="item", axis_pointer_type="shadow"),
xaxis_opts=opts.AxisOpts(
type_="category",
boundary_gap=True,
splitarea_opts=opts.SplitAreaOpts(is_show=False),
axislabel_opts=opts.LabelOpts(formatter="expr {value}"),
splitline_opts=opts.SplitLineOpts(is_show=False),
),
yaxis_opts=opts.AxisOpts(
type_="value",
name="km/s minus 299,000",
splitarea_opts=opts.SplitAreaOpts(
is_show=True, areastyle_opts=opts.AreaStyleOpts(opacity=1)
),
),
)
.set_series_opts(tooltip_opts=opts.TooltipOpts(formatter="{b}: {c}"))
)

scatter = (
Scatter()
.add_xaxis(xaxis_data=["expr 0", "expr 1", "expr 2", "expr 3", "expr 4"])
.add_yaxis(series_name="", y_axis=scatter_data)
.set_global_opts(
title_opts=opts.TitleOpts(
pos_left="10%",
pos_top="90%",
title="upper: Q3 + 1.5 * IQR nlower: Q1 - 1.5 * IQR",
title_textstyle_opts=opts.TextStyleOpts(
border_color="#999", border_width=1, font_size=14
),
),
yaxis_opts=opts.AxisOpts(
axislabel_opts=opts.LabelOpts(is_show=False),
axistick_opts=opts.AxisTickOpts(is_show=False),
),
)
)
grid = (
Grid(init_opts=opts.InitOpts(width="1200px", height="600px"))
.add(
box_plot,
grid_opts=opts.GridOpts(pos_left="10%", pos_right="10%", pos_bottom="15%"),
)
.add(
scatter,
grid_opts=opts.GridOpts(pos_left="10%", pos_right="10%", pos_bottom="15%"),
)
.render("第一個箱形圖.html")
)

其實對於這個圖形的繪製我個人覺得掌握好一定技巧,繪製圖形並不難,主要是你要知道一定資料分析方法,不然空談資料可視也是枉然。

到此這篇關於Python視覺化神器pyecharts之繪製箱形圖的文章就介紹到這了,更多相關Python繪製箱形圖內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com