当你在做数据总结分析,或者科研调查分析,甚至季度年度总结汇报,需要查看数据的分布情况以及是否有异常情况来形成结论辅助进一步分析时,那么哪种图表能够清晰直观地展现出这一信息呢?
答案就是箱线图。
箱线图是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。
箱子的顶端和底端,分别代表上下四分位数。箱子中间的是中位数线,它将箱子一分为二。从箱子延伸出去的线条展现出了上下四分位数以外的数据,由于这两根延伸出去的线像是胡须,因此箱形图也被称为盒须图。有时,箱形图上也会出现个别的点,在胡须的末端值以外,这代表离群值,也可称之为异常值。
箱形图最大的优势是,它以一种简单的方式,概括出一个或多个数值变量的分布,同时又不会占据太多空间。通过箱形图,我们可以很快知道一些关键的统计值,如中位数、上下四分位数等;也可以分析是否存在离群值、离群值分别是多少。最后,我们还可以用多个箱型图,比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。
比如在上面这张图中,我们可以看出:
①奥地利(Austria)、德国(Germany)、西班牙(Spain)的平均寿命会比较高。而白俄罗斯(Belarus)、伯利兹(Belize)和中国(China)的人均寿命相对较低(用中位数来衡量整体情况平均情况)。
②伯利兹(Belize)和中国(China)的人均寿命分布比较集中,因为箱子比较短。而奥地利(Austria)、德国(Germany)人均寿命分布比较分散。
③从各个箱形图的中位数和上下四位数的间距也可以看出白俄罗斯(Belarus)和中国(China)的人均寿命分布是比较的对称
...
可以看到,箱线图能读出非常多有用的数据,这对于我们做数据分析也是非常有帮助。那么了解完箱线图的实用性后,那么我们应该如何在Stariver平台上配置箱线图呢?
首先我们先在Stariver平台图表库,找到箱线图并把它拖到看板中。在右侧字段设置中我们可以看到有个9字段可以配置,是不是感觉特别复制?不用竞争,其实这是两种配置方式,以便不同场景下的配置需求。
比如在这套数据中,有各城市各时间段的最高温、最低温、空气质量指数、空气质量等级等记录。假如我们想找出某几个城市,在某个时间段的最高温,并用箱线图配置出来,我们应该怎么做?
先说第一种配置方式。如果我们需要利用前端计算,我们需要配置X轴、Y轴、分组。因此我们只需要把相应的字段拖入,并作相应筛选即可,操作如图:
1.把“城市”字段拖入X轴、把“最高温”字段拖入Y轴(并设置平均值)、并把“”日期字段拖入分组中(因为是以最高温的日期做聚合,因此在这里拖入的是日期)。