Tableau 剧本 - 帕累托图
介绍
Tableau 是当今最流行的交互式数据可视化工具。它提供了各种各样的图表,可让您轻松有效地探索数据。本系列指南 - Tableau Playbook - 将介绍 Tableau 中各种常见图表。本指南将重点介绍帕累托图。
在本指南中,我们将从示例图表开始,介绍其概念和特征。通过分析现实生活中的数据集:美国最受欢迎的婴儿名字,我们将逐步学习如何构建帕累托图。同时,我们将从 Tableau 可视化中得出一些结论。
入门
例子
这是来自精益制造和六西格玛定义的帕累托图示例。此示例说明了各种类型的用药错误。我们可以发现前四种用药错误占总错误的 80%。百分比约为 33%,接近遵循帕累托原则(80/20 规则)。
概念与特征
在学习帕累托图之前,我们需要知道什么是帕累托原则。
帕累托原则,又称 80/20 法则,指许多事件中,大约80% 的结果来自 20% 的原因。该法则以意大利经济学家维尔弗雷多·帕累托 (Vilfredo Pareto) 的名字命名。
例如,在计算机科学中,有些规则如“20%的代码有80%的错误”,或“最难的20%的代码花费80%的时间”。
维基百科对帕累托图的定义:
帕累托图是一种包含条形图和折线图的图表,其中各个值按降序用条形图表示,而累计总数用折线图表示。
其实从广义上来说,帕累托图并不局限于条形图,还可以扩展到其他视觉元素,比如区域、点等。
具体来说,在 Tableau 中,帕累托图是一种将帕累托原则可视化的复合图表。它用线显示累积百分比,我们可以称之为帕累托曲线。它使用双轴技术与分布进行比较,影响从大到小。在此基础上,我们将通过参考线计算出有多少个维度项目对总体度量的贡献百分比。
数据集
实践
在本节中,我们将构建一个功能丰富的帕累托图。构建此图表有点复杂。关键过程是使用表计算来计算度量和维度的不同计数的累计总数的百分比。
受到这个官方视频和这个 Pluralsight 课程的启发。
我们的第一个任务是构建帕累托曲线。我们从条形图开始:
- 将“Top Name”拖到列架中。
- 将“Occurrences”拖到“Rows”架子中。
- 为了遵守 80/20 规则,我们应该按降序对数据进行排序。
- 由于“热门名称”列表太长,请切换到整个视图以获得更好的可视化效果。
接下来,我们要计算“出现次数”总数的运行百分比:
- 右键单击“SUM(出现次数)”,并选择“快速表格计算” -> “累计”。
- 再次右键单击它,然后单击编辑表计算...
- 选择“特定尺寸”并确保选中“顶部名称”。
- 选中添加二次计算以执行二次表计算。
- 选择“总计百分比”作为次要计算类型。
然后我们需要重构“Top Name”来显示总数的运行百分比:
- 在重新整理“Top Name”之前,我们需要保持其降序排列。因此我们将“Top Name”拖入标记-详细信息中。
- 然后右键单击详细信息中的“Top Name” ,然后单击排序...按降序按字段排序。选择“Occurrences”字段并确保“Sum”为聚合。
- 为了显示帕累托曲线,我们应该将标记类型转换为线。
- 目前,“Top Name”是一个维度。我们需要将其转换为Measure (Count (Distinct))。
- 对于“热门名称”,以类似的方式计算总数的运行百分比。
- 右键单击“CNTD(Top Name)”,然后单击“添加表计算...”
- 主要计算类型选择“累计”,次要计算类型选择“总计百分比”(在此之前,请先选中“添加次要计算”)。
- 在“计算使用”选项中,选择“特定维度”并确保选中“顶部名称”。
现在我们已经完成了帕累托曲线部分。通常,我们需要展示分布以进行比较。这里我们使用条形图,它是使用双轴技术组合而成的。
- 将另一个“Occurrences”拖到“Rows Shelf”中。
- 右键单击“行”栏上的第二个“SUM(Occurences)” ,然后选中“双轴”。这里我们不会同步轴,因为它们是完全不同的类型。
- 我们注意到 Tableau 根据度量名称自动分配了颜色。我们将两个标记卡中的度量名称删除。我们将在下一步中手动自定义颜色。
- 为了表示为条形图,我们将第二种标记类型更改为“条形图”。
- 将帕累托曲线的颜色自定义为橙色。
- 我们发现条形图遮住了曲线,因此我们需要右键单击第二个 y 轴,然后单击“将标记移至后面”。
添加参考线来说明 80/20 规则。我们将“出现次数”固定为 80%,并计算“热门名称”占 80% 的百分比。
切换到“分析”选项卡并将“常量线”拖到表- “SUM(Occurences)”中。
将值编辑为 0.8,表示恒定为 80%。
为了与帕累托曲线一致,将此参考线编辑为橙色和虚线。
为了计算“热门名称”百分比,我们需要创建计算字段“帕累托参数”。公式如下:
WINDOW_MIN( 如果 RUNNING_SUM(SUM([出现次数])) / TOTAL(SUM([出现次数])) >= 0.8 THEN RUNNING_SUM(COUNTD([热门名称])) / TOTAL(COUNTD([热门名称])) 结尾)
将“帕累托参数”拖到“标记-详细信息” 。
在详细信息中右键单击“帕累托参数” ,并选择计算依据->顶级名称。
现在我们可以添加动态垂直参考线。右键单击 x 轴,然后单击“添加参考线”。
- 选择整个表作为范围。
- 对于线-值,选择“帕累托参数” 。
- 选择线标签的值。
- 将线条格式设为虚线。
右键单击该参考线并进一步格式化它。
- 将线的颜色格式化为红色。
- 将字体大小设置为 11,颜色设置为红色,并且设置为粗体。
- 在<font style="vertical-align: i
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~