使用 Azure 机器学习工作室进行描述统计
介绍
描述性统计是统计学中描述数据的领域。它对于数据理解和探索非常有用,这是机器学习中一项极其重要的任务。它还用于识别数据错误和异常,这是机器学习中一项重要的数据建模任务。在本指南中,您将了解如何使用 Azure 机器学习工作室为数据中的变量生成描述性统计信息。
数据
在本指南中,您将使用 Azure 机器学习工作室中提供的成人人口普查收入二元分类数据集。这是 1994 年人口普查数据库的一个子集,使用年龄超过 16 岁且调整后收入指数大于 100 的在职成年人。该数据用作分类机器学习问题,其目标是使用人口统计数据对人群进行分类,以预测一个人的年收入是否超过 50,000 美元。数据来自UCI 机器学习存储库。
加载数据
登录 Azure 机器学习工作室帐户后,单击左侧栏上列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验并将工作区命名为描述性统计。将显示以下屏幕。
在“已保存的数据集”选项下,将“成人人口普查收入二元数据集”拖到工作区中。右键单击并选择“可视化”选项以浏览数据。
数据包含 32561 行和 15 列。选择任何变量都会显示其统计数据,如下所示。
上面的输出显示Income是字符串要素类型。该要素和类似要素将转换为分类要素。
描述统计
下面重点介绍了描述统计中最常用的指标。
平均值:平均值表示数据的算术平均值。计算方法是将数值相加,然后除以观测值的数量。
中位数:数据中某个变量按升序或降序排列时,位于最中间的值即为中位数。
众数:众数表示数据中变量出现频率最高的值,是唯一可以用于数字和分类变量的集中趋势测量。
IQR:四分位距 (IQR) 计算为第三四分位数 (第 75 个百分位数) 和第一四分位数 (第 25 个百分位数) 之间的差值。
范围:变量的最大值与最小值之间的差值决定了变量的范围。
以下部分概述了 Azure 机器学习工作室中的实现。
编辑元数据
第一步是将变量转换为正确的数据类型。搜索并将编辑元数据模块拖到工作区中。
单击工作区右侧的启动列选择器选项,然后从可用列中选择字符串变量。
做出选择后,所选列将显示在工作区中。接下来,从“分类”下的下拉选项中选择“制作分类”选项。
接下来,单击工作区底部的“运行”按钮,然后右键单击以可视化输出。
上面的输出显示变量workclass已转换为Categorical Feature。
汇总数据
汇总数据模块用于为数据集中的变量生成描述性统计数据。此模块位于统计函数类别中。搜索并将其拖到工作区中。
运行实验,然后右键单击选择“可视化”以查看输出。
生成以下输出。您可以查看每个变量的计数、缺失值计数、平均值、中位数和众数等统计指标的范围。
输出解释
变量年龄没有缺失值,平均值、中位数和众数分别为 38.6 岁、37 岁和 36 岁。最小年龄值为 17 岁,最大年龄为 90 岁。这意味着年龄变量的范围是 73岁。四分位数间距可以通过计算第一四分位数(28 岁)和第三四分位数(48 岁)之间的差值来计算。这给出了 IQR 值为 20 岁。
以同样的方式,可以计算数值变量的描述统计数据。上面的输出还显示存在缺失值。建议清除缺失值并再次查看汇总统计数据。
缺失值处理
搜索并将清理缺失数据模块拖到实验工作区中。将编辑元数据模块与清理缺失数据模块的输入端口连接起来。
在工作区的右侧,有不同的选项可用于执行“清理缺失数据”操作。有几种处理缺失值的方法。其中一种高级技术是使用MICE技术。MICE 代表通过链式方程进行多元插补,其工作原理是为多元缺失数据创建多个插补(替换值)。在“清理模式”选项卡下,选择“使用 MICE 替换”选项。将所有其他选项保留为默认值。
运行实验,实验运行完成后,右键单击并选择Visualize。生成以下输出。
现在选择任何变量都将显示零缺失值。接下来,您将使用汇总数据模块再次汇总数据。将该模块与清理缺失数据模块拖拽并连接起来,然后运行该模块。
模块运行完成后,右键单击并选择可视化选项。
下面的输出显示缺失值已被处理。
R 模块的基本统计
您可以使用R 中的summary()函数打印所有变量的摘要统计信息。执行 R 脚本模块可用于在机器学习实验中执行 R 代码。
首先,搜索并添加执行 R 脚本模块到您的实验中。接下来,将数据连接到执行 R 脚本模块的第一个输入端口(最左边)。
单击模块,在**属性**窗格下,您将看到编写 R 脚本的选项。输入代码,如下所示。
您也可以从下面复制代码。
dataset1 = mam1.mapInputPort(1)
summary(dataset1)
mam1.mapOutputPort(“dataset1”);
运行实验,成功完成后,右键单击并选择“可视化”以再次查看数据。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~