使用 Azure 机器学习工作室进行回归建模
介绍
回归建模是最广泛使用的机器学习算法之一。当目标变量是连续变量时,它用于预测建模。在本指南中,您将了解如何使用 Azure 机器学习工作室执行回归建模。
数据
在本指南中,您将使用https://research.stlouisfed.org/fred2提供的美国经济时间序列数据。数据包含 574 行和 5 个变量,如下所述:
psavert个人储蓄率。
pce个人消费支出,以十亿美元计。
uempmed失业平均持续时间,以周为单位。
pop总人口数,以千为单位。
失业失业人数(千人)。这是因变量。
首先加载数据。
加载数据
登录 Azure 机器学习工作室帐户后,单击左侧栏列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验,将显示以下屏幕。
将工作区命名为“回归建模”。接下来,您将数据加载到工作区中。单击NEW,然后选择下面显示的DATASET选项。
上面的选择将打开一个窗口,可用于从本地系统上传数据集。上传名为regressiondata.csv的数据。文件加载后,您可以在“已保存的数据集”选项中看到它。下一步是将其从“已保存的数据集”列表拖到工作区中。
探索数据
探索数据很重要,因为它可以帮助您了解数据并为进一步分析做好准备。要探索数据,请右键单击并选择“可视化”选项。
选择不同的变量来检查基本统计数据。例如,下图显示了目标变量unemploy的详细信息。
右侧的“统计”部分显示变量的汇总统计值。如果向下滚动工作区,您可以看到直方图。汇总统计和直方图使您能够了解变量的分布。
创建、训练和测试数据集
验证正在构建的机器学习模型的性能非常重要。为此,一种方法是将数据分为训练数据和测试数据。这可以通过拆分数据模块完成。搜索并将模块拖到工作区中。
在工作区右侧显示的“拆分数据”选项中,将“第一行分数”选项卡下的值更改为 0.7。这意味着您将 70% 的数据保留在训练集中,而其余 30% 将保留在测试集中。接下来,单击“运行”选项卡并选择“运行所选”。
模块运行完成后,您可以在左侧输出端口找到训练日期作为结果数据集1。
右键单击并选择可视化选项。
上面的输出显示训练数据集中有 402 行和 5 列,代表 70% 的数据。
训练模型
将训练模型模块拖到工作区中,如下所示。该模块有两个输入端口。第一个端口用于未训练模型,它将与算法模块连接。
第二个端口是数据集端口。
下一步是将机器学习模块添加到工作区中。由于目标变量是连续的,因此您将构建一个回归模型。Azure 机器学习工作室中有许多可用的回归算法。您将选择并将线性回归模块拖到工作区中。
线性回归
多元线性回归是一种监督式机器学习算法,它假设独立变量与因变量具有线性关系。此外,假设输入变量具有高斯分布,这是随机变量具有正态分布所必需的。另一个假设是预测变量彼此之间没有高度相关性(称为多重共线性的问题)。
下一步是设置用于训练模型的工作区,如下所示。
在上面的输出中,您可以看到Train Model模块内部有一个红色圆圈,表示设置尚未完成。这是因为尚未指定目标变量。为此,请单击启动列选择器,然后将目标变量unemploy放入选定列框中,如下所示。
参数说明
下一步是指定算法的参数。此步骤是模型了解如何训练算法所必需的。首先,单击线性回归模块并在属性窗格下填写您选择的详细信息。
在“解决方法”窗格下选择“普通最小二乘法”选项。普通最小二乘法是线性回归中最常用的技术之一,它通过最小化残差平方和(实际值 - 预测值)来工作。第二个输入用于L2 正则化权重。这用于防止模型过度拟合,并且最好使用非零值。
下一步是单击“RUN”选项卡来运行实验,然后可视化训练后的模型。
完成上述步骤将产生以下输出,显示模型详细信息和特征权重。
评分测试数据
模型已经建立,下一步是对测试数据进行评分。此步骤是模型评估的先决条件。为此,请执行以下步骤。
将分数模型模块拖入工作区。
将Train Model的输出端口与Score Model模块的左输入端口连接起来。
将拆分数据模块的右侧输出端口连接到评分模型模块的右侧输入端口。请注意,这会将拆分数据模块中的测试数据与评分函数连接起来。
单击“RUN”并选择“Run selected”。您的工作区将如下所示。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~