在 Azure 机器学习工作室中估计相关系数
介绍
许多机器学习算法要求连续变量彼此不相关,这种现象称为多重共线性。这是因为多重共线性会对模型训练过程产生不利影响。估计数值变量之间的关系是检测和处理多重共线性的常用步骤。对于数值特征,查找相关系数是一种常见的统计技术,用于估计变量之间是否存在线性关系。本指南将演示如何在 Azure 机器学习工作室中计算皮尔逊线性相关系数。
数据
在本指南中,您将使用 Azure 机器学习工作室中提供的 Pima Indian 糖尿病数据集。该数据最初来自美国国家糖尿病、消化和肾脏疾病研究所。该数据集由多个变量组成,例如患者的怀孕次数、BMI、胰岛素水平、年龄等。您可以在此处查看这些数据。
下一步是加载和探索数据。
加载数据
登录 Azure 机器学习工作室帐户后,单击左侧栏上列出的EXPERIMENTS选项,然后单击NEW按钮。接下来,单击空白实验并将工作区命名为Correlation factor。将显示以下屏幕。
在“已保存的数据集”选项下,将“Pima Indians Diabetes”数据集拖到工作区中。右键单击并选择“可视化”选项以浏览数据。
数据包含 768 行和 9 列。选择不同的变量以检查其基本统计数据。例如,下图显示了体重指数变量的详细信息。
选择列
多重共线性(即是否存在线性关系)仅针对数值变量进行测试。相关矩阵是一种识别数值变量之间多重共线性的技术。要在数据中选择所需的变量,请搜索并拖动“数据集中的选择列”模块。
下一步是单击启动列选择器,并将要测试多重共线性的数值变量放入选定的列框中,如下所示。
运行实验并可视化结果输出。
下面的输出显示结果数据有 768 行和 4 个数值变量。
您将计算这四个变量的线性相关系数。
相关矩阵
Azure 机器学习工作室使用计算线性相关模块来计算和创建相关矩阵。此模块用于为每对可能的数值变量计算一组皮尔逊相关系数。该系数表示感兴趣的变量之间的线性关系的方向和程度。
搜索并将模块拖入工作区,然后运行实验。
模块运行完成后,右键单击并选择“可视化”。
完成上述步骤将生成以下相关矩阵作为输出。
解释相关矩阵
输出显示了四个数值变量之间的相关性:舒张压、三头肌皮褶厚度、身体质量指数和年龄。
舒张压与其自身之间的线性相关系数为 1,这是显而易见的,但从建模的角度来看,这没有任何意义。
舒张压与肱三头肌皮褶厚度之间的相关系数为 0.207371。这不是一个显著的相关性,因此排除了这两个变量之间的多重共线性。
同样,舒张压与体重指数和年龄的线性相关系数分别为0.281805和0.239528。
您可以类似地解释这四个变量之间的相关系数。相关性显著的经验法则是,系数的绝对值应大于 0.6。您可以得出结论,这四个变量彼此不相关,因为线性相关系数不显著。
结论
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~