SAS 机器学习入门
介绍
SAS 是 SAS 研究所开发的企业级统计软件套件。它用于数据管理、高级分析和预测分析,长期以来一直是领先的分析平台之一。
SAS 软件包含设计、开发、训练和评估机器学习模型所需的所有必要功能。在本指南中,您将了解如何开始使用 SAS 进行机器学习。
SAS Studio 环境
要创建免费订阅,请访问此链接。创建 SAS 个人资料后,它将引导您进入下面显示的登录页面。
单击“应用程序”下的“SAS Studio”选项,将打开“SAS Studio”环境。
您现在可以使用 SAS 进行机器学习了。
加载数据
在上图中,左侧栏列出了 SAS Studio 的许多功能,例如服务器文件和文件夹、任务和实用程序、代码片段等。
要从本地系统导入数据,请单击服务器文件和文件夹下的上传符号。
上述选择将打开一个选项卡,用于从本地系统导入数据。完成此步骤后,数据将显示在窗格中。
现在,SAS Studio 中已有数据,下一步是将其导入CODE窗格。此操作通过以下代码完成,该代码使用PROC IMPORT语句将数据导入编码环境。
PROC是一组 SAS 过程语句,用于识别和分析 SAS 中的数据。您还可以使用PROC执行图形和变量操作。
下面的第一行代码告诉 SAS 要导入的文件存储在何处以及文件名是什么。DBMS选项表示您正在导入 CSV 文件。OUT命令命名输出数据集以供进一步使用。
最后,REPLACE选项通知 SAS,如果需要,可以覆盖创建的数据集,以便将来重新运行完全相同的PROC IMPORT代码。
一旦执行代码,它将在新的OUTPUT DATA选项卡中生成显示,如下所示。
理解数据
对于此示例,我导入了一个虚构的贷款申请人数据集,其中包含 600 个观测值和 7 个变量,如下所述:
Is_graduate:申请人是否为毕业生(“是”)或不是(“否”)
收入:申请人的年收入(美元)
Loan_amount:提交申请的贷款金额(美元)
Credit_score:申请人的信用评分是否令人满意。
Approval_status:贷款申请是否已获批准(“1”)或未获批准(“2”)
年龄:申请人的年龄(岁)
目的:申请贷款的目的
探索功能
您可以在 SAS 中探索数值和分类变量。要计算定量变量的汇总统计数据,可以使用proc means命令。如下面的第 10 至 12 行所示。run命令告诉 SAS 您想要执行指定的代码行。
运行上述命令以生成以下输出。
上面的输出显示了变量Income和Loan_amount的基本统计数据。有 600 个观测值,相当于数据集中的总记录,这表明这两个变量没有缺失值。此外,申请人的平均收入为 65,861 美元,而申请的平均贷款金额为 145,511 美元。
您还可以使用proc freq命令探索分类变量。第 14 行至第 16 行显示的代码查看了两个重要分类变量(approval_status和Credit_score )的频率交叉表。
上述命令将生成以下输出。
上述输出显示了批准状态和信用评分标签的频率分布。交叉表显示了这些变量之间的交集。对于已获批准的贷款申请人(由批准状态标签 1 表示),信用评分在 90.73% 的情况下是令人满意的。这表明信用评分是贷款批准的有力预测指标。
建立模型
现在,您将学习如何使用SAS Studio 中的HPSPLIT过程构建决策树模型。HPSPLIT过程提供用于构建基于树的分类和回归统计模型的命令。两者都被称为决策树,因为该模型以一系列 if-then 语句表示。
从下面的代码开始。第一行打开ods 图形。ODS 代表输出交付系统,管理输出及其显示。第二行使用proc hpsplit命令并设置随机种子以实现可重复性。接下来,您将使用class语句指定数据的分类变量。
下一步是编写模型方程,该方程在下面的第 22 至 25 行中完成。模型构建从model命令开始,该命令包含目标变量、approval_status以及用等号分隔的所有其他变量。
增长和修剪语句控制构建决策树的两个基本方面——增长和修剪。
在下面的代码中,使用grow语句指定将内部节点拆分为其他子节点或终端节点的标准。随着树的生长,这些节点也称为父节点和子节点。
HPSPLIT程序提供了不同类型的标准,用于生成完整的决策树,以最小化节点的杂质或错误。其中一个标准是熵,它在代码中指定。
代码中的另一个重要命令是prune costcomplexity。决策树经常过度拟合训练数据,导致验证或测试数据出现泛化错误。解决方案是使用prune语句找到较小的子树。最常见的修剪方法是通过成本复杂度,它在树大小和错误率之间进行权衡,以帮助防止过度拟合。最后一步是在指定模型构建选择后运行该命令。
执行上述运行命令将在 SAS Studio 的“结果”选项卡中显示输出。第一个主要输出打印模型过程的摘要。它解释了分割标准、修剪前后的叶子数量等参数以及其他详细信息。
另一个主要输出是用于评估模型性能的混淆矩阵。
混淆矩阵和上表显示,该模型的灵敏度、特异性和准确度分别为 90.7%、98.4% 和 93.2%。这些数字令人印象深刻,表明该模型表现良好。
结论
在本指南中,您开始使用流行且功能强大的统计软件 SAS。您学习了如何创建免费帐户并将数据加载到工作区。您还学习了如何探索、构建和评估分类算法。这将帮助您开始使用 SAS 构建机器学习模型。
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~