用 IBM SPSS Modeler 建立线性回归预测模型.docxVIP

下载本文档

227
0
约 87页
2017-10-10 发布于湖北
举报
版权申诉

用 IBM SPSS Modeler 建立线性回归预测模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

营销研究用IBMSPSSModeler建立线性回归预测模型

用 IBM SPSS Modeler 建立线性回归预测模型Modeler 线性回归模型示例线性回归模型是一种常用的统计学模型。IBM SPSS Modeler 是一个强大的数据挖掘分析工具，本文将介绍如何用它进行线性回归预测模型的建立和使用。在本文中，将通过建立一个理赔欺诈检测模型的实例来展示如何利用 IBM SPSS Modeler 建立线性回归预测模型以及如何解释及应用该模型。1?评论：廖志刚, 软件工程师, IBM陈刚, 软件工程师, IBM杨家飞, 软件工程师, IBM2011 年 10 月 27 日内容简介回归分析（Regression Analysis）是一种统计学上对数据进行分析的方法，主要是希望探讨数据之间是否有一种特定关系。线性回归分析是最常见的一种回归分析，它用线性函数来对因变量及自变量进行建模（自变量和因变量都必须是连续型变量），这种方式产生的模型称为线性模型。线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点，在实践中应用最为广泛，也是建立预测模型的重要手段之一。IBM SPSS Modeler 是一组数据挖掘工具，通过这些工具可以采用商业技术快速建立预测性模型，并将其应用于商业活动，从而改进决策过程。在后面的文章中，将通过一个理赔欺诈检测的实际商业应用来介绍如何用 IBM SPSS Modeler 建立、分析及应用线性回归分析模型。用线性回归建立理赔欺诈检测模型在本例中，用于建立模型的数据存放在 InsClaim.dat 中，该文件是一个 CSV 格式的数据文件，存储了某医院以往医疗保险理赔的历史记录。该文件共有 293 条记录，每条记录有 4 个字段，分别是 ASG（疾病严重程度）、AGE（年龄）、LOS（住院天数）和 CLAIM（索赔数额）。图 1 显示了该数据的部分内容。图 1. 历史理赔数据文件任务与计划基于已有的数据，我们的任务主要有如下内容：建立理赔金额预测模型，该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。假设模型匹配良好，分析那些与预测误差较大的病人资料。通过模型来进行索赔欺诈预测。根据经验及对数据进行的初步分析（这个数据初步分析可以通过 IBM SPSS Modeler 的功能实现，此处不是重点，故不做深入介绍），可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系，因此我们将首先选用线性回归模型进行建模，因此可以得到下面这样一个初步计划：应用线性回归分析来建立模型。如果模型匹配度不佳，则可能应用更加复杂的模型，例如神经网络、规则推导等。基于上面的分析，我们容易得到目标模型的因变量为 CLAIM，自变量为 ASG、AGE 和 LOS。在建立模型之前，我们可以对该模型进行一些猜测，以下是根据经验能想到的一些假设：随着住院天数的增加，索赔金额增加随着疾病严重程度的增加，索赔金额增加随着年龄的增加，索赔金额增加在建立好模型后，我们会根据模型来验证或推翻这些假设。用 IBM SPSS Modeler 创建 stream 文件根据任务要求，我们在 IBM SPSS Modeler 中建立如图 2 所示的 stream 文件。在该 stream 中，InsClaim.dat 作为数据源节点，它通过一个类型节点（type）进行数据处理后输入到模型节点（CLAIM），在本例中，输出节点（table）作为一个测试节点，可以用于查看类型节点处理后产生的数据。图 2. 理赔预测模型 stream 示例图设置类型（type）节点从前面的分析可见，CLAIM 是因变量，在类型节点中须作为目标变量（Target），而其余三个字段（ASG、AGE 和 LOS）则是自变量，在类型节点中须设置为输入变量（Input）。需要注意的是，在线性回归分析模型中，要求所有变量（包括自变量和因变量）都是连续类型。如果数据中有非数字类型，比如 Category 或者 Flag，则需要预先转换为数字型。图 3 显示了类型节点设置的具体情况。图 3. 类型节点设置图模型节点设置在设置好类型节点后，我们可以双击 CLAIM 节点，对模型节点进行设置。首先设置 Model 标签页中的选项。从图 4 可以看到设置的具体信息，Model Name 有自动和定制两种类型，在自动方式下，模型名称自动设置为目标变量的名字（CLAIM）。本模型的输入信息并没有分组，因此 Use partitioned data 和 Build model for each split 的选择与否并无关系。Method 选项将选择输入字段的选择方式，由于本例中的输入字段较少，可以使用默认的 Enter 模式。在字段较多的情况下，可以选择 StepWise、Forward 和 Backward 中的一种，它们会采用不同的统计学方式对