- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 第 24 章 SPSS Clementine 典型案例分析 ? 本章包括: ? 市场购物篮分析 ? 利用决策树模型挖掘商业信息 ? 利用神经网络对数据进行欺诈探测 24.1 市场购物篮分析 本节的例子采用 Clementine 系统自带的 数据 集 BASKETS1n 。该数据集是超市的“购物 篮” (一次购物内容的集合)数据和购买者个人 的背景数据,目标是发现购买物品之间的关 联分析。 24.1.1 定义数据源 24.1.2 理解数据 在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分 布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决 定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解 数据的过程。 24.1.3 准备数据 在这 18 个字段中,有一些对于挖掘知识来说 是没有用的,如 cardid 等,这时我们就可以 把这些暂时没有用到的字段剔除出挖掘过程。 这样可以节约挖掘时间和效率。 24.1.4 建模 对字段设置完毕之后,下一步就是选择挖掘 所需要的模型,在这里我们会选择使用三 种不同的模型来挖掘该数据集。 1. “Apriori” 模型节点 2.GRI 模型 3.“ 网络”节点 24.2 利用决策树模型挖掘商业信息 过程如下 : Step1 :添加一个“变项文件”节点。 Step2: 加入一个“导出”节点。 Step3: 对“导出”节点进行设置。 Step4: 加入“ Healthfood” 字段之后,在“导出”节 点后再加入一个“类型”节点,用来选择哪些字 段用来进行数据挖掘。根据挖掘的目标,可以设 置个人信息为“输入”,“ Healthfood” 设置为 “输出” Step5: 加入 “ C5.0” 节点。 Step6: 点选“执行( E )” Step7: 从“查看器”中查看该结果 输出类型除了选用“决策树”之外,还可以选择“规则集” 来显示结果。用“规则集”表示的结果很多时候比“决策 树”更加直观、易懂。。 一般生成的决策树都是经过剪枝的。下面看 看剪枝程度的高低对挖掘结果的影响。选中 “模式”中的“专家”,把“修剪严重性” 的值改为“ 0” ,这意味着在挖掘过程中,进 行的剪枝程度将很小。模型名称改为 “ nocut” 。 选择“执行( E )”。在右面管理器窗口中选中“模型( S )”, 在“ nocut” 上右击,选择“浏览( B )”,查看生成模型结 果 。 利用剪枝程度较高的决策树、剪枝程度低的决 策树、规则集生成的结果,可以通过 Clementine 系统提供的很多模型来进行精度 测试。 在这儿选用“分析”节点。生成的结果显示剪 枝程度高的模型正确率为 93.8 % 。同样的原 理,测试“ nocut” 。剪枝程度低的精度为 94.7 %。 24.3 利用神经网络对数据进行欺诈探测 背景是关于农业发展贷款的申请。使用虚构 的数据来说明如何使用神经网络来检测偏离 常态的行为,重点为标识那些异常和需要更 深一步调查的记录。要解决的问题是找出那 些就农场类型和大小来说申请贷款过多的农 场主 。 24.3.1 定义数据源 使用一个“变项文件”节点连接到数据集 grantfraudN.db 。在“变项文件”节点之后 增加一个“类型”节点到数据流中。 24.3.2 理解数据 ? 在建模之前,需要了解数据集中都有哪些 字段,这些字段如何分布,它们之间是否 隐含着某种相关性等信息。只有了解这些 信息后才能决定使用哪些字段,应用何种 挖掘算法和算法参数。这个过程就是一个 理解数据的过程。 24.3.3 准备数据 ? 首先考虑数据集中可能存在的欺诈类型。 ? 在该数据流中连接一个“条形图”节点并选 定字段名为“ name” 的字段 。 ? 选中“ name” 字段之后,点击“执行” 。 ? 在数据流区域中添加一个“选择”节点,对 该节点进行设置。 ? 以农场大小、主要作物类型、土壤质量等
文档评论(0)