- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CandRT newschan决策树
有线电视服务销售
实验背景
随着人类社会进入了信息时代。数据库中存储的数据急剧增大。世界上最大的数据仓库之一,美国零售商系统沃尔玛每天会产生2亿左右的交易数据;人类基因组数据库项目已经搜集了数以GB计的人类基因编码数据;大型天文望远镜每年会产生不少于10TB的数据,等等。大量的信息在给人们提供方便的同时也带来了一系列问题,由于信息量过大,超出人们掌握、理解信息的能力,因而给正确运用信息带来了困难。
数据挖掘和知识发现是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性能计算、数据可视化等均与数据挖掘相关。
近年来,与数据库的知识发现研究领域已经成为热点,其中关联规则数据挖掘算法尤为引人注目。各个大学也相当重视,纷纷开设了相关课程,帮助学生更好的学习。当然,数据挖掘在很多领域对我们的学习都有帮助,尤其是我们经济管理学院的学生。
本实验就是使用数据挖掘软件,确定那些愿意预订有线电视交互服务的用户。
实验目的
分类和回归树节点 (CRT) 是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。在本示例中,将 CRT 应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值 8 表示 8 个或更多)。
三、实验环境
计算机、数据挖掘软件clementine 11.1。
作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
四、实验步骤
1、创建树
(1) 新建一个流,并新建一个SPSS文件,从Demos 文件夹中添加指向 NewsChan.sav 的 SPSS 文件源节点。
(2) 添加“类型”节点。在“类型”节点中选择“读取值”将字段实例化。选择 NEWSCHAN 并将其类型设置为标志,将其方向设置为输出。其他所有字段用作预测变量设置为输入。
(3) 将 “CRT ”节点连接到“类型”节点。在“模型”选项卡上,选择启动交互会话作为构建选项,用于在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。
(4) 在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。将最小杂质改变值设置为 0.003。增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。
(5) 要指定停止标准,可在“专家”选项卡上单击停止。在“停止标准”对话框中选择使用绝对值。将最小绝对临界值更改为 25 和 10,然后单击确定。
(6) 执行节点。此时将出现”交互树”窗口,在其中可以生成并编辑树。最初,仅显示根节点。统计显示训练数据中有 442 个记录。因为尚未分割树,因此所有的记录 (100%) 都落在此节点中。在整个示例中,有 215 个记录对预订的响应为是,其总响应率为 48.6%。使用树模型,我们可以尝试是否能够通过找到最有可能做出积极响应的子组来提高此匹配率。
(7) 在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:“树”---“生成树和修剪”,生成的树具有五层和五个终端节点。
2、检查树
(1) 放大前几个节点,可以看到第一个节点是按年龄进行分割的,第二个节点是按收入进行分割的。查看节点 2,可以看到只要将样本限制在年龄超过 40.5 岁的用户,就可以将响应率增加到近 68%,
对于年龄低于 40 岁的用户,响应率较之非常低,但在此响应率较低的树分支的节点 4 之下,显示出即使对于此组,也可以将其分割成若干个响应率提高了 34%(年龄低于 40 岁的用户的总响应率)的子组。
(2)检查树的收益表。从收益指数百分比可看出每个节点上给定目标类别的比例与总体比例间的差异有多大。单击交互树窗口底部的收益选项卡检查收益。选择 1 作为目标类别以查看响应是的收益。
(3) 要查看提升图表,可单击工具栏上的分位数按钮并确保从下拉列表中选中十分位数。此操作可进一步在工具栏中激活“图表”按钮(因为只有在分位数视图中才可查看图表)。
(4) 单击图表按钮并从相邻的下拉列表中选择提升以查看提升图表。提升图表对表中指数 (%) 列中的值进行了绘制。此图表将每个增量中具有积极响应的记录的百分比与训练数据集中具有积极响应的记录的总百分比作了比较。
(5) 对于本
文档评论(0)