CRT_newschan决策树.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CRT_newschan决策树.doc

有线电视服务销售 实验背景 随着人类了信息时代。数据库中存储的数据急剧增大。世界上最大的数据仓库之一,美国零售商系统每天会产生2亿左右的交易数据;人类基因组数据库项目已经搜集了数以GB计的人类基因编码数据;大型天文望远镜每年会产生不少于10TB的数据,等等。大量的信息在给人们提供方便的同时也带来了一系列问题,由于信息量过大,超出人们掌握、理解信息的能力,因而给正确运用信息带来了困难。 数据挖掘和知识发现是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性能计算、数据可视化等均与数据挖掘相关。 近年来,与数据库的知识发现研究领域已经成为热点,其中关联规则数据挖掘算法尤为引人注目。确定那些愿意预订有线电视交互服务的用户 三、实验环境 计算机、数据挖掘软件clementine 11.1。 作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。 四、实验步骤 1、创建树 Demos 文件夹中添加指向 NewsChan.sav 的 SPSS 文件源节点。 添加类型节点。在类型节点中选择读取值。选择 NEWSCHAN 并将其类型设置为标志,将其方向设置为输出。其他所有字段用作预测变量。将 CRT ”节点连接到类型节点。在“模型”选项卡上,选择启动交互会话作为构建选项在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。 在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。将最小杂质改变值设置为 0.003。增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。 要指定停止标准,可在“专家”选项卡上单击停止。在“停止标准”对话框中选择使用绝对值。将最小绝对临界值更改为 25 和 10,然后单击确定 (6) 执行节点。此时将出现”交互树”窗口,在其中可以生成并编辑树。最初,仅显示根节点。统计显示训练数据中有 442 个记录。因为尚未分割树,因此所有的记录 (100%) 都落在此节点中。在整个示例中,有 215 个记录对预订的响应为是,其总响应率为 48.6%。使用树模型,我们可以尝试是否能够通过找到最有可能积极响应的子组来提高此匹配率。 在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:树生成树和修剪生成的树具有层和个终端节点 2、检查树 放大前几个节点,可以看到第一个节点是按年龄进行分割的,第二个节点是按收入进行分割的。查看节点 2,可以看到只要将样本限制在年龄超过 40.5 岁的用户,就可以将响应率增加到近 68% 对于年龄低于 40 岁的用户,响应率较之非常低,但在此响应率较低的树分支的节点 4 之下,显示出即使对于此组,也可以将其分割成若干个响应率提高了 34%(年龄低于 40 岁的用户的总响应率)的子组。 检查树的收益表。从收益指数百分比可看出每个节点上给定目标类别的比例与总体比例间的差异有多大。单击交互树窗口底部的收益选项卡检查收益。选择 1 作为目标类别以查看响应是的收益。 要查看提升图表,可单击工具栏上的分位数按钮并确保从下拉列表中选中十分位数。此操作可进一步在工具栏中激活“图表”按钮(因为只有在分位数视图中才可查看图表)。 单击图表按钮并从相邻的下拉列表中选择提升以查看提升图表。提升图表对表中指数 (%) 列中的值进行了绘制。此图表将每个增量中具有积极响应的记录的百分比与训练数据集中具有积极响应的记录的总百分比作了比较。 对于本示例,此提升图表显示出可以在响应率显著下降之前包括最多前 50 个百分点的记录。 生成模型和节点以便评分 根据当前树生成模型可使用此流生成模型,该模型可根据分配到节点的记录的积极响应率对这些记录进行评分此时将出现“生成新模型”对话框。在“生成新模型”对话框中,输入新模型的名称(可选),然后单击确定。该模型位于流工作区中。 流工作区中,将生成的 NEWSCHAN1 模型连接到类型节点。在生成的 NEWSCHAN1 模型中,单击设置选项卡,选择计算置信度和规则 ID,然后单击确定。 连接表节点并执行流 已执行的表中显示了可能接受有线电视服务预订的用户的记录。$R-NEWSCHAN 列显示了对这些记录的预测结果。如果某记录显示的值为 1,则可以预测该用户对预订的响应为是。 生成选择节点还可以生成选择节点,该节点包括所有

文档评论(0)

ziyouzizai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档