第2章modeler概述啦啦啦.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Modeler自带的重要帮助资源 AlgorithmsGuide.pdf CLEF 开发人员指南.pdf CRISP-DM 1.0 指南.pdf Modeler Administration.pdf Server 和性能指南.pdf Solution Publisher 指南.pdf UsersGuide.pdf 建模节点.pdf 脚本编写与自动化.pdf 数据库内数据挖掘指南.pdf 应用程序指南.pdf 源、进程和输出节点.pdf Modeler自带的重要帮助资源 2.2 Modeler基本操作 Modeler主窗口 Modeler主窗口 数据流区域 数据流(stream)由一系列的节点构成,每个节点代表了对数据的某种处理,节点之间通过有方向的箭头连接。 选项板区 分为收藏夹、源、记录选项、字段选项、图形、建模、输出、导出八个栏 Modeler主窗口 管理器窗口 管理器窗口中共包含了“流”、“输出”、“模型”三个栏。 工程管理区 工程管理区含有两个选项栏,一个是“CRISP-DM”,一个是“类”。 数据流的基本操作 生成数据流的基本过程 向数据流区域增添新的节点; 将这些节点连接到数据流中; 设定数据节点或数据流的功能; 运行数据流。 数据流的基本操作 向数据流区域添节点 双击选项板区中待添加的节点; 左键按住待添加节点,将其拖入数据流区域内; 先选中选项板区中待添加的节点,然后将鼠标放入数据流区域,在鼠标变为十字形时单击数据流区域的任何空白处。 向数据流区域删节点 左键单击待删除的节点,按键盘上的delete键删除; 右键单击待删除的节点,在快捷菜单中选择delete。 数据流的基本操作 将节点连接到数据流中 双击节点 通过Alt键连接 手动连接 数据流的基本操作 绕过数据流中的节点 将节点插入已存在的连接中 数据流的基本操作 删除连接 选择待删除的连接,单击右键,从弹出的快捷菜单中选择“删除连接”; 选择待删除连接的节点,按F3键,删除了所有连接到该节点上的连接; 数据流的执行 选择菜单栏中的按钮, 数据流区域内的所有数据流将被执行; 先选择要输出的数据流,再选择菜单栏中的按钮,被选的数据流将被执行; 选择要执行的数据流中的输出节点,单击鼠标右键,在弹出的快捷菜单中选择“执行”选项,执行被选中的节点。 模型评估 将原始数据集分为固定的二部分:训练集、测试集 交叉验证 实际应用中常采用n-维交叉验证: 将数据随机分成不相交的n份,依次用第k份作为测试集,剩下的n-1份做训练集,可得到n个不同的错误率。最后用所有的数据建立模型,模型的错误率为n个错误率的平均。 Modeler评估图表节点(Evaluation)-图形节点 收益图( Gains) 提升图( Lift ) 响应图( Response ) 利润图( Profit ) 投资回报图 (ROI) 累积散点图:此分位数以下所有值的和。 问题背景(Marketing—流) 营销部门进行直邮销售:根据以往的活动,通常可以得到24%的响应。他们在数据库的数据表中储存了一份 10000位客户的名单。因此,根据经验响应率,他们预期有 10000* 24%,约2400位潜在客户会响应。 营销部门有两个选择: 随机选取客户作为目标 使用DM模型来锁定最有可能响应的客户-减少开支 二种结果: 如果公司随机选取客户,则根据经验响应率,他们预期只会收到响应数为:发出邮件个数*24%。 响应数随着邮寄客户数的扩大而均匀增加,但只有扩大到10000人的100%时,相应达到2400人的100%(所有的潜在客户)。 使用DM模型来锁定最有可能响应的 部分客户,性能较好的模型能找到的潜在客户会大于“发出邮件个数*24%” ,甚至找到所有的潜在客户(2400人)。 比较C5.0及Quest决策树的性能 累积收益图(Gains): (分位数中的匹配数量/全部匹配数量) × 100% 累积收益图的线从左至右的走势通常是从 0% 到 100%。 优秀模型的累积收益图将陡升至 100%,然后保持平直。 无法提供有用信息的模型将呈对角线状,即从左下角到右上角(选择了包含基线后将显示类似图表)。 样本按照置信度由大到小依次排列 累积提升图 (Lift): (分位数中的匹配/分位数中的记录)/(全部匹配/全部记录) 累积提升图的线从左至右的走势通常为:起始于大于 1.0 的值,并渐渐下降,直到接近 1.0。 对于优秀模型的累积提升图,其线开始于图表左侧大于 1.0 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向 1.0 的方向迅速下降。 如果模型不能提供任何信息,则其线在整个图形中将始终围绕在 1.0 左右

文档评论(0)

188****7657 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档