第2章modeler概述啦啦啦.pptVIP

下载本文档

37
0
约6.01千字
约 48页
2021-07-13 发布于广东
举报
版权申诉

第2章modeler概述啦啦啦.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Modeler自带的重要帮助资源 AlgorithmsGuide.pdf CLEF 开发人员指南.pdf CRISP-DM 1.0 指南.pdf Modeler Administration.pdf Server 和性能指南.pdf Solution Publisher 指南.pdf UsersGuide.pdf 建模节点.pdf 脚本编写与自动化.pdf 数据库内数据挖掘指南.pdf 应用程序指南.pdf 源、进程和输出节点.pdf Modeler自带的重要帮助资源 2.2 Modeler基本操作 Modeler主窗口 Modeler主窗口数据流区域数据流（stream）由一系列的节点构成，每个节点代表了对数据的某种处理，节点之间通过有方向的箭头连接。选项板区分为收藏夹、源、记录选项、字段选项、图形、建模、输出、导出八个栏 Modeler主窗口管理器窗口管理器窗口中共包含了“流”、“输出”、“模型”三个栏。工程管理区工程管理区含有两个选项栏，一个是“CRISP-DM”，一个是“类”。数据流的基本操作生成数据流的基本过程向数据流区域增添新的节点；将这些节点连接到数据流中；设定数据节点或数据流的功能；运行数据流。数据流的基本操作向数据流区域添节点双击选项板区中待添加的节点；左键按住待添加节点，将其拖入数据流区域内；先选中选项板区中待添加的节点，然后将鼠标放入数据流区域，在鼠标变为十字形时单击数据流区域的任何空白处。向数据流区域删节点左键单击待删除的节点，按键盘上的delete键删除；右键单击待删除的节点，在快捷菜单中选择delete。数据流的基本操作将节点连接到数据流中双击节点通过Alt键连接手动连接数据流的基本操作绕过数据流中的节点将节点插入已存在的连接中数据流的基本操作删除连接选择待删除的连接，单击右键，从弹出的快捷菜单中选择“删除连接”；选择待删除连接的节点，按F3键，删除了所有连接到该节点上的连接；数据流的执行选择菜单栏中的按钮，数据流区域内的所有数据流将被执行；先选择要输出的数据流，再选择菜单栏中的按钮，被选的数据流将被执行；选择要执行的数据流中的输出节点，单击鼠标右键，在弹出的快捷菜单中选择“执行”选项，执行被选中的节点。模型评估将原始数据集分为固定的二部分：训练集、测试集交叉验证实际应用中常采用n-维交叉验证：将数据随机分成不相交的n份，依次用第k份作为测试集，剩下的n-1份做训练集，可得到n个不同的错误率。最后用所有的数据建立模型，模型的错误率为n个错误率的平均。 Modeler评估图表节点（Evaluation）-图形节点收益图（ Gains）提升图（ Lift ）响应图（ Response ）利润图（ Profit ）投资回报图 (ROI) 累积散点图：此分位数以下所有值的和。问题背景（Marketing—流）营销部门进行直邮销售：根据以往的活动，通常可以得到24%的响应。他们在数据库的数据表中储存了一份 10000位客户的名单。因此，根据经验响应率，他们预期有 10000* 24%，约2400位潜在客户会响应。营销部门有两个选择：随机选取客户作为目标使用DM模型来锁定最有可能响应的客户-减少开支二种结果：如果公司随机选取客户，则根据经验响应率，他们预期只会收到响应数为：发出邮件个数*24%。响应数随着邮寄客户数的扩大而均匀增加，但只有扩大到10000人的100%时，相应达到2400人的100%（所有的潜在客户）。使用DM模型来锁定最有可能响应的部分客户，性能较好的模型能找到的潜在客户会大于“发出邮件个数*24%” ，甚至找到所有的潜在客户(2400人)。比较C5.0及Quest决策树的性能累积收益图（Gains)：（分位数中的匹配数量/全部匹配数量） × 100% 累积收益图的线从左至右的走势通常是从 0% 到 100%。优秀模型的累积收益图将陡升至 100%，然后保持平直。无法提供有用信息的模型将呈对角线状，即从左下角到右上角（选择了包含基线后将显示类似图表）。样本按照置信度由大到小依次排列累积提升图（Lift）：（分位数中的匹配/分位数中的记录）/（全部匹配/全部记录）累积提升图的线从左至右的走势通常为：起始于大于 1.0 的值，并渐渐下降，直到接近 1.0。对于优秀模型的累积提升图，其线开始于图表左侧大于 1.0 的值，且在向右移动的过程中，始终保持在较高的水平；然后，在图表右侧，向 1.0 的方向迅速下降。如果模型不能提供任何信息，则其线在整个图形中将始终围绕在 1.0 左右