网站大量收购独家精品文档,联系QQ:2885784924

spss数据分析与挖掘实战案例精粹第五章.pptx

spss数据分析与挖掘实战案例精粹第五章.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss数据分析与挖掘实战案例精粹第五章

第五章 modeler操作入门;第五章 modeler操作入门;5.1.1Modeler界面;商业理解(business understanding)从商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划。 数据理解(data understanding)收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等。 数据准备(data preparation)涵盖了从原始粗糙数据到构建最终数据集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理(数据变量的选择和转换)等等。 建模(modeling)多种建模方法被加以选择和使用,通过优化模型将其参数将被校准为最为理想的值。 评估(evaluation)一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。 发布(deployment)将其发现的结果以及过程组织成为可读文本形式 ;1.数据流构建区;2.数据流、结果和模型管理区;3.数据挖掘项目管理区;4节点区;(1)起始节点 源节点:包含各数据源类型,通过该节点,可以读取不同类型的数据(spss,excel,text) (2)中间节点 ①记录节点:包含对记录进行处理的各种方法(选择、排序)。 ②字段选择:包含对字段进行处理的各种方法(定义类型)。 ;(3)终端节点 ①图形节点:提供了多种的图形功能,通过图形展示的方式进行数据探索或者对模型效果评估; ②建模节点:提供各种数据挖掘模型,当该节点运行后会生成 “模型节点”,而该节点就属于中间节点。 ③输出节点:提供数据表,交叉表,报告等,可以帮助我借助统计分析来进行适当的数据探索以及结果评估; ④导出节点:把数据结果导出到各种格式的文件进行保存,导出为excel文件; ⑤Statistics节点:调用statistics的功能。;数据量小时,单机版SPSS modeler 数据量大时,C/S架构运行;5.2.1 modeler基本操作;5.2.2 modeler的表达式;5.2.3modeler的操作技巧;(2)查看超节点 ①右击超节点并选择“扩展” ②工具栏中选择“放大” ③数据流管理区单击相关超节点;2.缓冲 若包含大量数据的数据流,每次从头执行会耗费大量的时间。缓冲,使数据流的执行不必每次都从头开始。 在选定节点上右击选择“缓冲” “启用”命令,会在节点的右上角出现一个标记 当第一次执行数据流时,数据流在完成该节点相应计算后,该标记会变绿, 表示数据结果已存在内存中,以后再执行数据流,将从该节点执行。;当关闭数据流,缓冲数据也会消失,如果希望以后使用缓冲数据,应该选择“缓冲” “保存缓冲”,使缓冲数据保存到硬盘上。 下次使用时选择“缓冲” “下载缓冲”即可。 ;3.数据流注解 4.参数设置 ①会话参数:可用于当前会话中使用的所有流。菜单栏【工具】--【设置会话参数】 ②流参数:在流脚本中或在流属性对话框中设置,可用于流中的所有节点。菜单栏【工具】--【流属性】--【参数】 ③超节点参数:适用于超节点的封装节点。【超节点】--【定义参数】 ;5.3.1数据整理案例;从数据库中把客户、订单和订单明细导入modeler中。 先建立与数据库ODBC连接,【控制面板】--【管理工具】--【数据源】里设置用户DSN,添加Northwind节点,文件指向northwind.mdb 从modeler的源中选入数据库节点,导入3张表。 ;5.3.2探索性数据分析案例;‘网络’节点显示具有互动性,且可以改变阈值设置(关联程度低高)、隐藏无关字段、修改布局和生成节点。 存在两种类型的网络图: 在“网络??中,显示所有选择的分类字段间的关系; 在”导向网络“图中,仅显示涉及具体目标字段的关系且需要设定结束字段且仅显示 true 标记;线值为可以选择以下定义: ①绝对值将根据带有成对值的记录数设置阈值。 ②总体百分比该成对值的记录占网络图形全部对值的记录的比例。 ③④较小字段/值的百分比和较大字段/值的百分比说明要使用较小或较大字段/值来估计百分比。;5.3.3建立模型、模型检验与模型应用案例 ;输出类型:在此指定模型输出为决策树或规则集。 组符号:选中则组合属性值输出;5.4案例分析;5.4.2数据说明;收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等 ;5.4.5数据准备;5.4.6模型建立和评估;神经网络;Logistic;2.引入医生的业务经验改进模型;5.4.7模型发布;5.5 进一步学习

文档评论(0)

561190791 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档