- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss数据分析与挖掘实战案例精粹第五章
第五章 modeler操作入门;第五章 modeler操作入门;5.1.1Modeler界面;商业理解(business understanding)从商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划。
数据理解(data understanding)收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等。
数据准备(data preparation)涵盖了从原始粗糙数据到构建最终数据集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理(数据变量的选择和转换)等等。
建模(modeling)多种建模方法被加以选择和使用,通过优化模型将其参数将被校准为最为理想的值。
评估(evaluation)一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。
发布(deployment)将其发现的结果以及过程组织成为可读文本形式
;1.数据流构建区;2.数据流、结果和模型管理区;3.数据挖掘项目管理区;4节点区;(1)起始节点
源节点:包含各数据源类型,通过该节点,可以读取不同类型的数据(spss,excel,text)
(2)中间节点
①记录节点:包含对记录进行处理的各种方法(选择、排序)。
②字段选择:包含对字段进行处理的各种方法(定义类型)。
;(3)终端节点
①图形节点:提供了多种的图形功能,通过图形展示的方式进行数据探索或者对模型效果评估;
②建模节点:提供各种数据挖掘模型,当该节点运行后会生成 “模型节点”,而该节点就属于中间节点。
③输出节点:提供数据表,交叉表,报告等,可以帮助我借助统计分析来进行适当的数据探索以及结果评估;
④导出节点:把数据结果导出到各种格式的文件进行保存,导出为excel文件;
⑤Statistics节点:调用statistics的功能。;数据量小时,单机版SPSS modeler
数据量大时,C/S架构运行;5.2.1 modeler基本操作;5.2.2 modeler的表达式;5.2.3modeler的操作技巧;(2)查看超节点
①右击超节点并选择“扩展”
②工具栏中选择“放大”
③数据流管理区单击相关超节点;2.缓冲
若包含大量数据的数据流,每次从头执行会耗费大量的时间。缓冲,使数据流的执行不必每次都从头开始。
在选定节点上右击选择“缓冲” “启用”命令,会在节点的右上角出现一个标记
当第一次执行数据流时,数据流在完成该节点相应计算后,该标记会变绿, 表示数据结果已存在内存中,以后再执行数据流,将从该节点执行。;当关闭数据流,缓冲数据也会消失,如果希望以后使用缓冲数据,应该选择“缓冲” “保存缓冲”,使缓冲数据保存到硬盘上。
下次使用时选择“缓冲” “下载缓冲”即可。
;3.数据流注解
4.参数设置
①会话参数:可用于当前会话中使用的所有流。菜单栏【工具】--【设置会话参数】
②流参数:在流脚本中或在流属性对话框中设置,可用于流中的所有节点。菜单栏【工具】--【流属性】--【参数】
③超节点参数:适用于超节点的封装节点。【超节点】--【定义参数】
;5.3.1数据整理案例;从数据库中把客户、订单和订单明细导入modeler中。
先建立与数据库ODBC连接,【控制面板】--【管理工具】--【数据源】里设置用户DSN,添加Northwind节点,文件指向northwind.mdb
从modeler的源中选入数据库节点,导入3张表。
;5.3.2探索性数据分析案例;‘网络’节点显示具有互动性,且可以改变阈值设置(关联程度低高)、隐藏无关字段、修改布局和生成节点。
存在两种类型的网络图:
在“网络??中,显示所有选择的分类字段间的关系;
在”导向网络“图中,仅显示涉及具体目标字段的关系且需要设定结束字段且仅显示 true 标记;线值为可以选择以下定义:①绝对值将根据带有成对值的记录数设置阈值。
②总体百分比该成对值的记录占网络图形全部对值的记录的比例。
③④较小字段/值的百分比和较大字段/值的百分比说明要使用较小或较大字段/值来估计百分比。;5.3.3建立模型、模型检验与模型应用案例 ;输出类型:在此指定模型输出为决策树或规则集。
组符号:选中则组合属性值输出;5.4案例分析;5.4.2数据说明;收集原始数据、探索数据特征、检验数据质量(完整性、正确性)和缺失值的填补等
;5.4.5数据准备;5.4.6模型建立和评估;神经网络;Logistic;2.引入医生的业务经验改进模型;5.4.7模型发布;5.5 进一步学习
您可能关注的文档
- 通信的种类和发展001.ppt
- s版《阳台上的小鸟》.ppt
- 三角形的面积ppt(刘鸿雁).ppt
- 杀手·蝴蝶·梦电影简介.ppt
- pcb设计基础(附有设计步骤).pdf
- 历史:1.1《中国早期政治制度的特点》人民版必修一).ppt
- 人教版五年级语文上册-《小桥流水人家》课件-公开课-优质课.ppt
- 三毛的万水千山.ppt
- 国内还未开荒的7个「人间仙境」.doc
- 故障电弧.ppt
- 文化产业发展引导资金申请2025年行业前景与资金申报机会报告.docx
- 金融科技驱动,2025年高净值客户财富管理需求演变与市场布局分析.docx
- 校园安全守护者:2025年智慧安防系统解决方案创新案例与深度研究.docx
- 基于大数据分析的2025年城市智能停车系统车场智能数据分析报告.docx
- 基于边缘计算的2025年智慧校园教学资源平台性能优化报告.docx
- 食品加工行业智能化升级下的智能工厂运营管理研究报告.docx
- 医药物流行业合规运营与信息化建设政策导向与实践案例报告.docx
- 职业培训学校2025年学生职业生涯规划与就业指导服务报告.docx
- 2025年化工新材料在新能源光伏背板材料中的应用与发展研究报告.docx
- 2025年商业银行数字化转型与金融科技生态构建成效评估报告.docx
文档评论(0)