- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SPSS Modeler 的数据理解和数据处理
本文详细介绍了如何使用 IBM SPSS Modeler 来进行数据挖掘工作中的数据
理解工作,其中主要包括对缺失值的理解和处理,对异常值的理解和处理,以
及如何利用 Modeler 来观察和分析数据项之间的内在关系
前言
在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据
挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域
有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有
经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以
理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳
定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和
模型的选择提供重要的信息
首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工
作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用
Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在
关系。
CRISP-DM 模型
数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须
遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种
模型。
图 1. CRISP-DM 模型图
CRISP-DM,即跨行业数据挖掘标准流程,这是一种业界认可的用于指导
数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每
个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,
CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的
数据挖掘生命周期中的六个阶段。
商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标
数据理解:深入了解可用于挖掘的数据
数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等
操作
建立模型:根据前期准备的数据选取合适的模型
模型评估:使用在商业理解阶段设立的业务成功标准对模型进
行评估
结果部署:使用挖掘后的结果提升业务的过程
下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习
如何利用 Modeler 的强大功能来进行数据理解。
商业理解:
现状:
某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品
地处二楼,很多顾客还不知道,营业额没有达到预期。
商业目标:
经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优
惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力
的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消
费。
活动计划:
首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员
记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品
且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
验证条件:
产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接
受优惠券并且表示会来消费的顾客比例高于 70%.
数据理解
经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分
析:
1.会员基本信息:会员申请会员卡时登记的信息,其中包含了
会员年龄,职业,学历,电话,工作,收入,住址等信息。
2. 消费信息:会员消费的明细记录。
了解了现有数据后,小王发现有以下问题:
1.会员基本信息是会员提供的,里边有很多值是缺失的,有的
看起来是错误的。
2. 而消费信息由于是每次消费后电脑生成,信息是完整的,但
是信息却很庞杂,不利于分析。
3. 可用的数据项非常多,到底用哪些数据项来进行数据预测
呢?
这几个问题都是数据理解需要解决的问题,下边我们就来看一下如何利用
Modeler 来帮助我们进行数据理解:
使用 Modeler 进行缺失值分析
什么是缺失值?
缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据
挖掘中,都要遇到缺失值的问
您可能关注的文档
- 安凯AK3918E&AK3916E芯片产品和方案介绍.pdf
- 第八章 跨国经营风险管理及跨国税务筹划.ppt
- 地铁上盖商业及地铁车站结构衔接方案设计及思考.pdf
- 高中数学方差及标准差.ppt
- Ti掺杂对正极材料LiNi_1__省略_3_O_2结构与电化学性能的影响_肖新颜.pdf
- 产品形态设计——对比及调和.ppt
- 贵州茶业发展的现状、优势及对策20375.pdf
- 电磁波及信息时代课件.ppt
- BPSK的调制及解调.ppt
- 初中英语介词用法总结和练习.ppt
- 江西省南昌部分学校2025-2026学年高一上学期期中考试英语试卷(含答案,无听力音频有听力原文).docx
- 甘肃省白银市靖远县2026届高三上学期期中联考语文试题(含答案).docx
- 四川省内江市威远县凤翔中学2025-2026学年七年级上学期期中考试地理试题(含答案).docx
- 江苏省徐州市2025-2026学年高二上学期期中考试语文试题(含答案).docx
- 长沙市岳麓实验中学高三期中考试地理-教师用卷.docx
- 长沙市岳麓实验中学高三期中考试地理-学生用卷.docx
- 北京市第五十七中学2025-2026学年高一年级上学期期中考试英语试卷.docx
- 福建省莆田第八中学2024-2025学年高一上学期期中考试英语试题(含答案).docx
- 陕西省榆林市定边县2025-2026学年八年级上学期期中学业水平测试生物试题(含答案).docx
- 河北省唐山市迁安市2025-2026学年高二上学期期中考试语文试卷.docx
最近下载
- 深信服PT1超融合hcl题库.docx VIP
- 混凝土搅拌输送车岗位安全操作规程与混凝土搅拌运送汽车安全管理制度.docx VIP
- 物理知识点初二.doc VIP
- 物理知识点初二下册.docx VIP
- 燃烧学 第3版 第4章 着火理论.pptx VIP
- 18R409 管道穿墙、屋面防水套管48.pdf VIP
- 深圳市非承重墙体与饰面工程施工及验收标准SJG 14-2018.pdf
- PEMS相关模板(可用性确认计划或可用性总结性测试计划、可用性确认报告或可用性总结性测试报告).pdf VIP
- 全国中学生物理竞赛预赛(高二组)交变电流有效值计算考核试卷.doc VIP
- 国家开放大学《美学原理》形考作业5参考答案.doc VIP
原创力文档


文档评论(0)