- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘与商务智能实
验》
时间:2021.02.07
命题人:欧阳物
实验报告
实验题目:数据挖掘的基本数据分析
姓名:王俊
学号:201430850164
指导教师:张大斌
实验时间:201611.10
2016年月10日
实验题纲:
一、 实验目的
熟悉基本数据分析的処理流程。
进一步熟练掌握拍SPSSModeler工具的操作。
二、 实验内容
内容一:数据的质量探索
步骤1建立数据流
1)在源中通过拖入“Statistics文件节点读入
Telephone.sav 数据 °
建立〃类型〃节点,并说明各个变量角色。这里 指定流失〃为目标变量。
选择〃输出〃选项卡中〃数据审核〃节点并将其 连接到数据流的恰当位置,点击鼠标右键,在〃质量〃选 项卡下,选择检测方法为平均值的标准差。
步骤2结果输出
实验结果输出如图所示。
图中蓝色部分表示输出变量取YES,即客户流失的样 本数,可以看出,各个变量上流失客户的取值均不同。
内容二:基本描述分析
这里分析的目标是对电信客户数据的基本服务、开通 月数、免费部分和无线费用之间的相尖系数以反映变量之 间的相互尖系。
步骤1建立数据流
选择〃输出〃选项卡中的〃统计量〃节点。
步骤2设置相尖参数
双击〃统计量〃节点,进行相应的设置。在〃检 查〃框中添加开通月数、基本费用、免费部分和无线费 用。
在〃相尖〃框中添加年龄、收入和家庭人数。如
3 )在〃相尖设置〃中,勾选〃按重要性定义相尖强 度。如图所示。
计算结果如图所示。可以看出,以〃基本费用〃为例, 它与〃年龄〃和〃收入〃都有相尖性,它们之间简单相尖 系数虽然为0.401和0.195,但从统计量的角度来看有 95%以上的把握认为它们之间是非0相尖。〃基本费用〃 与〃家庭人数〃呈负弱相尖。
内容三:绘制散点图
数值之间变量的相尖性可以采用上一个实验,也可以 通过散点图来直接观察,此次主要观察基本费用和年龄之 间的相尖性。
步骤1构建数据流
选择〃图形〃选项卡中的〃图〃节点。
步骤2设置相尖参数
1) 双击〃图〃节点,选择编辑菜单,进行参数窗口 的设置。
2) 在〃X字段〃和〃丫〃字段框中分别选择〃基本 费用〃和〃年龄〃。在〃交叠字段〃下,选择〃颜色〃- 〃流失〃,不同颜色表示流失量不同取值的样本点。如图 所示〃图〃节点的参数设置窗口。
w 你2 mt.
s t ? y ?
输出的结果如图所示。
内容四:两分类变量相尖性的研究
两分类变量相尖性研究可以从图形分析入手,然后采 用数值分析的方法。下面采用网状图分析。
步骤1设置相尖参数
选择图形中的网络节点,进入编辑状态,在〃字段〃 下选择〃套餐类型〃和〃流失〃。设置线值为〃绝对 值〃。
步骤2结果输出
可以由结果图中得到,其电信客户保持是最好的,结 果输出如图所不°
内容五:变量中重要性分析
步骤1窗口设置
选择〃模型〃选项卡中的〃特征选择〃节点,将其连 接到数据流的恰当位置,点击鼠标右键,选择弹出菜单中 的编辑窗口,将〃流失〃添加到目标选项中,其他的全部 添入输入,具体操作如图所示
步骤2结果输出
由结果输出可以看出,开通月数、基本费用、电子支 付、年龄、受教育程度、套餐类型、收入以及各种费用等 变量对预测用户是否流失很重要,其他的变量则意义不 大,结果输出如图所示
三、 实验步骡与结果
实验步骤和结果见实验内容
四、 实验分析与扩展练习
实验分析:
本次实验通过对数据质量、基本描述、散点图、相尖性、 重要性五个方面进行内容分析,比较全面地了解了该数据 的相尖信息,并得到了相应的结果。请总结分析以下问 题:
(1) 针对上述案例,分析保存客户与流失客户的基本费用是 否存在显著的差异。
(2) 如何评价数据质量?相尖性和重要性有何区别?
答:(1 )根据分析客户流失的样本数的比例(灰色为流 失)
然后分析基本费用和流失之间的尖系,通过建立统计量和
绘制散点图
最后比较重要度可以得出结论:保存客户与流失客户的基 本费用存在显著性差异
(2)数据质量是保证数据应用的基础,它的评估标准主要包 括四个方面,完整性、相尖性、一致性、及时性。评估数 据是否达到预期设定的质量要求,就可以通过这四个方面 来进行判断。
相矣性:高质量的数据应该是能充分满足用户使用要求的 数据,即数据源和要处理的业务具有很强的联系;
重要性:数据有很大价值和影响的性质,能为数据处理提 供很多方便
2?扩展练习
(1)针对上述的五个内容,分别更改一些参数,观察是否对 结果造成影响
答:内容一:更改〃数据审核〃中的部分参数,结果如下
左边是没有更改,右边是更改后的,该系数更改无明显变化
五、结论与讨论(重点)
通过这次实验,我了解到数据分析是数据挖掘中很重要的 —部分,数据分析的目的是把隐没在一大批看来杂乱无章 的数据中的信息集中
您可能关注的文档
最近下载
- 第二讲 二“主心骨”和“定海神针” 课件学生读本 高年级.ppt
- 1.5.2压缩与备份(课件)-【中职专用】高一信息技术同步课堂(高教版2021基础模块上册).pptx VIP
- 高三数学解三角形及应用省公开课一等奖全国示范课微课金奖PPT课件.pptx VIP
- 数字媒体技术专业人才需求调研报告.pdf VIP
- !24J306图集窗井、设备吊装口、排水沟、集水坑.pdf VIP
- 调色师:达芬奇视频剪辑调色从入门到精通(上篇,共上中下3篇).pptx VIP
- 洁净煤技术(第二版)第七章煤气化联合循环发电与多联产技术.ppt VIP
- 内墙水性涂料涂饰检验批.docx VIP
- 2.1.2 了解网络协议(课件)-【中职专用】高一信息技术同步精品课堂(高教版2021·基础模块上册).pptx VIP
- 半导体车间安全培训课件.ppt VIP
文档评论(0)