商务智能实验6报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘与商务智能实 验》 时间:2021.02.07 命题人:欧阳物 实验报告 实验题目:数据挖掘的基本数据分析 姓名:王俊 学号:201430850164 指导教师:张大斌 实验时间:201611.10 2016年月10日 实验题纲: 一、 实验目的 熟悉基本数据分析的処理流程。 进一步熟练掌握拍SPSSModeler工具的操作。 二、 实验内容 内容一:数据的质量探索 步骤1建立数据流 1)在源中通过拖入“Statistics文件节点读入 Telephone.sav 数据 ° 建立〃类型〃节点,并说明各个变量角色。这里 指定流失〃为目标变量。 选择〃输出〃选项卡中〃数据审核〃节点并将其 连接到数据流的恰当位置,点击鼠标右键,在〃质量〃选 项卡下,选择检测方法为平均值的标准差。 步骤2结果输出 实验结果输出如图所示。 图中蓝色部分表示输出变量取YES,即客户流失的样 本数,可以看出,各个变量上流失客户的取值均不同。 内容二:基本描述分析 这里分析的目标是对电信客户数据的基本服务、开通 月数、免费部分和无线费用之间的相尖系数以反映变量之 间的相互尖系。 步骤1建立数据流 选择〃输出〃选项卡中的〃统计量〃节点。 步骤2设置相尖参数 双击〃统计量〃节点,进行相应的设置。在〃检 查〃框中添加开通月数、基本费用、免费部分和无线费 用。 在〃相尖〃框中添加年龄、收入和家庭人数。如 3 )在〃相尖设置〃中,勾选〃按重要性定义相尖强 度。如图所示。 计算结果如图所示。可以看出,以〃基本费用〃为例, 它与〃年龄〃和〃收入〃都有相尖性,它们之间简单相尖 系数虽然为0.401和0.195,但从统计量的角度来看有 95%以上的把握认为它们之间是非0相尖。〃基本费用〃 与〃家庭人数〃呈负弱相尖。 内容三:绘制散点图 数值之间变量的相尖性可以采用上一个实验,也可以 通过散点图来直接观察,此次主要观察基本费用和年龄之 间的相尖性。 步骤1构建数据流 选择〃图形〃选项卡中的〃图〃节点。 步骤2设置相尖参数 1) 双击〃图〃节点,选择编辑菜单,进行参数窗口 的设置。 2) 在〃X字段〃和〃丫〃字段框中分别选择〃基本 费用〃和〃年龄〃。在〃交叠字段〃下,选择〃颜色〃- 〃流失〃,不同颜色表示流失量不同取值的样本点。如图 所示〃图〃节点的参数设置窗口。 w 你2 mt. s t ? y ? 输出的结果如图所示。 内容四:两分类变量相尖性的研究 两分类变量相尖性研究可以从图形分析入手,然后采 用数值分析的方法。下面采用网状图分析。 步骤1设置相尖参数 选择图形中的网络节点,进入编辑状态,在〃字段〃 下选择〃套餐类型〃和〃流失〃。设置线值为〃绝对 值〃。 步骤2结果输出 可以由结果图中得到,其电信客户保持是最好的,结 果输出如图所不° 内容五:变量中重要性分析 步骤1窗口设置 选择〃模型〃选项卡中的〃特征选择〃节点,将其连 接到数据流的恰当位置,点击鼠标右键,选择弹出菜单中 的编辑窗口,将〃流失〃添加到目标选项中,其他的全部 添入输入,具体操作如图所示 步骤2结果输出 由结果输出可以看出,开通月数、基本费用、电子支 付、年龄、受教育程度、套餐类型、收入以及各种费用等 变量对预测用户是否流失很重要,其他的变量则意义不 大,结果输出如图所示 三、 实验步骡与结果 实验步骤和结果见实验内容 四、 实验分析与扩展练习 实验分析: 本次实验通过对数据质量、基本描述、散点图、相尖性、 重要性五个方面进行内容分析,比较全面地了解了该数据 的相尖信息,并得到了相应的结果。请总结分析以下问 题: (1) 针对上述案例,分析保存客户与流失客户的基本费用是 否存在显著的差异。 (2) 如何评价数据质量?相尖性和重要性有何区别? 答:(1 )根据分析客户流失的样本数的比例(灰色为流 失) 然后分析基本费用和流失之间的尖系,通过建立统计量和 绘制散点图 最后比较重要度可以得出结论:保存客户与流失客户的基 本费用存在显著性差异 (2)数据质量是保证数据应用的基础,它的评估标准主要包 括四个方面,完整性、相尖性、一致性、及时性。评估数 据是否达到预期设定的质量要求,就可以通过这四个方面 来进行判断。 相矣性:高质量的数据应该是能充分满足用户使用要求的 数据,即数据源和要处理的业务具有很强的联系; 重要性:数据有很大价值和影响的性质,能为数据处理提 供很多方便 2?扩展练习 (1)针对上述的五个内容,分别更改一些参数,观察是否对 结果造成影响 答:内容一:更改〃数据审核〃中的部分参数,结果如下 左边是没有更改,右边是更改后的,该系数更改无明显变 化 五、结论与讨论(重点) 通过这次实验,我了解到数据分析是数据挖掘中很重要的 —部分,数据分析的目的是把隐没在一大批看来杂乱无章 的数据中的信息集中

文档评论(0)

ld5559789 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档