- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能实验6报告课案
《数据挖掘与商务智能实验》
实 验 报 告
实验题目:数据挖掘的基本数据分析
姓名:王俊
学号:201430850164
指导教师: 张大斌
实验时间:201611.10
2016年 11月 10日
实验题纲
熟悉基本数据分析的处理流程。
进一步熟练掌握拍SPSS Modeler工具的操作。
实验内容
内容一:数据的质量探索
步骤1 建立数据流
在“源”中通过拖入“Statistics”文件节点读入Telephone.sav数据。
建立“类型”节点,并说明各个变量角色。这里指定“流失”为目标变量。
选择“输出”选项卡中“数据审核”节点并将其连接到数据流的恰当位置,点击鼠标右键,在“质量”选项卡下,选择检测方法为平均值的标准差。
步骤2 结果输出
实验结果输出如图所示。
图中蓝色部分表示输出变量取YES,即客户流失的样本数,可以看出,各个变量上流失客户的取值均不同。
内容二:基本描述分析
这里分析的目标是对电信客户数据的基本服务、开通月数、免费部分和无线费用之间的相关系数以反映变量之间的相互关系。
步骤1 建立数据流
选择“输出”选项卡中的“统计量”节点。
步骤2 设置相关参数
双击“统计量”节点,进行相应的设置。在“检查”框中添加开通月数、基本费用、免费部分和无线费用。
在“相关”框中添加年龄、收入和家庭人数。如图所示。
3)在“相关设置”中,勾选“按重要性定义相关强度”。如图所示。
计算结果如图所示。可以看出,以“基本费用”为例,它与“年龄”和“收入”都有相关性,它们之间简单相关系数虽然为0.401和0.195,但从统计量的角度来看有95%以上的把握认为它们之间是非0相关。“基本费用”与“家庭人数”呈负弱相关。
内容三:绘制散点图
数值之间变量的相关性可以采用上一个实验,也可以通过散点图来直接观察,此次主要观察基本费用和年龄之间的相关性。
步骤1 构建数据流
选择“图形”选项卡中的“图”节点。
步骤2 设置相关参数
双击“图”节点,选择编辑菜单,进行参数窗口的设置。
在“X字段”和“Y”字段框中分别选择“基本费用”和“年龄”。在“交叠字段”下,选择“颜色”-“流失”,不同颜色表示流失量不同取值的样本点。如图所示“图”节点的参数设置窗口。
输出的结果如图所示。
内容四:两分类变量相关性的研究
两分类变量相关性研究可以从图形分析入手,然后采用数值分析的方法。下面采用网状图分析。
步骤1 设置相关参数
选择图形中的网络节点,进入编辑状态,在“字段”下选择“套餐类型”和“流失”。设置线值为“绝对值”。
步骤2 结果输出
可以由结果图中得到,其电信客户保持是最好的,结果输出如图所示。
内容五:变量中重要性分析
步骤1 窗口设置
选择“模型”选项卡中的“特征选择”节点,将其连接到数据流的恰当位置,点击鼠标右键,选择弹出菜单中的编辑窗口,将“流失”添加到目标选项中,其他的全部添入输入,具体操作如图所示
步骤 2 结果输出
由结果输出可以看出,开通月数、基本费用、电子支付、年龄、受教育程度、套餐类型、收入以及各种费用等变量对预测用户是否流失很重要,其他的变量则意义不大,结果输出如图所示
实验步骤与结果
实验步骤和结果见实验内容
实验分析与扩展练习
实验分析:
本次实验通过对数据质量、基本描述、散点图、相关性、重要性五个方面进行内容分析,比较全面地了解了该数据的相关信息,并得到了相应的结果。请总结分析以下问题:
针对上述案例,分析保存客户与流失客户的基本费用是否存在显著的差异。
如何评价数据质量?相关性和重要性有何区别?
答:(1)根据分析客户流失的样本数的比例(灰色为流失)
然后分析基本费用和流失之间的关系,通过建立统计量和绘制散点图
最后比较重要度可以得出结论:保存客户与流失客户的基本费用存在显著性差异
数据质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、相关性、一致性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。
相关性:高质量的数据应该是能充分满足用户使用要求的数据,即数据源和要处理的业务具有很强的联系;
重要性:数据有很大价值和影响的性质,能为数据处理提供很多方便
扩展练习
针对上述的五个内容,分别更改一些参数,观察是否对结果造成影响
答:内容一:更改“数据审核”中的部
您可能关注的文档
- 同乐站主体部分围护结构专项施工方案.doc
- 听说读写全面的英语学习好方法-经典.doc
- 听课笔记大数据概论课案.docx
- 城市废弃采石场改造利用与生态设计——以广州番禺区六大连湖主题公园为例课件.docx
- 听课记录表(2016年秋季学期)课案.doc
- 后制动器拆装文档课案.docx
- 后浇带加固施工方案(已审)改.doc
- 吴桥县2017年1月教学质量监测工作安排.doc
- 吴小荣20142169病人呼喊器.doc
- 吴晓东_基于SIMULINK无刷直流电机控制系统的仿真建模.doc
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- 医院消毒供应中心如何选择合格的医用清洗剂(全面详细).pptx VIP
- 标准图集-L13J11卫生、洗涤设施.pdf VIP
- 2024新人教版一年级数学上册第五单元20以内进位加法单元教学整体设计.pdf VIP
- 5.1家和万事兴课件-2025-2026学年高中政治统编版选择性必修二法律与生活.pptx VIP
- 如何书写护理反思日志.pptx VIP
- 2010高教社杯全国大学生数学建模论文.doc VIP
- 复旦大学-2025年城市定制型商业医疗保险(惠民保)知识图谱.docx VIP
- ISO18527-1-2021 运动用眼部和面部防护-下坡滑雪和单板滑雪护目镜的要求 中英文.pdf VIP
- 长期采购合同协议.docx VIP
- 道路清扫保洁服务道路清扫保洁投标方案.doc VIP
原创力文档


文档评论(0)