- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果。数据挖掘过程涉及下列7个研究方面:数据仓库及OLAP技术、数据预处理、使用SQLServerDataMining、关联规则、分类和预测、聚类分析及时序和序列数据的挖掘。 数据挖掘 数据仓库 数据挖掘完整步骤 数据挖掘是从大量的、不完全、随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。 数据仓库是一种环境,不是一种产品。它包括电子邮件文档、语音文档、CD-ROM、多媒体信息及还未考虑到的数据 ① 理解数据和数据的来源 ② 获取相关知识与技术 ③ 整合与检查数据 ④ 去除错误或不一致的数据 ⑤ 建立模型和假设 ⑥ 实际数据挖掘工作 ⑦ 测试和验证挖掘结果 ⑧ 解释和应用 数据集,又称资料集、数据集合。是一种由数据组成的集合。通常以表格的形式出现。每一列代表一个特定的变量。每一行都对应某一成员的数据集问题。 附页: age:年龄(数字) job:工作:工作类型(分类:“admin”。“未知”,“失业”,“管理”,“女仆”、“企业家”、“学生”,“蓝领”、“自主创业”、“退休”,“技师”、“服务”) Marital:婚姻:婚姻状况(分类:“结婚”,“离婚”,“单”) Education:教育(分类:“未知”、“中等”、“主”、“三流”) Default:信用违约吗?(二进制:“是的”,“不”) Balance:平衡:年平均余额,欧元(数字) Housing:住房:住房贷款吗?(二进制:“是的”,“不”) Loan:贷款:个人贷款吗?(二进制:“是的”,“不”) Contact:联系人:联系人沟通类型(分类:“未知”,“电话”,“手机”) Day:天:最后接触日(数字) Month:月:最后接触的一年(分类:“1”,“2”,“3”,…) Duration:持续时间:最后联系时间,以秒为单位(数字) Campaign:运动:在过程中执行的联系人数量,对于这个客户(数字,包括去年联系) Pdays:通过客户端最后一次联系 Previous:以前:联系人之前执行这一运动和这个客户(数字) - poutcome:以前的营销活动的结果(分类:“未知”,“其他”,“失败”,“成功”) - y -:客户端订阅定期存款吗?(二进制:“是的”,“不”) 我们小组采用的数据集是信用卡客户基本资料的数据分析,从表格中可以看出客户中工作有失业,服务人员,管理者,蓝领,学生等。婚姻状况有已婚和单身。受教育情况有小学,初中,高中,大学。有无房贷。 客户的资料各不相同,通过数据挖掘出有关信用卡方面的 一些有用的消息。 链接bank1.xls 在数据挖掘过程中,我们可以看到完整的表信息,我们可以通过表,透视图,图表,透视表等多方面来分析一个人的信用卡使用状况以及通过这些信息,我们可以挖掘出一些深层次的信息。其中表反映的信息是最全的,但是对于深层挖掘并不是十分有利,所以我们可以通过后面三个表来辅助性分析 透析表: 将我们需要的信息通过列拖入到相关的行列,每个行列都有下拉菜单,可以就某一方面进行分析,图中所显示的是年龄在30~35岁之间,购买了房贷的人数,离婚的购买房贷的有86人,结婚的购买房贷的有 619人,单身的购买房贷的有465人,透析表与透析图是相关联的,如果觉得不够直观,可选择透析图 透析图: 下图表示的是年龄30-35岁,购买了房贷的人数,紫色为离婚的购买房贷的有86人,蓝色为结婚的购买房贷的有 619人,黄色为单身的购买房贷的有465人,此图也是上面的透析表的直观图,相比起透析表看的更容易些 表:在图表中,我们可以选择自己感兴趣的数据,并选上这些列名(我们选的是age,job),然后进行分析: 列age表示年龄,在数据集中我们的年龄跨度大,但图表中显示的信息相对集中在25.8-29.8岁之间,所以进行后续分析时,选择这个年龄段的人,分析出的数据会比较可靠 列job表示“职业”,从图中我们可以看到admin,蓝领,管理者,服务行业相关人员以及技师持信用卡比例相对比较高,而蓝领是最高的,我们这里挖掘的数据集是欧洲的,所以可能与我们国家的情况有些不同。 当然,也可以选择条形图和饼图直观观察。 图 依赖关系网络: “依赖关系网络”显示项目之间的依赖关系,如下图所示,当鼠标选中一个节点,与其相关的节点将以特殊颜色显示,左边的调节按钮可以调节显示的依赖关系的强度 挖掘准确性图表 选定事列表,在界面下方选择可预测列,我们选的是“Default”,即违约情况,进入“提升图”选项卡,将显示对选定的可预测列的预测准确性曲线。 提升图: 提升图蓝色曲线表示理想模型,红色曲线表示我们的模型,右侧的挖掘图列中显示模型的分数,我们的结果为0.98,准确度还是挺高的 分类矩
文档评论(0)