- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概述创新.ppt
偿还借款、婚姻状态、年收入、是否欺诈 * 偿还借款、婚姻状态、年收入、是否欺诈 * 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 * 聚类:图解 聚类:图解 多少类? 四类 两类 六类 聚类:应用1 市场细分: 目标: 按客户的差别将一个市场细分为多个不同的子市场,任何一个子市场都有可能被选为市场目标,并使用不同的营销组合。 方法: 收集在生活区域和生活类型有差别客户的相关信息。 找到相似客户的类。 通过对比观测同一类中和不同类中客户的购买模式来衡量聚类的效果。 聚类:应用2 文档聚类: 目标: 根据文档中出现的重要词目的相似性将文档进行分组。 方法: 通过对每一个文档中频繁出现的词目进行识别。构建一个基于不同词目出现频率的相似性度量方法。使用此方法进行聚类。 收获:信息检索利用聚类将一个新文档或检索词目与聚类类中文档关联起来。 聚类点:3204篇洛杉矶时报文章。 相似性度量:有这些文章中有多少个相同的词目 (对一些词目经过过滤后)。 聚类:应用2 聚类与分类不同,聚类分析是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法。而分类则需要先定义类别和训练样本,是有指导的学习 聚类:与分类的区别? 关联规则发现 我们经常会碰到这样的问题: 商业销售上,如何通过交叉销售得到更大的收入? 保险方面,如何分析索赔要求发现潜在的欺诈行为? 银行方面,如何分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务? 哪些制造零件和设备设置与故障事件关联? 哪些病人和药物属性与结果关联? 哪些商品是已经购买商品 A 的人最有可能购买的? 关联规则发现:定义 产生能预测某些项目的产生会同时导致另一项目发生的依赖规则。 关联规则发现的目的在于在一个数据集中找出项之间的关系,也称之为购物篮分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。 关联规则发现:定义 尿布和啤酒的故事 购物篮交易 关联分析 {尿布} ? {啤酒}{牛奶,面包} ? {鸡蛋,可乐}{啤酒,面包} ? {牛奶} 关联意味着共生,但并不代表存在因果关系! 关联规则发现:应用1 营销和促销: 给定找到规则为 {Bagels, … } -- {Potato Chips} 薯片作为结果 =能用于决定什么原因可能促进其销售 。 面包圈作为前提 = 能预见当商店停止销售面包圈时将会影响哪一种产品的销售。 关联规则发现:应用2 超市货架管理. 目标: 用于决定应该将哪些货物放在一些才能最大限度地满足客户需求。 方法: 通过对条形码扫描器所获得的销售点的数据进行处理来发现货物之间的信赖关系。 一条经典的规则 -- 如果一个顾客购买了尿布和牛奶,那他就极有可能会购买啤酒。 所以如果你发现在尿布旁堆叠有六箱啤酒,请不要感到意外! 关联规则发现:应用3 库存管理 : 目标:一个消费电器维修公司希望预测其顾客购买的电器产品易发生故障的部件,保证其服务包里有正确的可以替换的部件,从而减少服务人员上门服务的次数。 方法:对不同区域的顾客以前维修中需要的部件和工具数据进行处理,并且从中发现同时出现的模式。 时序模式 我们经常会碰到这样的问题: 下个月的商品销量、销售额或库存量是多少? 明天广州市的最高用电负荷是多少? 时序模式:定义 用己知时间点的数据来预测未来时间点的值 时间序列概念 时间序列就是一个变量在一定时间段内不同时间点上观测值的集合。 这些观测值是按时间顺序排列的,时间点之间的间隔是相等的。可以是年、季度、月、周、日,甚至小时或分钟。常见的时间序列有:按年、季度
原创力文档


文档评论(0)