- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。 例子: a. 超市中客户在购买A的同时,经常会购买B,即A = B(关联规则) 一个有趣的故事: 尿布与啤酒的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据挖掘在信用卡风险控制中的应用: 美国Firstar银行市场调查和数据营销部发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。于是Firstar银行通过使用数据挖掘工具,根据客户的信用卡消费模式进行分组预测,来确定何时向消费者提供哪种产品,从而让Firstar银行在信用卡市场取得了竞争优势。 近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用 Data Mining来分析市场动向,并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。 * Text, Web ,图形图像,视频,音频等均属于复杂数据类型挖掘。 Web Mining可看做是Data Mining应用在网络数据的泛称。 例子:该如何测量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?主要访客是哪些人?什么原因吸引他们前来?如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素?以上种种皆属Web Mining 分析之范畴。利用Data Mining技术建立更深入的访客数据剖析,并赖以架构精准的预测模式,以期呈现真正智能型个人化的网络服务,是Web Mining努力的方向。 例子:eBags 技术副总裁 Mike Frazini 说:我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化寻找基于较少的数据和商业规则来创建个性化网页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州 Farmington 的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版 B2C 网站的每位访问者所产生的平均收益在一个月内从 1.47 美元提高到了 37.42 美元。当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到 WebMiner 服务器,也就是一个数据挖掘ASP。然后,WebMiner 的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显 示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼,则弹出式广告将展示窗式空调机。 * 1.scalability: 可扩展性,可伸缩性(能够处理不同复杂程度的数据集或可运用于现实的不同应用)。许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。例子:当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。 2.dimensionality: 数据维度高维性,数据集的维度是数据集中的对象具有的属性数目。现在常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。具有时间或空间分量的数据集也趋向于具有很高的维度。例
文档评论(0)