第1章 数据仓库数据挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 顾客: 客服:“陈先生,请您说话小心一点。您在2000年四月一日用脏话侮辱警察,被判了十日拘役。” 顾客:“……” (6.刑事刑案数据库) * * 客服:“请问还需要什么吗?” 顾客:“没有了,是不是有送三罐可乐?” 客服:“是的!不过根据“AIC?CRM系统”您有糖尿病……” * * 关于数据挖掘的经典故事和案例 在一家超市里,有一个有趣的现象: 尿布 和啤酒 赫然摆在一起出售 但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。原因何在? * * 原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。 是什么让沃尔玛发现了尿布和啤酒之间的关系呢? 正是商家通过对超市一年多原始交易数字进行详细的分析,通过数据挖掘中的关联规则发现了这样的组合。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 * * * * 格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。 按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。 此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。 新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。 治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。 * * “产品整合:一个例子就是你今天在Yahoo电子邮箱上看到的,数据挖掘的可视结果。通过对用户使用行为的意外模式分析,我们发现在每次会话中,人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组,他们首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。” “对于象电子邮箱这种产品,最头痛的问题就是如何获取新的‘轻量级用户’,并推动他们的用量,使之变成‘重量级用户’。如果你做到了,那么流失率就会显著下降。实际上,在我们的试验中,最显著的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块,并嵌入Yahoo电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。” “即时通信:我们对雅虎通(Instant Messenger)的使用情况进行了分析,以了解激励用量的关键因素是什么。结果发现,最重要的因素是让用户扩大他们的‘好友列表’,至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数,从而显著激励了雅虎通的用量。” “Yahoo首页的搜索框:在Yahoo的首页上,把搜索框放在居中的位置(而不是以前的左侧)将提高用户的用量。这样一方面可以促进用户的积极使用,对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣,我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能,进一步探查发现两个浏览器在视觉上的唯一区别就是:二者中的搜索框位置不同!搜索框在Netscape浏览器中是居中放置,而在IE中则是靠近左侧。很不明显的差别,但却很重要。一般谁会想到呢?” * * 从海量的原始数据中,找出隐含在其中的、我们事先不知道的、但又是潜在的有意义的知识和信息,从而利用这些知识来指导我们的活动,这便是数据挖掘的初衷。 * * 时代背景 社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史 动机: “需要是发明之母” * * * * 我怎

文档评论(0)

听心 + 关注
实名认证
文档贡献者

我差点忘了,以前我是多么有趣的一个人,那么爱笑,那么没心没肺,那么善良,这一年我面目全非,焦虑抑郁,都差点过不来…...

1亿VIP精品文档

相关文档