- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商业智能技术的先锋:数据挖掘与数据仓库
商业智能技术的先锋: ---数据仓库与数据挖掘 徐永春 博士 2011 6 10 尿布和啤酒 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售!但是这个奇怪的举措,却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁超市的真实案例,并一直为商家所津津乐道 是什么让沃尔玛发现了尿布和啤酒之间的关系呢?正是通过对超市一年多的原始交易数据进行详细分析,他们发现了这一神奇组合。 沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘,得到一个意外的发现:跟尿布一起购买最多的商品竟是啤酒! 这个结果符合真实情况吗?是否有利用价值?沃尔玛派出市场调查人员和分析师对此进行调查分析。 ?? 调查结果揭示了一种隐藏在“尿布与啤酒”背后的美国人的行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%-40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 从此,沃尔玛各门店都“尿布和啤酒”,这一数据挖掘(data mining)的经典例子,告诉我们,面对混沌的未来,我们不是完全束手无策,我们是可以有所为的。其实,只要我们了解所有商业运作的各种因素,进一步监控这些因素并向有关决策者们及时地提供相应信息。? 什么样是人性化的服务? 想听一首歌,不必想好其歌名,到搜索引擎里去搜索、下载;而是输入现在的心情,比如“激昂”,播放器就自动播放出《男儿当自强》这样的歌曲,而且一首接着一首。 想去旅游,不必苦思要去什么具体的城市,而是输入大概想法,比如“浪漫的周末度假”,就能马上看到十个建议:包括一家临海宾馆的情侣房、烛光晚餐、一套在周五晚起飞周日晚返归的机票。 要完成这些人性化服务靠搜索引擎是不行的,得靠数据挖掘。现在,数据挖掘的各种应用离为我们提供上面这些真实服务已经越来越近了。 内容提要 数据挖掘于统计学 数据挖掘基本概念 数据挖掘基本特征 数据挖掘的其他主题 数据挖掘与数据仓库 数据挖掘与统计学 数据挖掘分析海量数据 许多数据库都不适合统计学分析需要 数据挖掘是多学科的产物 数据挖掘是信息技术自然进化的结果 数据库、数据仓库和Intenet等信息技术的发展。 计算机性能的提高和先进的体系结构的发展。 统计学和人工智能等方法在数据分析中的研究和应用。 网络之后的下一个技术热点 大量信息在给人们带来方便的同时也带来了一大堆问题: 信息过量,难以消化 信息真假难以辨识 信息安全难以保证 信息形式不一致,难以统一处理 数据丰富,但信息贫乏 人类已进入一个崭新的信息时代 数据库中存储的数据量急剧膨胀 需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率 产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究 数据挖掘是从大量数据中提取或“挖掘”知识。 神经网络和支持向量机模型使用 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题:分类和回归。 需特别指出的是,在一般情况下,统计学习理论和支持向量机(SVM)比一般的神经网络更有效,而且可将SVM看作是广义化的神经网络。其优点是,具有深厚的数学基础,算法可靠、推广能力强,适用于小样本数据集的知识(或规则)发现。 具体案例: 数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。 如: (1)定义商业问题 要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。 (2)建立数据挖掘库 数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不合适的,最好建立一个独立的数据集。 建立数据挖掘库可分成如下几个部分: a) 数据收集 b) 数据描述 c) 选择 数据挖掘的应用 电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务: 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健 市场分析和管理(1) 用于分析的数据从何来? 信用卡交易,信誉
您可能关注的文档
最近下载
- 《客户服务与管理》教案 第5课 学会使用即时通信工具.pdf VIP
- 民爆信息系统网路服务平台.pptx VIP
- 《QCNPC41-2001-防喷器判废技术条件》.pdf VIP
- 《客户服务与管理》(李清文)718-1教案 第2课 熟悉客户服务人员的综合素质要求.docx VIP
- 《客户服务与管理》(李清文)718-1教案 第3课 学会使用电话服务工具.docx VIP
- 3《峨日朵雪峰之侧》同步练习(含答案)统编版高中语文必修上册.docx VIP
- 第2课 让美德照亮幸福人生.pptx VIP
- 《峨日朵雪峰之侧》同步练习 统编版高中语文必修上册.docx VIP
- 海马普力马PREEMA 1.8L、1.6升 电路图07-发动机和变速箱控制.pdf VIP
- 《客户服务与管理》教案 第1课 初识客户服务与管理.docx
文档评论(0)