- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联(Association),尿布与啤酒的故事 第6章 关联规则 在一家超市里,有一个有趣的现象: 沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒! 尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。 起源:超市购物篮 表面上无关的事物之间的内在联系时令人兴奋的。如果这一发现有商业价值,兴奋足以转化为激动) 形式: X?Y (啤酒=尿布) 基本测度 支持度(Dsupp) 置信度(Dconf) 经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 伴随着“尿布和啤酒”一起出现的,还有大量我们不曾读懂,或无法使用的规则。 如何通过“兴趣度”的把握,找到我们最想要的规则? 目前在医学领域的应用也非常广泛与成功,比如:对甲型肝炎疫情风险数据进行挖掘时,发现很多强关联规则,这些强关联规则中蕴含着甲型肝炎发病与季节、气温、气压、降水量、蒸发量等影响因素之间的关联关系,对指导疾病预防、控制实践,具有很强的应用价值。 孤立点事件(黑天鹅更要关注) 这个图是广州市在SARS流行期间,某个住宅小区疑似病例的分布研究发现,低层住户的疑似病例多于高层住户。 关联规则不是绝对的,而存在一定概率。比如,购买“尿布”的4个顾客中有3个购买了“啤酒”,则该关联规则表示为:“如果一个顾客购买了‘尿布’,那么该顾客有75%的可能性购买‘啤酒’”。如果我们采取相应的促销措施,该顾客购买尿布后购买啤酒的可能性会增大。 我们给出关联规则的概念为:所谓关联规则就是形如A=B,表示若A成立则B成立。在进行关联分析时需要计算规则A=B的概率,其实质是一个条件概率P(B︱A)。 强相关--- Apriori算法基本原理 【案例1】太阳证、阳明证、少阳证、少阴证药对分析 规则 支持度 置信度% (rule) (support) (confidence)% 1.麻黄 桂枝 == 伤寒太阳证* 16 88.89 2.杏仁 麻黄 == 伤寒太阳证 14 87.50 3.生姜 桂枝 == 伤寒太阳证 11 78.57 4.知母 石膏 == 伤寒阳明证* 9 69.23 5.石膏 葛根 == 伤寒阳明证 6 100.00 6.黄芩 柴胡 == 伤寒少阳证* 21 80.77 7.人参 半夏 == 伤寒少阳证 14 30.33 8.黄芩 半夏 == 伤寒少阳证 19 90.48 9.干姜 附子 == 伤寒少阴证* 11 61.11 10.人参 附子 == 伤寒少阴证 9 64.29 带*的药对是经典药对,其他是对中药处方集进行关联分析发现的药对。 利用Microsoft SQL Server 2005实践关联规则算法 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的基于Apriori算法的关联。本节利用SQL Server 2005对某大学2006年新生入学体检关于乙肝病毒检查的数据进行数据挖掘。希望通过对所收集的乙肝病毒检查报告的数据挖掘来发现“两对半”5项指标之间的关系。然后读者可以根据医学上对乙肝病毒检验的知识来判断关联数据挖掘的正确性(“+”表示该指标阳性,“-”表示该指标阴性)。 大学生体检数据 频 繁 项 集 该图选中部分均为“乙肝表面抗原阳
您可能关注的文档
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第2章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第3章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第4章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第5章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第6章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第7章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第8章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第9章.ppt
- 医学计算机应用基础 教学课件 作者 杨长兴 李连捷 第10章.ppt
- 医学计算机与信息技术应用基础 教学课件 作者 王世伟 第1章 计算机与信息技术基础.ppt
- 医学数据挖掘—SQL Server 2005案例分析 教学课件 作者 周怡 王世伟 主编 医学数据挖掘第7章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第1章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第2章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第3章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第4章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第5章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第6章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第7章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第8章.ppt
- 医学统计实用技术教程 教学课件 作者 刘尚辉 等 第9章.ppt
文档评论(0)