- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么是关联规则? 关联规则数据挖掘是数据挖掘领域的热点之一。 关联规则反映一个对象与其他对象之间的相互依赖性,如果多个对象之间存在一定的关联关系,那么,其中一个对象就能够通过其他对象进行预测。 典型问题:a.分析超市中的购物篮数据; b.从海量商业交易记录中发现感兴趣的数据 关联,以帮助商家决策。 例如:商品分类设计、降价经销分析、货架摆 放策略...... 支持度、置信度、项集、项 关联规则可以采用与分类规则相同的方式产生。由于得到的关联规则数量庞 大,通常需要根据覆盖率(coverage)和准确率(accuracy)进行修剪。 覆盖率:又称为支持度(support),支持度是支持度计数与实例总数的比 值,支持度计数是应用规则后预测正确的实例数量; 准确率:又称为置信度(confidence),表示为支持度计数与应用规则的实例 数量的比值。 由于仅对高覆盖量的关联规则感兴趣,因此关联只寻找能够达到预定的最小 覆盖量的属性值对组合,这些组合称为项集(itemset),其中的任一个属性值 对称为一个项(item)。 例如:套用购物篮分析案例,项就是购物篮中的商品,需要寻找的是购物篮 中商品之间的关联。 关联分析 定义:主要用于发现隐藏在大型数据集中的有意义的联系,这些联系可以采 用关联规则或频繁项集的形式表示。关联分析可用于购物篮数据分析,还可 用于医疗诊断、网页挖掘和科学数据分析等领域。 Weka数据挖掘平台上的Associate标签页就是用来处理关联问题: Weka提供了Apriori、PredictiveApriori、Tertius等关联规则发掘算法; 在Associate标签页中选定一个算法,进行一些必要的设置,包括支持度上界、 下界,每次运算的支持度递减值,等等; 其中,Apriori算法是第一个关联规则挖掘算法,而且这几个算法均不支持数值型数据,所以如果是数值型数据,则需要先对其进行离散化处理。 了解Apriori算法中各个参数的解释 案例1.weather.nominal.arff数据集 Apriori FilteredAssociator FPGrowth 对于设置表中各个参数的含义: 1.car:如果设为true,则会挖掘类关联规则而不是全局关联规则。 2.classindex:类属性索引。若设为-1,最后的属性被当做类属性。 3.delta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 4.lowerBoundMinSupport:最小支持度下界。 6.minMtric 度量的最小值。 7.numRules 要发现的规则数。 8.outputItemSets 如果设置为真,会在结果中输出项集。 9.removeAllMissingCols 移除全部为缺省值的列。 10.significanceLevel 重要程度。重要性测试(仅用于置信度)。 11.upperBoundMinSupport 最小支持度上界。 从这个值开始迭代减小最小支持度。 5.metricType:度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。 在 Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是: a) Lift (提升度): P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度. b) Leverage (杠杆率):P(A,B)-P(A)P(B)Leverage=0时A和B独立,Leverage越大A和B的关系越密切 c) Conviction(确信度):P(A)P(!B)/P(A,!B) (!B表示B没有发生) Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, A、B越关联。 完整的实验结果输出及具体分析: === Run information === //实验运行信息 Scheme: weka.associations.Apriori -N 1
您可能关注的文档
最近下载
- 100字以内运动会加油稿.doc VIP
- 植物生理学课件(王小菁-第8版)-第九章-光形态建成.pptx VIP
- 2025年部编人教版(统编新教材)初中语文七年级上册教学计划及进度表.docx
- 五位一体课件最新完整版本.pptx VIP
- 2025时政新闻PPT_原创精品文档.pptx VIP
- 药品经营使用和质量监督管理办法2024年宣贯培训PPT课件.pptx VIP
- (中文版) BS EN 1997-1:2004 国外国际标准.pdf
- 华远变频器使用手册.pptx VIP
- 植物生理学课件(王小菁-第8版)-第八章-植物生长物质.pptx VIP
- 2025中级经济师《经济基础知识》三色笔记.pdf VIP
文档评论(0)