- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
FP增长算法由于E、A、C的支持度计数为1小于最小支持度计数,故删除非频繁项E、A、C。频繁项有{B:2},故生成D的频繁2-项集{B:2,D:2}。05高级关联模式挖掘背景介绍01Contents关联规则挖掘的基本概念02频繁项集挖掘算法03关联规则挖掘0406推荐系统中的关联规则挖掘关联规则挖掘一旦识别出频繁项集,下一步是从这些项集中生成潜在的关联规则。关联规则形如,其中A和B是不重叠的项集。A为规则中的“条件”部分,也称为前件,代表了规则的出发条件;B是规则中的“结果”部分,代表了前件出现时,预期将会同时出现的项集,也称为后件。产生规则的步骤:选择频繁项集F。为每个频繁项集生成所有可能的非空子集A。对每个非空子集A,生成规则,令为B。计算每条规则的置信度,即A出现的条件下B出现的概率基于置信度的剪枝置信度(confidence):在前件A发生的情况下,后件B同时发生的条件概率。它是衡量规则准确性的一个标准。基于置信度剪枝目的:减少关联规则挖掘过程中无关或误导性规则的数量,提高挖掘结果的质量。通过设置置信度阈值,只有当规则的置信度高于此阈值时,规则才被认为是强规则,值得进一步分析。从关联分析到相关分析假设在一个大型零售商店中,通过交易数据分析发现:80%的顾客都购买了牛奶。50%的顾客都购买了面包。40%的顾客同时购买了牛奶和面包。现在考虑关联规则:“购买牛奶→购买面包”。支持度为0.4,因为40%的交易中牛奶和面包一起被购买置信度为0.5(40%/80%),看起来这个关联较强尽管“购买牛奶→购买面包”的置信度较高,但这可能并不是因为购买牛奶导致了购买面包的行为,而是因为牛奶和面包都是非常普遍的购买选项。提升度提升度:衡量的是规则前件和后件同时发生的概率与这个两个项集独立发生的概率乘积的比值。引入了提升度帮助我们更加准确地评估两个项集之间是否存在超过随机机会的关联。性质:如果提升度大于1,表明A和B之间有正相关关系,一个出现另一个可能同时出现;提升度等于1,表明A和B独立,没有关联。提升度小于1,表明A和B之间有负相关关系,一个出现可能导致另一个不出现。使用提升度再次计算例子,lift(“购买牛奶”“购买面包”)=1,这意味着购买牛奶和购买面包之间实际上没有超过随机概率的关联。杠杆率杠杆率:衡量项集A和B同时出现的联合概率与假设两个项集完全独立的情况下期望联合概率之间的差性质:如果两个项集完全独立,则杠杆率为零。确信度确信度:衡量的是在规则A→B下,不发生B时A发生的频率与B自身不发生的频率之比。这个指标帮助我们理解当规则A→B不成立时,A发生的可能性有多大。性质:如果A和B是完全独立的,即A对B的发生没有任何影响,则确信度值为1;如果A对B的发生有强烈的正影响,即B几乎总是在A发生时发生,那么Confidence(A→B)接近于1,从而使1?Confidence(A→B)接近于0,这会使确信度趋向无穷大。。05高级关联模式挖掘背景介绍01Contents关联规则挖掘的基本概念02频繁项集挖掘算法03关联规则挖掘0406推荐系统中的关联规则挖掘多层模式挖掘多层模式挖掘:通过利用数据的内在层次结构来探索和发现跨多个层次的关联规则。适用场景:这种方法特别适用于那些具有丰富分类层次的数据集,如零售产品分类和在线内容分类,如零售产品分类和在线内容分类。作用:通过这种技术,企业可以揭示不同层级之间的隐含关系,帮助制定更精确的营销策略和库存管理。多层模式挖掘一个大型在线零售商,其产品分类具有详细的层次结构,从一般类别到具体商品。顶层为最抽象层,自上而下产品变得具体,底层为具体品牌的产品。使用底层规则来探索更一般的类别层面上的关联,比如在Huawei的层次上,可能会发现用户购买HuaweiMate40的同时更有可能购买HuaweiWatch4Pro;在手机层次下,可以发现用户购买华为手机的同时更有可能购买华为的手表。多层模式挖掘模式挖掘步骤:在每个层级中提取模式。从底层开始,即最具体的层次,挖掘出关联规则,并逐步上升到更一般的层次。递减支持度被提出,通过在较低层使用递减的最小支持度,适应不同层级的数据稀疏性。非频繁项集挖掘非频繁模式:数据集中出现频率超过最小支持度阈值的项集,使用支持度阈值剪枝掉的模式。作用:非频繁模式不常出现但可能包含重要信息的模式,同样具有重要的研究价值和应用背景。应用:一些罕见疾病和症状的组合虽然出现的频率较低,但它们可以揭示不常见但临床上极其重要的症状与病症关
您可能关注的文档
- 数据挖掘 课件 第八章 数据可视化与分析.pptx
- 数据挖掘 课件 第二章 数据挖掘中的预处理.pptx
- 数据挖掘 课件 第九章 数据挖掘应用案例.pptx
- 数据挖掘 课件 第六章 聚类分析.pptx
- 数据挖掘 课件 第七章 高级数据挖掘.pptx
- 数据挖掘 课件 第三章 数据仓库与数据立方体.pptx
- 数据挖掘 课件 第五章 分类与回归预测算法.ppt
- 数据挖掘 课件 第一章 数据挖掘绪论.pptx
- 2024-2025年高中历史笔记(部编版)必修上 教师版第六单元 第19课 北洋军阀统治时期的政治、经济与文化.pdf
- 2024-2025年高中历史笔记(部编版)必修上 教师版第一单元 第2课 诸侯纷争与变法运动.pptx
最近下载
- 《城镇道路工程施工与质量验收规范》CJJ1-2008.docx VIP
- 2025年郑州铁路职业技术学院单招职业倾向性测试题库(夺冠系列).docx VIP
- 6RA80操作说明.pdf
- YS/T 1160-2016_工业硅粉定量相分析 二氧化硅含量的测定 X射线衍射K值法.pdf
- 以社区服务铸牢中华民族共同体意识的实践与思考.docx VIP
- 最完整平面设计费价目表.pdf
- 缅怀先烈主题班会优质课件.ppt
- 2025年美丽中国第六届全国国家版图知识竞赛题库及答案(中小学组).docx VIP
- 小学数学新人教版一年级下册第五单元《100以内的笔算加、减法》教案(2025春).doc
- 2025年郑州软件职业技术学院单招职业技能测试题库(夺冠系列).docx VIP
文档评论(0)