- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1第二章关联规则挖掘2.1关联规则挖掘2.2挖掘单维布尔关联规则2.3挖掘多层关联规则2.4挖掘多维关联规则2023最新整理收集do
something
22.1关联规则挖掘关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,人们对于从数据库中挖掘关联规则越来越感兴趣。从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。
32.1关联规则挖掘如何从事务DB或关系DB的大量数据中挖掘出关联规则知识?什么样的关联规则才是最有意义的?如何才能使挖掘过程尽快发现有价值的关联规则知识?这就是本章要讨论的内容。
42.1关联规则挖掘1.购物篮分析购物篮分析是关联规则挖掘的最初形式。假定作为某商店经理,你想更加了解你的顾客的购物习惯。例如:“顾客多半会在一次购物时同时购买什么商品组或集合?”,为解答这个问题,可以在商店顾客事务零售数据上运行购物篮分析。分析的结果可用于市场规划、广告策划和分类设计。
52.1关联规则挖掘
-购物篮分析若设商店中所有销售商品为一个集合,则每个商品均为一个布尔变量,表示该商品是否被(一个)顾客购买。因此每个购物篮就可以用一个布尔向量表示。分析相应布尔向量,得到反映商品频繁关联或同时购买的购买模式,并可用关联规则的形式表示模式。例如,购买计算机也趋向于同时购买财务管理软件可用以下关联规则表示:
62.1关联规则挖掘
-购物篮分析 关联规则的支持度(support)2%表示:分析中的全部事务的2%同时购买计算机和财务管理软件。关联规则的置信度(confidence)60%表示:购买计算机的顾客60%也购买财务管理软件。
72.1关联规则挖掘2.基本概念设I={i1,i2,…,im}是项的集合。任务相关数据D:是事务(或元组)的集合。事务T:是项的集合,且每个事务具有事务标识符TID。项集A:是T的一个子集,加上TID即事务。
82.1关联规则挖掘
-基本概念项集:项的集合,包含k个项的项集称为k-项集。关联规则:每个发现的模式都应当有一个表示其有效性的确定性度量,关联规则的确定性度量为:其中并且形如的蕴涵式,
92.1关联规则挖掘
-基本概念置信度c: 置信度为100%或1,意味着数据分析时,该规则总是对的,这种规则称为准确的。
102.1关联规则挖掘
-基本概念【例1】任务相关数据由某商店计算机部购买物品的事务数组成,一个置信度为80%的关联规则:意味着买计算机的顾客80%也买软件。
112.1关联规则挖掘
-基本概念一个模式潜在的有用性是定义其兴趣度的一个重要因素,可以用一个实用性函数(如支持度)来评估。关联规则的支持度是模式为真的任务相关数据的事务所占的百分比。支持度s:
122.1关联规则挖掘
-基本概念【例2】例1中一个支持度为30%的关联规则,意味着计算机部的所有顾客的30%,同时购买了计算机和软件。支持度和置信度是两个兴趣度度量,分别反映发现规则的有用性和确定性。支持度小:规则使用面窄置信度小:规则无意义
132.1关联规则挖掘
-基本概念满足最小支持度阈值和最小置信度阈值的关联规则被认为是有趣的。阈值由用户或专家设定。强规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。为方便计,用0%和100%之间的值表示支持度和置信度。
142.1关联规则挖掘
-基本概念项集的频率:即包含项集的事务数,也称为项集的支持计数(support_count)。如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,就称该项集满足最小支持度min_sup。频繁项集:满足最小支持度的项集称为频繁项集。频繁k-项集的集合通常记作Lk。
152.1关联规则挖掘
-基本概念关联规则挖掘包含两个步骤:1)找出所有频繁项集:根据定义,这些项集的频繁性至少和预定义的最小支持计数一样。2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
162.1关联规则挖掘3.关联规则挖掘分类 根据不同的标准,关联规则可以分成若干类型:(1)根据规则所处理的值的类型,关联规则可以分为布尔的和量化的如果规则考虑的关联是项的在与不在,则它是布尔关联规则。例如,由购物篮分析得到的就是布尔关联规则。
172.1关联规则挖掘
-关联规则挖掘分类如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。在这种规则中,项或属性的量化值划分为区间。例如,下面的规则就是量化关
您可能关注的文档
最近下载
- 《增材制造》课件—02增材制造技术的常见工艺方法及其装备.pptx VIP
- 森林植被恢复费征收使用管理暂行办法.docx VIP
- 《明别集丛刊》第1辑目录.pdf VIP
- 药物的合成反应.ppt VIP
- 具身智能标准体系发展研究.docx VIP
- 2025年税务系统面试模拟试题及答案解析(70).doc VIP
- 基于核心素养的物理课堂教学设计和反思初中物理市公开课获奖课件省名师示范课获奖课件.pptx VIP
- 室外给排水专项施工方案.docx VIP
- 不定式、动名词、分词高频考点(解析版)-2025年上海中考英语专项复习.pdf VIP
- 2025年高速公路收费员岗位技能及理论知识考试题与答案.docx VIP
文档评论(0)