- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
会计学;什么是关联规则挖掘?;举例一:“尿布与啤酒”—隐藏的典型关联分析案例;举例二:购物篮分析;关联规则:基本概念;规则度量:支持度和置信度;大型数据库关联规则挖掘中如何降低计算复杂度,提高关联规则效率;关联规则挖掘——一个线路图;3、根据规则集所涉及的抽象层
单层关联规则(关联规则表达时不涉及到概念分层)
多层关联规则(关联规则表达时涉及到概念分层,其内部隐含有概念分层的关系)
4、根据关联挖掘的各种扩充
挖掘最大的频繁模式(该模式的任何真超模式都是非频繁的,意味着这个模式是最大的频繁模式)
挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超集c`,使得每个包含c的事务也包含c`,意味着c的任何一个真超集都不可能是频繁的,我们就说c是频繁闭项集);由事务数据库挖掘单维布尔关联规则;Apriori算法(计算大型数据库时???掘关联规则的常用算法之一);Apriori算法步骤;Apriori算法—示例(如何挖掘满足最小支持度的关联的频繁项集);Apriori算法—示例使用Apiori性质由L2产生C3;Apriori算法—示例由频繁项集产生关联规则;;提高Apriori算法的有效性(1);提高Apriori算法的有效性(2);提高Apriori算法的有效性(3);不产生候选频繁项集的算法——FP树;示例:从数据库构建一个FP树;FP树的构建(第二次扫描数据库);FP树结构的优点:;FP树挖掘;FP树挖掘——从FP树得到条件模式基;FP树挖掘—由条件模式基构建条件FP树,最后,再由条件FP树得出频繁模式;大型数据库中更加复杂的关联规则挖掘;什么是多层关联规则;挖掘多层关联规则的方法;根据对每一个层所使用的最小支持度临界值指标将多层关联挖掘方法分为:一致支持度VS.递减支持度;多层关联——搜索策略(用来找频繁项集的方法);受控的层交叉单项过滤策略如何修正、改善折中的过滤策略呢?;检查冗余的多层关联规则;多维关联规则——基本概念;挖掘多维关联规则--------基本技术;多维关联规则挖掘方法(1)--使用量化属性的静态离散化;多维关联规则挖掘方法(2)----挖掘量化关联规则.A;找出上述这类2-维量化关联规则的方法:关联规则聚类系统(ARCS)
一种源于图像处理的模式识别技术,该技术将量化属性对映射到满足给定分类属性条件的2-D栅格上,然后通过搜索栅格点的聚类而产生关联规则;ARCS过程中的步骤包括
1. 分箱(根据不同分箱方法创建一个2-D数组),本步骤的目的在于减少量化属性相对应的巨大的值个数,使得2-D栅格的大小可控
等宽分箱(将变量的取值范围分为k个等宽的区间,每个区间作为一个分箱)
等深分箱(将变量对象按照个数等分为k个区间,每个区间作为一个分箱)
基于同质的分箱(每个箱中的元组要符合一致的分布)
2. 找出频繁谓词集
扫描分箱后形成的2-D数组,找出满足最小支持度和置信度的频繁谓词集;3. 关联规则聚类
将上一步得到的强关联规则映射到2-D栅格上,使用聚类算法,扫描栅格,搜索规则的矩形聚类(借用图形处理中的聚类算法,通过合并相邻的矩形来实现聚类:如果两个相邻矩形都满足最小支持度和置信度,我们就把他们合并);所挖掘的关联规则左手边只能是量化属性(非量化属性,无法进行坐标定位)
规则的左手边只能有两个量化属性(受我们使用的是2-D栅格的限制),如果使用3-D、4-D栅格则其虽然量化属性达到3、4个但计算庞大,呈指数级增加,该法适应性局限
改进:一种不基于栅格的,可以发现更一般关联规则的技术,其中任意个数的量化属性和分类属性可以出现在规则的两端(现在数据挖掘技术已经可以发展到可以挖掘任意个数的量化属性和分类属性,并且其可以任意组合出现在规则的左、右手两边)
这种新技术是基于等深分箱动态划分
而且其使根据部分完全性的度量进行聚类;多维关联规则挖掘方法(3)------挖掘基于距离的关联规则;关联规则的兴趣度度量(主客观度量相结合的方法);对强关联规则的批评(1);对强关联规则的批评(2);由关联分析到相关分析;基于约束的关联挖掘;关联规则的元规则制导挖掘(1);关联规则的元规则制导挖掘(2);用附加的规则约束制导的挖掘;挖掘过程中使用的规则约束;反单调的和单调的约束;简洁性约束;可转变的和不可转变的约束
文档评论(0)