- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多数据库中间接关联规则挖掘算法
多数据库中的间接关联规则挖掘算法 摘要:随着多数据库技术的快速发展,在多个数据库中获取有效信息显得尤为重要。现有技术都是在一个数据库中挖掘间接关联规则。采用投票率作为规则兴趣度量来提取全局间接关联规则,并在此基础上定义了相对支持度和方差来衡量间接规则的强度,以从多个数据库中挖掘有效的间接关联规则。最后通过实验验证了该方法的有效性
关键词:间接关联规则;数据挖掘;多数据库;投票率
DOIDOI:10.11907/rjdk.161920
中图分类号:TP312
文献标识码:A文章编号文章编号2016)009004902
作者简介作者简介:段巧灵(1986-),女,湖南衡阳人,硕士,武汉晴川学院计算机学院助教,研究方向为数据挖掘、机器学习
0引言
关联规则作为数据挖掘的重要领域之一,由R Agrawal[1]在1993年首次提出。关联规则是通过频繁项集的挖掘来获取的,却忽略了其中的非频繁项集。例如,在超市的商品交易中,如果数据项对(A,B)频率非常低,但是(A,C)和(B,C)出现的频率却非常高,可称为间接关联规则[2],即(A,B)通过中间集C间接关联。间接关联规则提供了非常有价值的信息,可以应用在很多方面,如对文本的查询进行分类、市场营销、Web日志挖掘和股票分析等
目前,现有技术都是在单个数据库中挖掘间接关联规则。随着多数据库技术的快速发展,在多个数据库中挖掘间接关联规则显得尤为重要[3]。本文致力于挖掘多数据库中的间接关联规则,即挖掘全局的间接关联规则。使用投票率作为标准选取有效的全局间接关联规则,并通过计算各个有效的间接规则的支持度方差对其进行排序,以供决策者使用。最后设计了相关算法,实验结果证明了该算法的有效性
1相关工作
1.1问题描述
间接关联规则是形如的一个表达式,其中A,B,MT,A∩B=Φ,项对(A,B)依赖中间项集M而存在,称项对(A,B)通过中间集M间接关联。挖掘间接关联规则即找出满足条件的中间项M:
(1) sup(A,B)≤ts
(2) sup(A,M)≥tf,sup(B,M)≥tf,dep(A,M)≥td,dep(B,M)≥td
其中,dep(A,B)=P(A∩B)[]P(A)*P(B)表示项集之间依赖关系的强度,ts、tf、td分别称为项对支持度阈值、中间集支持度阈值、依赖度阈值。通常设置tf≥ts
1.2间接关联规则挖掘技术
现行的间接关联规则挖掘研究主要针对提高开发效率和扩展定义两方面[46]。间接关联规则是由P N Tan等在文献[2]中首次提出。通过频繁项集挖掘间接关联规则,主要分为以下两步:①用标准的频繁项集挖掘算法获取所有频繁项集,如Apriori算法;②通过检查由频繁项集产生的候选关联规则来发现有效的间接关联规则
显然,通过挖掘所有频繁项集来获取间接关联规则非常费时。Wan在文献[4]中提出了一种基于HIstruct的数据模型,通过HI-mine算法来提高间接关联规则挖掘效率;Chen等在文献[5]中考虑到数据项的生命周期,探索出一种新模式并用MGGrowth算法来挖掘间接关联规则;Ouyang等在文献[6]中考虑到不同角色在现实世界中的应用,提出一个间接的加权关联规则模型来扩展间接关联规则挖掘模型
2多数据库中的间接关联规则挖掘
在多数据库中挖掘有效的间接关联规则主要包括以下3个步骤:①对多个数据库使用聚类算法进行分类;②对每个数据库进行间接关联规则挖掘;③挖掘多个数据中的全局间接关联规则
下文详细阐述了多数据库挖掘的第3个步骤。在科学研究及应用中,对于规则的选取可以采用投票来决定。一个规则投票数越多,则表示该规则可靠性越高。因此,多数据库中的全局间接关联规则是以投票率作为标准来挖掘的。
文档评论(0)