一种有效Web关联规则挖掘方法.docVIP

下载本文档

2
0
约3.55千字
约 8页
2018-05-28 发布于福建
举报
版权申诉

一种有效Web关联规则挖掘方法.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种有效Web关联规则挖掘方法

一种有效Web关联规则挖掘方法　　[摘要]Web挖掘是使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。关联规则是Web挖掘的一个重要研究领域。根据关联规则挖掘的要求与特点,结合遗传算法,提出一个有效的Web关联规则挖掘方法。实验结果表明,该算法在Web挖掘中具有一定的优势。　　[关键词]数据挖掘遗传算法关联规则　　[中图分类号]TP18[文献标识码]A[文章编号]1007-9416(2010)02-0109-02 　　　　1 引言　　近年来,随着科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,同时条形码和信用卡的普及和使用,进一步加速了商业、金融、保险等领域的信息化进程。如此多领域的数据各自存放在相应的数据库中,致使数据库的规模日益扩大,已经达到数十兆字节,有的甚至更大。数据挖掘就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在的有用的信息。提取的知识表示为概念(Concepts)、规则(Rule)、规律(Regularities)、模式(Patterns)等形式。　　目前应用于数据挖掘的算法有很多种,如统计方法、机器学习方法、神经计算方法等。遗传算法由于其解决问题以混饨、随机和非线性为典型特征,它为其它科学技术无法解诀或难以解决的复杂问题提供了新的计算模型。这里,我们将遗传算法应用于数据挖掘领域,主要是因为:数据挖掘的目的就是要从大的数据库中提取信息与知识。为了达到这一目的,我们可以将整个数据库看作一个大搜索空间,而把挖掘算法看成一种搜索策略。显然,当数据库容量极其巨大时,进行穷举搜索是不可行的,必须采取一种有效的搜索策略。而与其它的启发式算法比较,遗传算法不仅具有很好的全局搜索能力,同时将其用于数据库领域时它能较好的处理数据库中不同属性之间的相互关系。正是因为遗传算法的这些特点,我们尝试将遗传算法用于数据库领域,实验证明算法是可靠的,可以得到数据库中具有较强预测能力的规则。本文提出用遗传算法挖掘关联规则,希望能在关联规则的提取方法上提出一种新的尝试。　　2 关联规则挖掘　　关联规则挖掘就是从大量的数据中挖掘出有??值的、描述数据项之间相互关系的有关知识。有效的发现、理解、运用关联规则,是完成数据挖掘任务的一个重要手段。Agrawal等人于1993年首先提出了挖掘顾客事务数据库中项集间的关联规则问题,其核心方法是基于频繁项集理论的递推方法。目前,数据挖掘的关联规则方法有多种,其中Apriori算法是一种找频繁项集的典型算法。这种算法简单易理解, 就是使用了不断通过连接产生候选集,并对侯选项集加以剪枝的方式来得到频繁集,再由频繁项集产生强关联规则的过程。关联规则是识别一组给定数据集的各特征值之间和各项之间的相互依赖及相互转化关系。关联规则是如下形式的一种规则:“在无力偿还贷款的人当中,60%的人的月收入在3000元以下。”关联规则的主要任务就是要挖掘出数据库D中所有的有用规则,在这个挖掘过程中,选择高效的关联规则算法进行数据挖掘是非常重要的。　　设I={i1,i2,…im}为所有项目的集合,项目集,D为事务数据库,其中每个事务T是一个项目子集()。每一个事务具有惟一的事务标识Tid。我们说事务T包含项目集X,当且仅当。如果项集A中包含k个项目,则称其为k项集。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。关联规则是形如X=Y的逻辑蕴含式,其中,XT,YT,并且X∩Y=φ。X称作是前提,Y称作是结果。一般用两个参数描述关联规则的属性: 　　*支持度(support):如果事务数据库中有s%的事务包含X U Y,那么我们就说关联规则X=Y的支持度support为s,Support(X=Y)=P(X U Y)。　　*信任度(support):如果事务数据库里包含X的事务中有c%的事务同时也包含Y,那么我们说关联规则X=Y的信任度Confidence为c,Confidence(X=Y)= P(Y|X)。　　关联规则就是支持度和信任度分别满足用户给定阈值的规则。为了提高Apriori算法的有效性,可以使用基于散列的技术压缩侯选k-项集;而基于划分的方法是将大型事务数据库划分成多块数据,以便将每块数据放入内存求其频繁项集,这种方法只需要两次数据库的扫描;基于采样的方法,是在给定数据的一个子集上挖掘;通过事务压缩减少扫描的事务个数;基于hash的方法,可以提高找侯选项集的效率。另一种不需产生侯选项集的频繁模式增长算法,也是一种高效的关联挖掘算法。国内外在关联规则挖掘方面