数据挖掘关联规则研究.docVIP

下载本文档

6
0
约3.8千字
约 8页
2018-05-28 发布于福建
举报
版权申诉

数据挖掘关联规则研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘关联规则研究

数据挖掘关联规则研究　　【摘要】关联规则作为数据挖掘的一个重要研究分支，其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。本文就数据挖掘中的关联规则做了简要论述。　　【关键词】数据挖掘；关联规则　　　　1.数据挖掘　　从信息处理的角度，人们更希望计算机帮助我们分析数据、理解数据，帮助我们基于丰富的数据作出决策，做人力所不能及的事情。于是，数据挖掘――从大量数据中用非平凡的方法发现有用的知识――就成了一种自然的需求，它的主要目的便是从庞大的数据库中寻找出有价值的隐藏事件，找出其中的知识，并根据不同的问题建立不同的模型，以提供决策时的依据，数据挖掘对组织及决策行为将有相当大的帮助。　　数据挖掘又称数据库中的知识发现（Knowledge Discovery in Databases），知识发现的一般步骤为：数据抽取，数据清理，数据设计，算法设计，算法运行，结果分析。　　数据挖掘的核心步骤是算法的设计阶段，一个好的算法（速度快、伸缩性好、结果容易使用且符合用户的特定需求）是影响数据挖掘效率的最重要因素。数据挖掘是一个循环过程，如果用户对结果不满意，可对数据库进行重新挖掘。　　从数据库中发掘的规则可以有以下几种：特征规则、区分规则、聚类规则、关联规则和进化规则等。关联规则是比较新的一种，它的形式简洁，易于解释和理解并可有效捕捉数据间的重要关系。　　2.关联规则　　关联规则挖掘最相关的三个重要的研究领域是：统计学（Statistics），机器学习(Machine Learning)（或称人工智能，Artificial Intelligent）及数据库（Database）。关联规则挖掘与统计学和机器学习的共同特点是：都是从数据集中发现知识。　　2.1 基本概念　　Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，是数据挖掘的一个重要研究领域。它反映出一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其它事物预测到。具体描述为：　　设I={i1，i2，…，im}是二进制文字的集合，其中的元素称为项(item)。记???务相关的数据D为交易T(transaction)的集合，这里交易T是项的集合，并且T#8838;I。每个交易都有一个唯一的标识，如交易号，记作TID。设X是一个I中项的集合，如果X#8838;T，那么称交易T包含X。　　2.2 关联规则挖掘的算法　　Agrawal等人在1993年设计了一个基本算法，提出了挖掘关联规则的一个重要方法―这是一个基于两阶段频繁项集思想的方法，将关联规则挖掘算法的设计可以分解为两个子问题：　　1)找到所有支持度大于最小支持度的项集（Itemset），这些项集称为频繁项集（Frequent Itemset)。　　2)使用第1步找到的频繁项集产生期望的规则。　　第一个问题是算法设计的核心问题，它的效率高低是影响算法的关键，从庞大的数据库中找出所有符合大于或等于最小支持度的频繁项集，往往是相当艰巨且耗时的过程，但频繁项集被确定以后，要产生相对应的关联规则就容易且直接了，第2步只在生成的频繁项集中创建相应规则的枚举过程，无需复杂的计算，目前所谓的算法设计问题主要是围绕如何生成频繁集展开的。　　2.2.1 经典频集方法　　为了生成所有频繁项集，Agrawal等人在1993年设计了Apriori算法，使用了递推的方法。　　首先产生频繁1-项集L1，然后是频繁2-项集L2，直到有某个r值使得Lr为空，这时算法停止。这里在第k次循环中，过程先产生候选k-项集的集合Ck，Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁项集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频繁项集的候选集，最后的频繁项集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk，这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库，即如果频繁项集最多包含10个项，那么就需要扫描交易数据库10遍，这需要很大的I/O负载。　　2.2.2 FP－tree算法　　Han等人提出FP－tree算法[32]，此算法是不产生候选项集作法的代表，因为不用产生候选项集，只需扫描数据库两次，因此节省了大量I／O的时间，整体的效能大幅提升，而且已运用在实际的产品中。　　FP－tree算法和上述算法最主要的差别在于：FP－tree算法不用产生候选项集，且将数据库压缩在FP－tree的结构中，改进了扫描多次数据库的高成本。我们利用表2-1中的例子来说明FP－tree算法。它的最小支持