基于关联规则挖掘weka数据挖掘应用.docVIP

下载本文档

45
0
约3.9千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于关联规则挖掘weka数据挖掘应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则挖掘weka数据挖掘应用

基于关联规则挖掘weka数据挖掘应用　　摘要：关联规则挖掘作为数据挖掘的一个重要方法，在许多数据挖掘领域得到应用。本文阐述了关联规则挖掘以及其关键算法，并针对具体的实例，描述了数据挖掘工具weka挖掘关联规则的过程。　　关键词：数据挖掘；关联规则挖掘；weka 　　中图分类号：TP311.13 文献标识码：A 文章编号：1007-9599　（2012）　19-0000-02 　　1 引言　　近年来，随着数据库应用和互联网的快速发展和普及，人们渐渐体会到到数据海洋的无边无际。面对如此巨大的数据资源，人们迫切需要一种新的技术和工具将这些数据转换成有用的知识与信息资源。数据挖掘（Data　Mining，简称DM）作为20世纪末刚兴起的数据智能分析技术，由于其广泛的应用前景而备受关注，它可以从数据库，或数据仓库，以及其它各类型的数据源中，自动抽取或发现有用的知识和信息资源。　　数据挖掘是一个多领域交叉的研究和应用领域，其中包括了：数据库技术、人工智能、知识获取、知识系统、神经网络、信息检索等。数据挖掘的有关技术和方法包括：数据预处理、定性概念归纳、决策树分类方法、关联规则挖掘等。关联规则挖掘作为数据挖掘的重要方法，在许多数据挖掘应用领域得到运用。　　2 关联规则挖掘　　关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。例如：从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。　　2.1 关联规则挖掘的基本概念　　设I={i1，i2，....，in}为数据项集合，D为与任务相关的数据集合，也就是一个交易数据库；其中的每个交易T是一个数据项子集，即TI；每个交易均包含一个识别编号TID，设A为一个数据项集合，当且仅当AT时，称交易T包含A。一个关联规则就是具有“A?B”形式的蕴含式；其中有AI，BI且A∩B=?。规则A?B在交易数据集D中成立，且具有s支持度和c信任度。这也就是意味着交易数据集中有D中有s比例的交易T包含A∪B数据项；且交易数据集D中有s比例的交易T满足“若包含A就包含B的条件”。具体描述是：support（A?B）=P（A∪B），confidence（A?B）=P（A│B）。　　满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则（strong）。通常为方便起见，都将最小支持度阈值简写为min_sup；最小信任度阈值简写为min_conf。这两个阈值均在0%到100%之间。　　一个数据项的集合就称为项集（iternset）；一个包含k个数据项的项集就称为k-项集。因此集合（computer，software）就是一个2-项集。一个项集的出现频度就是整个交易数据集D中包含该项集的交易记录数；这也称为是该项集的支持度（support　count）。而若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中记录数，那么就称该项集满足最小支持度阈值；而满足最小支持度阈值所对应的交易记录数就称为最小支持频度（minimum　support　count）。满足最小支持阈值的项集就称为频繁k项集（frequent　itemset）。所有频繁项集的集合就记为LK[1]。　　2.2 Apriori算法　　Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法；它也是一个很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识（prior　knowledge）而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生（k+1）-项集。具体做法就是：首先找出频繁1-项集，记为L1；然后利用L1来挖掘L2，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。该算法利用了如下两个基本性质：1.任何频集的子集必定是频集；2.任何非频繁项集的超集必定是非频繁项集。　　连接步骤：为发现LK，可以将LK-1中两个项集相连接以获得一个LK的候选集合CK。设l1和l2为LK-1中的两个项集（元素），记号li[j]表示li中的第j个项；如li[k-2]就表示li中的倒数第二项。为方便起见，假设交易数据库中各交易记录中各项均已按字典排序。若LK-1的连接操作记为LK-1⊕LK-1，它表示若l1和l2中的前（k-2）项是相同的，也就是说若有：（l1[1]=l2[1]　∧…∧（l1[k-2]= 　　l2[k-2]）∧l1[k-1]l2[k-1]，则LK-1中l1和l2的内容就可以连接在一起。而条件l1[k-1] 　　l2[k-1]可以确保不产生重复的项集。　　删除步骤：CK是LK的