基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则的研究.docVIP

下载本文档

7
0
约2.6千字
约 5页
2016-09-30 发布于北京
举报
版权申诉

基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则的研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则的研究.doc

基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则的研究　　摘要：文章建立在Apriori改进算法的基础之上，以深州市食品安全问题为研究对象，通过数据挖掘关联规则的方式，证实了食品质量与食品规格，食品产地，食品种类之间的相关性关系，望引起各方关注与重视。　　关键词：Apriori算法；数据挖掘；关联规则；食品安全　　中图分类号：TP311.13 　　食品质量与安全是一个专业性很强的问题，其标准的制定和抽样检测及评价都需要科学有效的方法。本文即结合实际数据，在改进Apriori算法下，对该问题进行详细分析与说明。　　1 基于矩阵的Apriori改进算法分析　　改进的基本思路在于：由于在常规意义上，Apriori算法建立模型过程中需要多次扫描事务数据库，耗费时间过多，当数据量庞大的时候运算效率低，于是裁剪数据集以减少I/O开支显得尤为重要。而FP-Tree通过合并一些重复路径，实现了数据的压缩，从而使得将频繁项集加载到内存中成为可能。　　常规Apriori算法得以实现的关键在于：对事物数据库进行多次扫描，在扫描过程当中，计算得出事物数据库当中所包含的每个项目出现的次数，并生成候选1?项目集合，删除支持度在预期数值以下的项集，最终得出频繁1?项的基本集合。此过程中，往往需要对事物数据库进行多次，且重复性的扫描，因而运算效率较低，值得改进。　　本文所提出的改进方法主要在于：将整个事物数据库压缩为一个频繁模式树的形式，借助于频繁模式树，生成相应的关联规则。先设定数据挖掘中最小支持度的阈值，在对事物数据库进行一次完整扫描的基础之上，生成对应的1?频繁集，按照由大至小的方式进行排列，并将支持度计数数值小于设定数值的方式集合项予以排除，生成结果集合L。按照集合L描绘FP-tree树，当中对所涉及到的关联信息予以了保留。在此基础之上，再对事物数据库进行一次扫描，采取自下而上的方式进行挖掘，删除相关子节点，最终产生与需求契合的频繁模式。　　举例来说，假定前期所设置的最小支持度为2。第一步需要完成对事物数据库的扫描，获取相应的频繁1?项集合。此步骤的操作示意图如下图所示（见图1）；第二步则需要按照支持度计数大小，由大至小进行频繁项的排序；进而，对频繁项集进行支持度计数的排序，获取相应的结果集，如下图所示（见图2）。在构建FP-tree的基础之上，对事务进行扫描，生成相应的分支。每次扫描事务需要增加相应节点的计数，同时增加新的节点；最后还需要对事物数据库进行一次完整扫描，采取自下而上的数据挖掘方法，对所存在的子节点进行删除，获取频繁模式（见图3）。　　2 实例分析　　本文从2010年、2011年和2012年深圳市的食品抽检数据入手，探求如食品产地与食品质量的关系；食品销售地点（即抽检地点）与食品质量的关系等；为解决上述问题，本文引入了以上改进后的Apriori算法，望通过对关联规则的应用，以达到良好的效果。　　2.1 对数据进行处理：选取附件中的检验不合格的数据1作为样本，其中以每年的80%的样本数据作为建模的训练样本，20%作为检验模型的检验样本；然后对样本数据进行分类，以[不合格，食品种类、抽检地点，食品产地，型号规格，季节]为格式输入数据库中。　　2.2 模型准备：以2012年第2期检验不合格数据中油炸食品为例，则频繁模式为[不合格、油炸鸡翅，盐田区，一线城市、散装、春季]，所有的频繁模式即为频繁集。算法的基本思想是：在第K趟扫描过程中，只生成长度为K的频繁项目集。以前一趟生成的所有频繁项目集为基础，生成新的候选项目集，然后扫描数据库，计算这些项目集的支持度，按照给定的支持度确定频繁项目集。　　（1）首先计算所有的候选 1-项集的集合　　（2）扫描数据库，删除其中的非频繁项子集，生成频繁 1-项集的集合　　（3）将与自己连接生成候选 2-项集　　（4）扫描数据库，删除中的非频繁子集，生成频繁 2-项集　　（5）以此类推，通过 k-1-项频繁项集与自己连接生成候选 k-项集，然后生成频繁k-项集，直到不再有频繁项集产生为止。　　2.3 Apriori算法关联规则模型建立：将每个特征的范围划分为相应个数的等间区间，如产地为3个等间区间，将特征值的不同取值映射到得分高、中、低的三个区间，用1、2、3标记。不同的特征值也用数字标记，并跟得分组合。与此同时，将不同的样本数据也用数字标记，至此频繁项集便构造完毕。进而需要生成相应的关联规则。在初始化频繁项集合后，设定最小支持度，由Apriori算法得出最终的频繁集：　　首先设定最小置信度阀值，然后对每个项集I产生所有非空子集S，对任一个，如果：　　则输出规则：　　其中表示的支持频数。