- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于矩阵的Apriori的改进算法探讨数据挖掘中关联规则
的研究
李燕珊/华南师范大学计算机学院
摘要:文章建立在Apriori改进算法的基础之上,以深州市食品安全问题为研究对象,通过数据挖掘关联规则的方
式,证实了食品质量与食品规格,食品产地,食品种类之间的相关性关系,望引起各方关注与重视。
关键词:Apriori算法;数据挖掘;关联规则;食品安全
品质量与安全是一个专业性很强的问题,其
食标准的制定和抽样检测及评价都需要科学有
效的方法。本文即结合实际数据,在改进Ap
riori算法下,对该问题进行详细分析与说明。
1基于矩阵的Apriori改进算法分析
改进的基本思路在于:由于在常规意义上,Apriori算图1频1项集合
法建立模型过程中需要多次扫描事务数据库,耗费时间过
多,当数据量庞大的时候运算效率低,于是裁剪数据集以
减少I/O开支显得尤为重要。而FP-Tree通过合并一些重复
路径,实现了数据的压缩,从而使得将频繁项集加载到内
存中成为可能。
常规Apriori算法得以实现的关键在于:对事物数据库图2结果集输出
进行多次扫描,在扫描过程当中,计算得出事物数据库当
中所包含的每个项目出现的次数,并生成候选1﹣项目集
合,删除支持度在预期数值以下的项集,最终得出频1图3频繁模式
﹣项的基本集合。此过程中,往往需要对事物数据库进行2实例分析
多次,且重复性的扫描,因而运算效率较低,值得改进。本文从2010年、2011年和2012年深圳市的食品抽检
本文所提出的改进方法主要在于:将整个事物数据库数据入手,探求如食品产地与食品质量的关系;食品销售
压缩为一个频繁模式树的形式,借助于频繁模式树,生成地点(即抽检地点)与食品质量的关系等;为解决上述问
相应的关联规则。先设定数据挖掘中最小支持度的阈值,题,本文引入了以上改进后的Apriori算法,望通过对关联
在对事物数据库进行一次完整扫描的基础之上,生成对应规则的应用,以达到良好的效果。
的1﹣频集,按照由大至小的方式进行排列,并将支持2.1对数据进行处理:选取附件中的检验不合格的数
度计数数值小于设定数值的方式集合项予以排除,生成结据1作为样本,其中以每年的80%的样本数据作为建模的
果集合L。按照集合L描绘FP-tree树,当中对所涉及到的训练样本,20%作为检验模型的检验样本;然后对样本数
关联信息予以了保留。在此基础之上,再对事物数据库进据进行分类,以[不合格,食品种类、抽检地点,食品产地,
行一次扫描,采取自下而上的方式进行挖掘,删除相关子型号规格,季节]为格式输入数据库中。
节点,最终产生与需求契合的频繁模式。2.2模型准备:以2012年第2期检验不合格数据中
举例来说,假定前期所设置的最小支持度为2。第一油炸食品为例,则频繁模式为[不合格、油炸鸡翅,盐区,
步需要完成对事物数据库的扫描,获取相应的频1﹣项一线城市、散装、春季],所有的频繁模式即为频集。算
集合。此步骤的操作示意图如下图所示(见图1);第二步法的基本思想是:在第K趟扫描过程中,只生成长度为K
则需要按照支持度计数大小,由大至小进行频繁项的排序;的频繁项目集。以前一趟生成的所有频繁项目集为基础,
进而,对频繁项集进行支持度计数的排序,获取相应的结生成新的候选项目集,然后扫描数据库,计算这些项目集
果集,如下图所示(见图2)。在构建FP-tree的基础之上,的支持度,按照给定的支持度确定频繁项目集。
对事务进行扫描,生成相应的分支。每次扫描事务需要增(1)首先计算所有的候选1-项集的集合
加相应节点的计数,同时增加新的节点;最后还需要对事
您可能关注的文档
最近下载
- 《突发公共卫生事件应急条例》试题(附答案).docx VIP
- 2447电大《Photoshop图像处理》试题和答案200907.doc VIP
- 国开期末考试2447《Photoshop图像处理》机考试题及答案(第9套).pdf VIP
- 中国细胞与基因治疗产业发展白皮书.pdf VIP
- 个人创业担保贷款申请表.docx VIP
- 中国艾滋病诊疗指南2024版解读PPT课件.pptx VIP
- 国开期末考试2447《Photoshop图像处理》机考试题及答案(李老师第1套).pdf VIP
- 国培二次培训.pptx VIP
- 创新药产业发展白皮书-细胞治疗药篇.pptx VIP
- 山东省高等学校国家级大学生创新创业训练计划项目季度检查报告【模板】.pdf VIP
人力资源管理师持证人
专注于各类文档、文案、文稿的写作、修改、润色和各领域PPT文档的制作,收集有海量各类规范类文件。欢迎咨询!
原创力文档


文档评论(0)