- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于k阶频繁项目集的调查机器设计
0 数据库扫描算法
作为解决挖掘数据问题的重要研究内容之一,主要研究事务数据库、网络数据库和其他信息存储中的大量数据元素之间的函数和有趣规律。1993年,美国著名学者R.Agrawal等人首次提出了挖掘布尔关联规则,之后提出了著名的基于频繁项集的Apriori算法。关联规则挖掘最初仅限于事务数据库的布尔型关联规则,近年来广泛应用于关系数据库,因此,积极开展在关系数据库中挖掘关联规则的相关研究具有重要的意义。近年来,已经有很多基于Apriori算法的改进和优化:
文献提出杂凑表技术,它根据Ck确定C′k+1,并用规模适当的hash存放C′k+1。在第k遍扫描数据库时,同时统计Ck和hash表中的C′k+1项目。在求出Lk的同时,hash表中C′k+1的计数可用于进一步剪裁Ck+1。文献均提出减少扫描数据库事务记录的方法,如果一个事务记录中不包含长度为k的频繁模式,则不可能包含长度为k+1的频繁模式,因此可在以后的扫描中剔除。文献提出Partition算法,它将数据库分割为若干个可调入内存的子库,分别求出各个子库的局部频繁模式,所有局部频繁模式的并集为全局频繁模式的候选集。最后一遍扫描数据库可最终求出全局频繁模式集。Partition考虑的候选集比Apriori还要多,有可能加剧组合爆炸的问题。文献提出抽样法,它从数据库中随机抽取一个可调入内存的子集,采用一个略低的支持率阈值,求出该子集中的局部频繁模式。第二遍扫描数据库,求出局部频繁模式的全局支持率。该文还提出了确保全局频繁模式不被遗漏的机制。文献提出动态模式计数法DIC,它在同一遍数据库描过程中分段增加候选频繁模式集。DIC在确定一个模式的所有子集都是频繁模式集后就开始其支持率的统计,而不是等到下一轮数据库扫描。文献提出了基于压缩事务矩阵相乘的改进算法,该算法扫描数据库中的数据并将数据信息映射到项目事务二进制矩阵,由项目事务二进制矩阵与相应的辅助矩阵相乘得到频繁1-项目集,依此类推得到其他频繁项目集。该方法由于矩阵相乘花费了较多的时间,因此算法的效率只是得到了一定程度的提高。文献提出了基于十字链表的改进算法,该算法将事务数据库中的信息用十字链表表示,把对数据库的扫描转变为对内存中十字链表的扫描,利用十字链表缩短需要匹配的事务长度,但该算法仍然需要进行模式匹配,也使得算法的提高程度受到限制。
尽管Apriori算法有如上诸多改进方法,但时间效率还不尽理想,为了更进一步提高算法的效率,提出了基于集合的改进Apriori算法,目的就是进一步提高算法的性能。
1 u3000机械密度存储
Apriori是最有影响的挖掘布尔关联规则频繁项目集的经典算法。
在Apriori算法中,通过遍历数据库得到大一项集L1。如果L1非空,由L1产生长度为2的候选项集合C2,然后对事务数据库中的每一个事务t,求出t在C2中的全部子集Ct,对于Ct中的每一个长度为2的候选项集c,令c的计数加1。当扫描事务数据库一遍后,筛选出候选项集合C2中所有计数满足最小支持度的项集组成了长度为2的频繁项集合。用以上步骤重复处理新得到的频繁项集合,直到没有频繁项集合产生。其中候选项集产生的过程被分为连接与剪技两个部分。采用这种方式,使得所有的频繁项集既不会遗漏又不会重复。为提高频繁项集逐层产生的效率,Apriori算法利用了两个重要的性质用于压缩搜索空间。
性质1k维数据项目集X是频繁项目集的必要条件是它的所有k-1维子集均是频繁项目集。
性质2 若k维项目集X中有一(k-1)维子集不是频繁项集,则X不是频繁项集。
2 多次扫描数据库
Apriori算法的优点是结构简单,易于理解,没有复杂的推导。另外,算法应用性质1和性质2而设计的候选产生——检查方法在许多情况下大大缩小了需要检查的候选规模,使算法效率大幅度提高。但Apriori算法依然存在3个主要的问题:
1)多次扫描数据库。Apriori算法需要在每进行一次迭代的时候扫描一次数据库,当挖掘出的最大频繁项集的长度为N时,需要扫描N次数据库,而在实际应用中经常需要挖掘很长的模式,多次扫描数据库带来的开销非常大。
2)可能产生大量候选。Apriori算法在迭代过程中要在内存中产生、处理和保存候选频繁项集,这个数量有时候是非常巨大的,导致算法在广度和深度上的适应性很差。
3)在扫描数据库时需要对候选项集和事务进行模式匹配,花费大量的时间。
总之,Apriori算法有多次扫描数据库、可能产生大量的候选频繁项集及进行大量的模式匹配计算的严重缺陷,使得算法花费在I/O上的时间很多,从而导致算法的效率非常低。因此,为了提高Apriori算法的效率,需要对算法的上述缺陷进行改进。
2.1 u3000ettlxtlyyl的思想
定义1 设x?t,t∈D
您可能关注的文档
- 2001年12月6日油罐车爆炸事故.docx
- 38例下牙槽腭低平无牙颌病例的临床修复.docx
- 929西沙船台风蝴蝶移后的船主角色.docx
- iga肾病中医辨证论治临床相关性研究.docx
- plc应用中的可靠性设计和抗干扰技术.docx
- v形阀门的流量与阀芯出口关系的研究.docx
- x射线相位衬度成像的研究进展.docx
- 《太平军民和剂局方》治小儿诸疾卷选方用药规律探析.docx
- 《西游记西游记补》的梦境叙事艺术.docx
- 《金匮要略》脾胃病证治规律探讨.docx
- 工会代表大会运行规则及十大制度解读.docx
- 法院合同法案例分析与学习笔记.docx
- 医疗急救口头医嘱管理流程制度.docx
- 幼儿园科学实验教学设计案例.docx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5WhataretheshirtsmadeofSectionA合作探究二课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit2Ithinkthatmooncakesaredelicious课时4SectionB1a_1d习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit1Howcanwebecomegoodlearners课时3SectionAGrammarFocus_4c习题课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit5Whataretheshirtsmadeof课时4SectionB1a_1e课件新版人教新目标版.pptx
- 2025秋九年级英语全册Unit3Couldyoupleasetellmewheretherestroomsare课时3SectionAGrammarFocus_4c课件新版人教新目标版.pptx
最近下载
- 鸿业软件限时版pipingl管立得用户手册.pdf
- 试验检测监理细则.doc VIP
- 建设工程纠纷法律培训课件.pptx VIP
- 2025人教版英语七年级上册全册语法综合练习100题( 学生版+解析版).docx VIP
- 小学英语特色作业研究结题报告.docx VIP
- 省级优秀课件综合与实践活动度量衡.pptx VIP
- 2016食品安全国家标准食品中放射性物质检验总则.pdf VIP
- 职业技术学院宠物养护与经营专业人才培养方案.pdf VIP
- 预防校园欺凌安全知识.pptx VIP
- “成于大气 信达天下” ———成信校史课程知到智慧树期末考试答案题库2025年成都信息工程大学.docx VIP
原创力文档


文档评论(0)