基于ZBDD结构的频繁闭合项集挖掘算法研究-计算机应用技术专业论文.docxVIP

下载本文档

5
0
约4.74万字
约 56页
2019-02-15 发布于上海
举报
版权申诉

基于ZBDD结构的频繁闭合项集挖掘算法研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘摘要基于 Z 基于 ZBDD 结构的频繁闭合项集挖掘算法研究万方数据万方数据 - - PAGE IV - 万方数据摘要随着人类基因组计划的完成，大量的基因表达数据被人们发掘出来，如何通过对基因表达数据的挖掘，揭示出数据中所蕴含的生物学信息，已经成为数据挖掘中和生物信息学研究中的热点内容。但由于基因表达数据具有不同于传统数据集的高维、低样本的特点，使得对生物信息的挖掘具有很大的挑战性。其中由于关联规则的形式简单而且容易理解，已经成为了基因表达数据分析中的重要方法之一。频繁闭合项集挖掘则在关联规则挖掘占据了重要的地位。本文在研究已有的基因表达数据的频繁闭合项集挖掘算法的基础上，针对当前算法中存在的一些不足，提出改进算法，主要工作如下： 1)对已有频繁项集和频繁闭合项集挖掘算法进行深入研究。分析现有算法的优缺点，重点研究了基因表达数据频繁闭合项集挖掘算法。 2)本文研究了基因表达数据中挖掘 top-k 频繁闭合项集问题，并设计了挖掘算法 ZDtop。算法使用 ZBDD 结构压缩存储数据集，采用递归的思想构造 ZBDD 结构，通过是否包含某个特定的项目集对搜索空间进行划分，并结合有效的剪枝策略，加快了频繁闭合项集的产生速度。同时 ZDtop 算法不需要用户事先给定支持度阈值，使输出的频繁闭合项集的数量在用户的可控制范围内。通过实例分析，证明了该算法正确有效性。 3)在对经典频繁项集并行算法的研究分析后，提出了基于局部 ZBDD 结构的频繁闭合项集并行挖掘算法 DL-ZBDD，通过在各处理机上构造局部 ZBDD 结构，并行使用串行 ZBDD 算法在各处理机上进行挖掘。理论分析表明，算法是正确有效的。关键词：生物信息学；基因表达数据；关联规则；频繁闭合项集；零压缩二叉决策图；并行算法； - I - ABSTRCT With the completion of the Human Genome Project, a large number of gene expression data have been obtained. How to mine the biology information from this data has become a hot focus in data mining area and bioinformatics study. Different from the traditional data, high-dimension and low-sample characteristics of gene expression data are hard challenges for bioinformatics data mining. Association rule has become an important main method in gene expression data analysis for its simple and easy understanding form, and in which Frequent closed Itemsets (FCI for short) play a dominate role. In this paper, we proposes some improvements against the disadvantages of storage technology and search strategy based on a good study of current FCI mining algorithms, and main works are as following: A deep study of FI and FCI mining algorithms to analyze theirs advantages and disadvantages, especially of FCI mining algorithms for gene expression data. Research works in genome data top-k FCI mining. ZDtop mining algorithm is designed, which uses recursive constructed ZBDD structure for data storing, and accelerates the generation speed of FCI through space partition according to containment of partic