- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘
摘 要
基于 Z
基于 ZBDD 结构的频繁闭合项集挖掘算法研究
万方数据
万方数据
-
- PAGE IV -
万方数据
摘要
随着人类基因组计划的完成,大量的基因表达数据被人们发掘出来,如何 通过对基因表达数据的挖掘,揭示出数据中所蕴含的生物学信息,已经成为数 据挖掘中和生物信息学研究中的热点内容。
但由于基因表达数据具有不同于传统数据集的高维、低样本的特点,使得 对生物信息的挖掘具有很大的挑战性。其中由于关联规则的形式简单而且容易 理解,已经成为了基因表达数据分析中的重要方法之一。频繁闭合项集挖掘则 在关联规则挖掘占据了重要的地位。
本文在研究已有的基因表达数据的频繁闭合项集挖掘算法的基础上,针对
当前算法中存在的一些不足,提出改进算法,主要工作如下:
1)对已有频繁项集和频繁闭合项集挖掘算法进行深入研究。分析现有算法
的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。
2)本文研究了基因表达数据中挖掘 top-k 频繁闭合项集问题,并设计了挖掘 算法 ZDtop。算法使用 ZBDD 结构压缩存储数据集,采用递归的思想构造 ZBDD 结构,通过是否包含某个特定的项目集对搜索空间进行划分,并结合有效的剪 枝策略,加快了频繁闭合项集的产生速度。同时 ZDtop 算法不需要用户事先给 定支持度阈值,使输出的频繁闭合项集的数量在用户的可控制范围内。通过实 例分析,证明了该算法正确有效性。
3)在对经典频繁项集并行算法的研究分析后,提出了基于局部 ZBDD 结构 的频繁闭合项集并行挖掘算法 DL-ZBDD,通过在各处理机上构造局部 ZBDD 结构,并行使用串行 ZBDD 算法在各处理机上进行挖掘。理论分析表明,算法 是正确有效的。
关键词:生物信息学;基因表达数据;关联规则;频繁闭合项集;零压缩二叉 决策图;并行算法;
- I -
ABSTRCT
With the completion of the Human Genome Project, a large number of gene expression data have been obtained. How to mine the biology information from this data has become a hot focus in data mining area and bioinformatics study.
Different from the traditional data, high-dimension and low-sample characteristics of gene expression data are hard challenges for bioinformatics data mining. Association rule has become an important main method in gene expression data analysis for its simple and easy understanding form, and in which Frequent closed Itemsets (FCI for short) play a dominate role.
In this paper, we proposes some improvements against the disadvantages of storage technology and search strategy based on a good study of current FCI mining algorithms, and main works are as following:
A deep study of FI and FCI mining algorithms to analyze theirs advantages and disadvantages, especially of FCI mining algorithms for gene expression data.
Research works in genome data top-k FCI mining. ZDtop mining algorithm is designed, which uses recursive constructed ZBDD structure for data storing, and accelerates the generation speed of FCI through space partition according to containment of partic
您可能关注的文档
- 基于XPDL的轻量级工作流引擎的设计与实现-软件工程专业论文.docx
- 基于吡咯并吡咯二酮、并噻吩的有机光伏材料的合成及性能研究-材料工程专业论文.docx
- 基于吡咯并吡咯二酮的水溶性共轭聚合物的合成及其光动力、光热性质研究-光学工程专业论文.docx
- 基于吡嗪的主体分子设计合成及超分子结构研究-化学工艺专业论文.docx
- 基于XPFL的工作流验证-FlowLvzerXP的研究与实现-计算机应用专业论文.docx
- 基于吡唑、羧酸配体d10金属配位化合物的设计、合成、结构和性质分析-化学专业论文.docx
- 基于XPFL的工作流验证-FlowLvzerXP的研究与实现研究-计算机应用专业论文.docx
- 基于吡唑啉酮固相材料分离识别钍(IV)的研究-应用化学专业论文.docx
- 基于XPM的光任意波形合成器的研究-通信与信息系统专业论文.docx
- 基于Xproc的XML文档处理系统的设计与实现-软件工程专业论文.docx
- 基于边缘检测的图像去噪方法在二维条码识别中的研究与应用-通信与信息系统专业论文.docx
- 基于Zedboard平台人脸跟踪系统的设计实现-软件工程专业论文.docx
- 基于边缘检测的小波图像去噪-电路与系统专业论文.docx
- 基于边缘检测的移动机器人视觉导航方法分析-信号与信息处理专业论文.docx
- 基于Zend框架的企业办公系统设计与实现-计算机技术专业论文.docx
- 基于边缘检测的移动机器人视觉导航方法研究-信号与信息处理专业论文.docx
- 基于Zernike矩和稀疏表示的手势识别控制系统设计与实现-电子与通信工程专业论文.docx
- 基于边缘检测和马尔可夫随机场的AD症脑MRI分割方法研究-计算机应用技术专业论文.docx
- 基于ZeroConf的LXI仪器发现协议研究与实现-检测技术与自动化装置专业论文.docx
- 基于边缘结构几何划分的图像检索方法-信号与信息处理专业论文.docx
文档评论(0)