基于树结构的生物数据挖掘算法的研究与实现.docVIP

基于树结构的生物数据挖掘算法的研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。

工学硕士学位论文 基于树结构的生物数据挖掘算法的 研究与实现 THE RESEARCH AND IMPLEMENTATION OF TREE-BASED BIOLOGICAL DATA MINING ALGORITHM 苏纯 哈尔滨工业大学 2006 年 6 月 国内图书分类号:TP301.6 国际图书分类号:681.3.06 工学硕士学位论文 基于树结构的生物数据挖掘算法的 研究与实现 硕 士 研 究 生: 苏纯 导 师: 张岩副教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 计算机科学与技术学院 答 辩 日 期: 2006 年 6 月 授予学位单位: 哈尔滨工业大学 Classified Index:TP301.6 U.D.C.: 681.3.06 Dissertation for the Master Degree in Engineering THE RESEARCH AND IMPLEMENTATION OF TREE-BASED DATA MINING ALGORITHM Candidate: Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Oral Examination: University:  Su Chun Prof. Zhang Yan Master of Engineering Computer Science and Engineering Computer Science and Technology June, 2006 Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘  要 生物信息学是在生命科学研究中,以计算机为工具对生物信息进行储 存、检索和分析的科学。目前研究重点主要在基因组学(Genomics)和蛋白质 学 (Proteomics),即分析核酸和蛋白质中表达结构功能的生物信息。数据挖 掘作为一种以数据库、统计学和人工智能学为基础的技术,为生物学家提供 了有力的信息分析工具。数据挖掘中的频繁模式挖掘技术专注于发现数据中 频繁出现的特征模式。根据特征模式复杂性,可分为频繁项模式、频繁序列 模式以及频繁子树模式等。本文对 RNA分子建立树形模型,利用频繁子树 挖掘算法挖掘RNA二级结构中的公共拓扑模式。 本文首先概括了频繁模式挖掘技术及频繁子树挖掘算法的现状,介绍了 RNA二级结构预测的主要方法,探讨了目前数据挖掘技术应用于生物数据 所存在的问题。然后给出了与频繁子树有关的概念,区分了嵌入子树和直接 子树,定义了同构交叠子树和最小性。在此基础上,对挖掘嵌入子树的 TreeMiner算法和PatternMatcher算法进行了分析。这两种算法分别采用垂直 挖掘方式和水平挖掘方式,但是在挖掘过程中均无法区分同构交叠子树。本 文提出了挖掘嵌入子树的算法DistinctTM(distinct tree mining)。本算法剔 除了同构交叠子树带来的冗余,保持了模式在一棵树上的最小性。实验结果 表明,该算法优于TreeMiner算法和PatternMatcher算法。最后,本文给出了 对RNA二级结构建立树模型的方法,使用DistinctTM算法挖掘了其中的公共 拓扑模式。 关键词  数据挖掘;嵌入子树;同构交叠子树;生物数据;RNA 二级结构 -I- 哈尔滨工业大学工学硕士学位论文 Abstract Bioinformatics is a science using computer to store, retrieve and analyze biological information in biology science. The recent research focuses on Genomics and Proteomics, which investigate structural and functional information of nucleus and protein. As a technology based on database, statistics and AI, data mining provides biologists useful information analyzing tools. Frequent pattern mining technology in data mining is for mining characteristic patterns with frequent occurrences among da

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档