- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。
工学硕士学位论文
基于树结构的生物数据挖掘算法的
研究与实现
THE RESEARCH AND IMPLEMENTATION
OF TREE-BASED
BIOLOGICAL DATA MINING ALGORITHM
苏纯
哈尔滨工业大学
2006 年 6 月
国内图书分类号:TP301.6
国际图书分类号:681.3.06
工学硕士学位论文
基于树结构的生物数据挖掘算法的
研究与实现
硕 士 研 究 生: 苏纯
导
师: 张岩副教授
申 请 学 位: 工学硕士
学 科 、 专 业: 计算机科学与技术
所 在 单 位: 计算机科学与技术学院
答 辩 日 期: 2006 年 6 月
授予学位单位: 哈尔滨工业大学
Classified Index:TP301.6
U.D.C.: 681.3.06
Dissertation for the Master Degree in Engineering
THE RESEARCH AND
IMPLEMENTATION OF TREE-BASED
DATA MINING ALGORITHM
Candidate:
Supervisor:
Academic Degree Applied for:
Specialty:
Affiliation:
Date of Oral Examination:
University:
Su Chun
Prof. Zhang Yan
Master of Engineering
Computer Science and Engineering
Computer Science and Technology
June, 2006
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘
要
生物信息学是在生命科学研究中,以计算机为工具对生物信息进行储
存、检索和分析的科学。目前研究重点主要在基因组学(Genomics)和蛋白质
学 (Proteomics),即分析核酸和蛋白质中表达结构功能的生物信息。数据挖
掘作为一种以数据库、统计学和人工智能学为基础的技术,为生物学家提供
了有力的信息分析工具。数据挖掘中的频繁模式挖掘技术专注于发现数据中
频繁出现的特征模式。根据特征模式复杂性,可分为频繁项模式、频繁序列
模式以及频繁子树模式等。本文对 RNA分子建立树形模型,利用频繁子树
挖掘算法挖掘RNA二级结构中的公共拓扑模式。
本文首先概括了频繁模式挖掘技术及频繁子树挖掘算法的现状,介绍了
RNA二级结构预测的主要方法,探讨了目前数据挖掘技术应用于生物数据
所存在的问题。然后给出了与频繁子树有关的概念,区分了嵌入子树和直接
子树,定义了同构交叠子树和最小性。在此基础上,对挖掘嵌入子树的
TreeMiner算法和PatternMatcher算法进行了分析。这两种算法分别采用垂直
挖掘方式和水平挖掘方式,但是在挖掘过程中均无法区分同构交叠子树。本
文提出了挖掘嵌入子树的算法DistinctTM(distinct tree mining)。本算法剔
除了同构交叠子树带来的冗余,保持了模式在一棵树上的最小性。实验结果
表明,该算法优于TreeMiner算法和PatternMatcher算法。最后,本文给出了
对RNA二级结构建立树模型的方法,使用DistinctTM算法挖掘了其中的公共
拓扑模式。
关键词
数据挖掘;嵌入子树;同构交叠子树;生物数据;RNA 二级结构
-I-
哈尔滨工业大学工学硕士学位论文
Abstract
Bioinformatics is a science using computer to store, retrieve and analyze
biological information in biology science. The recent research focuses on
Genomics and Proteomics, which investigate structural and functional
information of nucleus and protein. As a technology based on database, statistics
and AI, data mining provides biologists useful information analyzing tools.
Frequent pattern mining technology in data mining is for mining characteristic
patterns with frequent occurrences among da
您可能关注的文档
最近下载
- TSGZ8001—2019特种设备无损检测人员考核规则(去水印版).pdf VIP
- 企业工会助推企业高质量发展.docx VIP
- 圆明园的毁灭观后感.docx VIP
- 《新能源汽车驱动电机及控制技术》 课件 3.1 电机控制器检测与故障诊断.pptx
- GB∕T 5777-2019 无缝和焊接(埋弧焊除外)钢管纵向和∕或横向缺欠的全圆周自动超声检测(含2021年第一号修改单).pdf
- 汽修安全培训课件.ppt VIP
- 网络改造设计方案.doc VIP
- 《圆明园的毁灭》课文读后感.docx VIP
- 旅游大数据(北京第二外国语)中国大学MOOC慕课 章节测验期末考试答案.docx VIP
- 统编版四年级语文上册课件《西门豹治邺》.pptx VIP
文档评论(0)