数据挖掘在生物信息中应用的现状及展望.docVIP

下载本文档

34
0
约3.96千字
约 7页
2018-04-07 发布于北京
举报
版权申诉

数据挖掘在生物信息中应用的现状及展望.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘在生物信息中应用的现状及展望　　摘要：数据挖掘是一个崭新的计算机应用领域，而生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。综述了数据挖掘技术的内容、过程、方法和模式，介绍了生物信息学的内涵和新的应用技术，同时探索了数据挖掘技术对生物信息挖掘应用的途径。　　关键词：数据挖掘；生物信息；基因；脱氧核糖核酸序列　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)14-20816-02 　　　　1 数据挖掘技术简介　　　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程[1]。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能开采出潜在的模式，找出最有价值的信息，指导商业行为或辅助科学研究。原始数据可以是结构化的，如关系数据库中的数据，也可以是半结构化的，如文本、图形、图像数据，甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。已有的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门广义的交叉学科，它汇聚了不同领域的研究者尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。因此有必要了解数据挖掘的技术、方法、过程和步骤，并探索其对生物信息数据挖掘的潜在应用或应用领域。　　数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知，有效和可实用三个特征。　　先前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。信息的有效要求挖掘前要对被挖掘的数据进行仔细检查，保证它们的有效性，才能保证挖掘出来的信息的有效性。从某种程度来讲，科学数据的有效性与其他数据相比往往是能得到保证的。最为重要的是要求所得的信息是有可实用性，即这些信息或知识对于所讨论的业务或研究领域是有效的，是有实用价值和可实现的。常识性的结论，或已被人们或竞争对手早已掌握的或无法实现的事实都是没有意义的。　　　　2 数据挖掘技术在生物信息的应用　　　　生物信息学是一门新兴的交叉学科。生物信息学是伴随基因组研究而产生的，它的研究内容紧随着基因组研究而发展。广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，即管好这些数据；另一个是从中发现新的规律，即用好这些数据。具体地说，生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律[2]。生物信息学自诞生以来，经历了3个阶段：1) 基因年代的生物信息学，主要是序列分析、数据库的查询、计算机操作和PC的应用；2) 基因组年代的生物信息学，主要是基因的寻找、数据与数据之间的比较、网络相互界面；3) 后基因组年代的生物信息学，主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析，而且进一步到基因和基因组的功能分析，即所谓的功能基因组研究。　　其具体内容表现在：a) 将已知基因的序列与功能联系在一起研究；b) 从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的基因分离；c) 从单个基因致病机理的研究转向多个基因发病机理的研究；d) 从组织与组织之间的比较来研究功能基因组和蛋白组。其目的就是为了能够对整个基因组进行分析和比较，对多元基因及相应蛋白间的功能和作用进行整体分析。如何有效地进行数据的采集、收集、整理、检索、分析，从中提取规律，上升为理论，以便“读懂”基因组的遗传信息。后基因组时期的主要任务为数据挖掘，即从完全测序的基因组中预测功能。　　生物信息学的大量研究都集中在DNA数据的分析上，这里重点探讨其应用。DNA分析的研究成果已经导致了对许多疾病和残疾的基因成因的发现，以及对疾病的诊断、预防和治疗的新药物、新方法的发现。基因研究中的一个重要关注点是DNA序列的研究。所有的DNA序列由四个基本