数据挖掘技术在生物信息学中应用.docVIP

下载本文档

19
0
约4.65千字
约 10页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘技术在生物信息学中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在生物信息学中应用

数据挖掘技术在生物信息学中应用　　【摘要】人类社会进入到新时期，各学科、各领域之间相互交叉和交融，衍生出了很多新学科。其中生物信息学作为一门新兴学科，是生物学与信息技术学科交叉产生的新学科，主要是分析和研究生物信息的学科。生物学科自身具有复杂性特点，为了能够更好地实现对生物信息学的研究，我们积极引进数据挖掘技术，能够有效收集和处理信息的同时，还能够将研究成果应用到实践当中。本文将从数据挖掘技术概念入手，分析并了解生物信息学，最后探讨技术在生物信息学中的应用。　　【关键词】数据挖掘技术生物信息学应用　　信息时代背景下，计算机、信息技术在医学领域得到了广泛推广和普及，在提高医学水平的同时，为生物学、信息学等学科之间的融合创造了契机，并形成了生物信息学学科。医学信息化建设促使医学数据呈现几何级数增长，具有非常明显的大数据等特点。任何事物都有属于自身的独特发展规律，为了能够更好地挖掘其中的规律，我们需要引进数据挖掘技术。数据挖掘技术作为一项新型技术，以其自身强大的存储能力、分析能力，为生物信息学健康发展提供了一定支持和帮助。因此加强对该课题的研究具有非常重要的现实意义。　　1 数据挖掘技术概念　　所谓数据挖掘技术，主要是指数据库知识发现的一个环节，建立在计算机基础之上，从大量数据中通过算法搜索隐藏于其中信息的过程，具体是由统计、在线分析处理、情报检索等方法构成[1]。当今社会中，信息资源逐渐成为企业发展核心资源，能够为企业带来更多发展契机，因此数据挖掘技术在社会各领域中的应用范围较广，图1为数据挖掘系统结构。　　该项技术最早起源于上个世纪九十年代后期，是一门跨学科综合研究领域，涉及数据库系统、统计学等多项内容。该项技术出现的终极目标是为了从数据当中发现规律，预测事件未来发展趋势，为决策者提供科学依据。　　2 生物信息学概述　　上个世纪八十年代，生物学随着人类基因组计划兴起，比数据挖掘技术发展较早。生物信息学提出的终极目标是揭示基因组信息结构特点、遗传语言规律等，以此来充分掌握人类基因变化情况，认识人类自身，从中挖掘出更多具有研究价值的知识与内容。生物信息学的出现，在很大程度上丰富和发展当前物理学、生物学及化学等多个学科，为学科群持续发展奠定了坚实的基础，成为学科群中最具活力和影响力的新学科[2]。　　相比较其他学科，生物信息学起步较晚，正处于发展阶段，但很多学者都被学科奥秘所吸引，并钻研其中。在未来，生物信息学将成为电子信息技术之后的又一个科技革命，且会创造巨大的社会与经济效益。现阶段，国内外出现了将生物信息学作为基础的企业，并开展了对基因工程药学、生物芯片等方面的研究。就本质上来说，生物信息学研究主要是对知识发现、数据挖掘的过程，现有研究成果已经应用到实践当中，并取得了不错的成效。　　3 数据挖掘技术在生物信息学中的应用　　生物信息分布范围较广，除了基本DNA序列外，还存在蛋白质以及结构等内容，其中将cDNA序列作为基础的数据库记录能够达到上万条，大量数据共同构成了生物学数据海洋。面对大量数据信息，我们能够明确的是其中存在很多有价值的内容，但是如何更好地挖掘和提炼出来，成为需要解决的难点。因此将数据挖掘技术应用于生物信息学当中非常必要。笔者结合自身实践经验，认为可以从以下几个方面入手：　　3.1 蛋白质序列数据库　　蛋白质结构直接决定其自身生物功能。因此在研究蛋白质过程中，我们需要充分了解蛋白质的空间结构。实际研究中，蛋白质结构测定方法较少，且成熟度偏低，无法满足实际研究要求。核酸霉变性及重折叠实验，能够从蛋白质的氨基酸序列当中预测出蛋白质的三维空间结构，为实践提供强大的支持。蛋白质结构预测主要针对二级结构进行预测。实践表明，不同的氨基酸残基在不同的环境当中能够形成对应的二级结构倾向性，所以对于二级结构的预测具有模式识别问题。为了能够提高研究有效性，可以选择立体化学、图论及统计等方法。　　就理论层面而言，蛋白质一级结构是其折叠后的基础，能够从氨基酸序列当中获得自然折叠的蛋白质结构。但是蛋白质自身具有多肤链特点，将会促使构象是一个天文数字，现有计算能力远远不能够满足构象构建的构建。因此需要采取一定的启发式方法，找到接近构象的方法[3]。具体来说，可以采取从头预测的方法，构建同源模型，并在此基础上判断亚细胞定位、信号肤剪切位点等。　　3.2 基因序列数据库　　基因组不仅仅是简单的基因排列，其还具有独特的组织、信息结构，结构在长期发展过程中势必会形成这种特性，究其根本，是受到基因功能自身的影响。对此，我们可以利用EST数据，从基因序列当中挖掘出新基因，并分析和预测各种功能位点，其中研究基因调整和控制网络成为近年来的主要发展方向。具体来说，主要体现在两个方面：一是从头算