- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的建模在生物信息学中的应用研究
j≯支互二謦堕主兰堡笙苎
数据挖掘的建模及在生物信息学中的应用研究
摘要
近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的
进步,与此同时,在各个领域产生了大量的数据。为了从如此大量的数
据中发现有价值的知识及规律,人们结合统计学、数据库、机器学习等
技术,提出数据挖掘技术来解决这一难题。
聚类分析是数据挖掘研究中的重要内容,成为各学科研究中的重要
工具。但在现实生活中,常常遇到高维数据集的处理且在大多数情况下,
这些数据集对于各个聚类存在属性不平衡的现象。根据这一点,本文提
出在核特征空间中的属性加权核聚类算法,实验表明新聚类算法能很好
地反映各属性对于各个聚类的重要性,因而取得了比传统聚类算法更好
魄结果。传统聚类算法的应用对象往往局限于单一独立的数据集,但在
很多情况下一个数据集要和其他数据集相互发生关联。基于信息理论,
本文提出的合作聚类算法反映了数据集间的相互作用关系,结果表明聚
类结果将受到其他数据集的影响。在人类世界中,人眼是最有效的获取
知识的器官,也是最有效的聚类机制。因此模仿人眼的工作原理将为研
究聚类分析提供一个非常好的平台。本文通过模拟人眼非均匀采样的特
点,提出一新颖的视觉聚类分析算法,该算法对于解决聚类分析结果评
价的有效性等有着重要的参考意义。
随着生物科学技术在近几年的发展,产生了大量的生物数据。利用
传统的生物实验方法将不能满足目前处理如此多生物数据的需要。在这
种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学
的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、
机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利
用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的
基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验
表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无
监督”聚类算法有很大提高。通过这一点表明,在缺乏数据样本类别标
号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预
先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。
在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能
为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20.D
氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法
在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直
是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集
成多个不同维数的伪氨基酸离散化模型,解决了维数选择问题,大量实
验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器
比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,
近几年Gene
一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模
型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位
置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建
立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该
项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信息
学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全
统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研
Ⅱ
——,jf克童声謦堡主兰垡堡奎:
究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科
学研究的快速发展提供了强有力的支持。
本文的创新性表现在:
(1)提出高维核空间属性加权核聚类算法。并从理论上证明了收敛
性:
(2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上
有重要意义:
(3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚
类算法:
(4)提出基于“有监督”聚类算法的蛋白结构预测模型;
(5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模
型的维数选择问题;通过在诸多应用对象、算法上的实验表明,
该框架是切实可行的;
(6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文
所研究
文档评论(0)