基因表达谱的数挖掘技术研究及应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因表达谱的数挖掘技术研究及应用

摘要 基因芯片是现代分子生物学、生物信息学、材料学、计算机科学及微加工 技术等领域的高新技术相结合的产物。通过基因表达技术可以同时观测到在某 一生命现象中成千上万个基因的动态表达水平,由此产生了海量的数据。使用 数据挖掘技术分析这些数据可以得到有用的知识,从而在基因组水平上以系统 的、全局的观念去研究生命现象及其本质。基因表达谱上的数据挖掘技术的研 究和应用已成为热点问题。应用于基因表达谱上的数据挖掘技术主要有聚类、 分类以及基因调控网络建模等。本文针对基因表达谱数据的预处理、聚类及有 效性分析、分类、调控网络建模等方面开展研究。 本文讨论了使用主成份分析方法和小波变换方法对基因表达数据进行预处 理,实现基因表达数据的降维和去噪,便于数据可视化,并能提高数据挖掘算 法的性能。 本文研究了yellllg提出的用于聚类有效性检验的FOM方法,并针对FOM 方法的不足,提出了EFOM方法。针对基于模型的聚类方法分析基因表达谱数 据,文中主要讨论了自组织图模型和高斯混合模型如何应用于基因表达数据的 聚类分析,并针对如何进行模型选择从而确定最佳的类别数目进行了研究。由 于高斯混合模型的训练算法复杂度较高,通过主成份分析降维后不但降低了聚 类的算法复杂度,而且聚类效果有所提高。 本文讨论了基因表达谱数据的分类分析方法,其中包括基于基因的分类分 析和基于样本的分类,针对基因选择方法对分类正确率的影响进行了实验研究。 另外,为了解决分类准确率低且分类器泛化能力差这一问题,本文讨论并通过 ’实验分析了基于样本扰动的多分类器集成方法,并在此基础上提出基于小波变 换的样本扰动的多分类器集成方法,取得了良好的结果。 本文讨论了如何采用布尔网络模型进行基因调控网络建模。在akutsu提出 的基因网络的辨识算法以及liang提出的REVEAL算法的基础上,提出了在集群 环境下的并行算法,并就如何提高加速比进行了讨论。在集群系统——南开之 星上实现的并行算法,加速比达到了理想效果。 实现了基于基因表达数据的多种数据挖掘算法,并使用w曲service技术对其进 行封装,使得该系统能够在多种平台多种系统上运行。 关键词: 基因表达谱 高斯混合模型 多分类器集成布尔网络砒ⅣEAL 加速比 II ABSTRACT areoneoftllelatest in molecular a110w Microa盯ays breal(t11l’oughsexperimentalbi0109y,which in a11dare fortensofthousands mon“oringofgeneexpression ofgenes aIreadypmducjng paraIfeI 0fVaIuable a11d ofsuchdatadata huge锄ounts data,Analysjshalldling by miningtechnoIo影to use如l js 0neofthe bonlenecksintheu蜘izati彻ofthc gain hlowIedgebecoming major R∞entl of is ydata technology miningtechnologygeneexpressionpro矗1esbecomingimport柚t, fbm to neMork aIld“rallgesclusterjnga士1alysis,classj母allaly

文档评论(0)

chuotuo0075779 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档