数据挖掘与基因表达调控信息分析-东南大学生物电子学国家.pdf

数据挖掘与基因表达调控信息分析-东南大学生物电子学国家.pdf

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与基因表达调控信息分析-东南大学生物电子学国家

第九章 数据挖掘与基因表达调控信息分析 第一节 引言 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。随 着人类基因组计划的顺利实施,人类和其它模式生物基因组测序工作不久就能顺利完成,这为研究 人类基因及基因表达打下了坚实的基础。而基因芯片技术的迅速发展,已使大规模检测基因转录水 平、研究基因表达时空规律、分析基因之间的相互作用关系成为现实。 与基因表达调控有关的信息包括基因组DNA序列、转录因子、调控元件、基因表达数据等。作 为基因转录调控信息的载体,基因上游区域中的转录调控元件(regulatory element)在基因转录 过程中起着重要的作用。基因调控物质即转录因子通过与调控元件的相互作用,调节基因的转录, 控制基因的表达。生物信息学研究人员一直在研究转录调控元件的识别方法,国际上已经出现一些 调控元件的分析和识别算法,并取得一些好的结果,可以识别已知的转录调控元件。如果通过分析 得知一类基因受到相同蛋白质调控因子的作用,则可以认为这些基因具有共同的转录调控元件,并 在这样的假设之下分析共同的转录调控元件。 基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控 信息的实际体现。如果能将基因表达数据与基因调控区域的核酸序列结合起来,综合分析,可望发 现基因转录调控信息,揭示基因调控信息组成的规律。通过分析基因表达数据,在基因组中寻找共 调控基因,即表达水平上调或下调趋势一致的基因,这些基因具有相同的转录调控信息。然后通过 信息学的方法,分析隐藏在基因组序列中的转录调控信息。具体说就是通过聚类分析,将共调控基 因聚集成类,分析和识别同类基因所共同拥有的转录调控元件。这里,转录调控元件是转录调控信 息的载体。 目前国际上已经积累了许多与基因表达调控相关的数据,包括基因启动子区域、转录调控元件 序列、转录因子、基因表达数据等,并建立了一些公共数据库,如转录因子数据库TRANSFAC、转 录调控区域数据库 TRRD、酵母基因组启动子数据库SCPD 及各种基因表达数据库等。这些数据之 间相互关联,蕴涵着复杂的基因转录调控规律,为我们研究和分析基因转录调控提供了很好的基础。 另一方面,大规模基因表达数据之中隐藏着基因之间相互作用关系,如果将基因表达数据分析与调 控因子对调控元件作用关系分析结合起来,将更加有利于发现基因调控网络。然而要想充分利用这 些数据,从中发现规律或者发现对我们有用的信息则并非一件容易的事,需要利用先进的数据处理 和数据分析工具进行深入细致的分析。 数据库技术无疑是一种最基本的技术。但是在一项具体的研究中,往往会用到多种不同的数据, 这些数据可能分散在不同的生物信息学数据库,如果能够把这些数据(如基因组序列、转录因子、 调控元件、基因表达数据)集成在一起,将便于开展基因表达调控信息的研究。因此第一个问题是 数据库集成的问题。数据库集成有两种方法,一是建立数据仓库,另一种方法是建立虚拟数据库系 统。当然,从实际应用出发,除了进行数据集成之外,还需要进行软件分析工具的集成。如果能在 一个集成的数据环境中建立多种行之有效的分析工具,将为研究人员提供极大的方便。 数据挖掘技术是一种先进的数据分析和知识发现技术,该技术已经在许多领域取得了成功的应 用。在生物信息学领域,该技术也已显示出其能量,已经运用于申生物数据模式提取和基因表达数 据分析。目前即使对于了解最多的生物体,科学家也仅知道一小部分基因功能的信息,并且这些信 息通常是不完整的。随着基因表达数据库的不断发展,需要更加先进的分析工具,以从大量的数据 之中提取隐含的信息。就生物学而言,挖掘生物分子序列数据库经过二十多年的历程,现已发展到 比较基因组学的阶段。实际上,传统的序列分析和基因表达的模式识别有许多共同之处,它们的最 终目标都是将生物检测数据转化为人们能够直观理解的生物信息,进而将信息升华为生物学知识。 在生物信息学中,有许多方面需要数据挖掘技术,如基因表达调控信息分析、DNA序列的进化信息 分析、寻找基因之间的协同关系、探索基因表达时空规律、获取与疾病相关的信息等。 第二节 生物数据挖掘和可视化 1、数据挖掘 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程, 目的是发现未知的和规律性的知识(Chenet al.1996;Berry and Linoff 1997; Usama 1

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档