第九章数据挖掘与基因表达调控信息分析（2）.ppt

下载文档 降价啦

3
0
约2.89千字
约 36页
2017-09-04 发布于重庆
举报
版权申诉
保障服务

第九章数据挖掘与基因表达调控信息分析（2）.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四节基因表达数据的聚类分析基因表达数据主要来自于两个方面：一是基因芯片，这是最主要的表达数据来源，利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据。表达系列分析SAGE和差异显示、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。聚类分析是模式识别中一种非常有吸引力的方法，特别适用于模式分类数不知道的情况。从机器学习的角度来看，有两种基本的聚类分析：有教师聚类无教师聚类基因表达数据聚类分析一般包括以下几个步骤：（１）确定基因表达的数据（２）计算相似性矩阵，各个矩阵元素代表两个基因的表达是否相似（３）选择算法进行聚类分析（４）显示分析结果。对数据进行聚类分析之前，必须将包含在基因表达矩阵中的数据进行相似程度分析，并且对分析结果进行量化。通常情况下，相似往往被赋于一个较大的量化的值，而不相似则由一个较小的量化的值来表示。在实际计算中，往往以距离代替相似的概念，相似性度量被转化为两个基因表达模式之间的距离。距离越小，表达模式越相近，反之，则表达模式差异大。几种常用的聚类方法 1．简单聚类 2．层次式聚类 3．K平均聚类 4．自组织映射神经网络 5. 模糊聚类分析方法 6、聚类分析结果的树图表示第五节基因调控网络分析一个基因网络由一组生物分子（如基因、蛋白质）以及它们之间的相互作用构成，这些生物分子共同完成一些特定的细胞功能任务。在实际分析过程中，往往以图这种数据结构表示基因网络，图中的节点代表基因或者蛋白质，而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描述了特定细胞或组织中的功能路径，如代谢、基因调控，信号传导等。基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化状态所决定，在一个基因的转录过程中，一组转录因子作用于该基因的启动子区域，控制该基因转录，而这些转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能基因产物后，它将改变细胞的生化状态，从而直接或间接地影响其它基因的表达，甚至影响自身的表达。多个基因的表达不断变化，使得细胞的生化状态不断地变化。一个基因的表达受其它基因的影响，而这个基因又会影响其它基因的表达，这种相互影响、相互制约关系构成了复杂的基因表达调控网络。基因表达数据之中隐含基因之间的相互作用关系，因而可以通过分析基因表达数据，构建基因调控网络。几种基因调控网络模型 1、布尔网络模型 2、线性组合模型线性组合模型是一种连续网络模型，在这种模型中，一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为： 3、加权矩阵模型加权矩阵模型与线性组合模型相似，在该模型中，一个基因的表达值是其它基因表达值的函数。 4、互信息关联网络可以用距离或相关系数作为基因表达模式之间的相似性度量，还可以用另外一种度量形式，即用熵和互信息描述基因与基因的关联。一个基因表达模式的熵是该模式所含信息量的度量。设X是一个基因表达模式，用下式计算熵： 5、基因调控网络实例真核生物生理过程的调控网络GeneNet GeneNet展示了协调方式下基因的整体功能，良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能： (a) 描述执行特定生物功能时所涉及到的整体基因交互作用 (b) 描述基因的蛋白质编码 (c) 描述基因对外界刺激的传感途径 (d) 通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态 (e) 利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用该基因网描述了四类实体： (a) 细胞(组织，器官) (b) 蛋白质 (c) 基因 (d) 物质该基因网还描述了实体间两种关系： (a) 反应（reaction）, 即通过交互作用产生新的实体或过程 (b) 调控（regulatory）事件, 特定反应对实体的作用。 * * 第九章数据挖掘与基因表达调控信息分析（2）主讲人：孙啸制作人：刘志华东南大学吴健雄实验室 1、简单聚类假设有n个基因表达数据向量分别为X1, X2,…, XN 令任意一个基因的表达向量为第一个聚类的中心依次处理其它基因在处理第i个基因时，首先计算该基因的表达数据向量与现有各类中心的距离假设与第j类的距离Dij最小，并且DijT，则将基因i分配到第j类；否则生成一个新类，该类的中心为第i个基因的表达向量。 2、层次式聚类 3、K平均聚类任意选取K个基因表达向量作为初始聚类中心 Z1, Z2,…, Zk 反复迭代计算如果||X-Zj(l)|| ||X-Zi(l)||(i=1,2,…,K,i?j)，则将X所代表的基因归于第j类。