二-东南大学生物电子学国家重点试验室.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
二-东南大学生物电子学国家重点试验室

第四节 基因表达数据的聚类分析 基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据(Schena Eet al,1995)。表达系列分析SAGE和差异显示(Kozian and Kirschbaum,1999)、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。 聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,有两种基本的聚类分析(Kaufman 1990),即所谓有教师聚类和无教师聚类。在有师聚类中,对于每一类有一个参考模式,对于一个未分类的向量,通过计算选择一个最接近的参考模式,并将该向量归入该参考模式所对应的类,这实际上是一个分类问题。而真正的聚类分析是一种无师学习(或无监督学习),没有关于聚类的先验知识,需要聚类算法根据样本之间的距离或者相似程度进行自动分类(傅京孙,1990;李介谷等,1986)。 基因表达数据聚类分析一般包括以下几个步骤:(1)确定基因表达的数据;(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似;(3)选择算法进行聚类分析;(4)显示分析结果。以下着重讨论对表达型基因芯片实验数据的处理和分析。 在一种基因芯片上往往含有成百上千个基因探针,一次可以同时检测大量基因的表达。利用同一种芯片在不同条件下(不同时间,不同细胞,不同外界作用)进行基因表达实验,搜集表达数据,将原始数据放在一起,形成一个数据表格。表格的每一行代表一个基因,是一个基因在不同实验条件下表达的“快照”,而每一列则代表各个基因在同一种实验条件下的表达水平。从数学形式上来看,表格的一行数据就是一个向量,常称其为一个基因的表达模式,而表格本身就相当于一个矩阵。聚类分析就是将这些向量按照相似程度进行归类。 对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。所有的距离值的集合可以构成一个距离矩阵。有两种方式计算距离矩阵:(1)表达矩阵的任意两行数据之间的距离可用以确定具有相同表达方式的基因簇;(2)表达矩阵的任意两列数据之间的距离可以确定基因表达实验条件的差别。 在基因表达数据聚类分析中,将具有相似表达模式的基因放在同一组。首先选择一个计算基因表达相似性的度量。常见的相似性度量有欧几里德距离、点积、相关系数等。欧几里德距离是一个通常采用的距离的定义,与测度的选择无关。假设有两个基因表达模式分别为X=(x1,x2,…,xm)和Y=(y1,y2,…,ym),距离函数d(X,Y)必须满足如下条件: d(X,Y) ≧ 0 (9-19) d(X,Y) = d(Y,X) (9-20) d(X,Y) = 0 iff X = Y (9-21) d(X,Y) ≦ d(X,Z) + d(Z,Y) (9-22) 两个表达模式之间的欧氏距离为: (9-23) 相关系数为 (9-24) (9-25) 其中,Goffset是G的各分量的均值,(G是标准方差。用上述两种相似性度量,可以找出表达模型相同或者变化趋势相同的基因,如图9.9(a)、(b)所示。欧氏距离、相关系数与分子生物学中两个基因的共表达(coexpressed)概念相一致。 在有些情况下,两个基因的调控输入一样,但是调控结果不一样,甚至相反。如何找出具有这类关系的基因呢?互信息可能是一种有用的度量指标,其定义如下 (9-26) (9-27) MI(X,Y)是向量X和Y的互信息,H(X)是X的熵。 (a) (b) (c) 图9.9 两个表达模式之间的关系 (a)相似;(b)变化趋势一致; (c)两个基因的调控制输入一样,但是调控结果不一样,甚至相反。 假定有一组样本{X1, X2,…, XN},要求将这些样本分成M个类,由于存在多种可能的分类方案,到底那种分法最好?这就必须定义一个准则函数,聚类问题就变成对这个准则函数求极值的问题。最简单的准则是误差平方和准则,其准则函数定义如下: (9-28) 其中M为

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档