基因芯片数据分析方法及其在医学中的应用.PDF

基因芯片数据分析方法及其在医学中的应用.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因芯片数据分析方法及其在医学中的应用

446 中国医药生物技术 2010 年 12 月第 5 卷第 6 期 Chin Med Biotechnol, December 2010, Vol. 5, No. 6 DOI:10.3969/cmba.j.issn.1673-713X.2010.06.010 ·综述· 基因芯片数据分析方法 及其在医学中的应用 荆志伟,王忠 基因芯片技术带来了大规模、高通量的信息,同时也对 分类变量的混合资料;EM (expectation maximization )算法 数据的探索性分析及信息提取提出新的挑战。伴随出现的诸 是 k-means 算法的另一种扩展,把每一个体不是划为具体 多方法,如基因芯片数据的标准化,样本(或基因)间距离 的某种类别,而是赋予其属于各类的概率。如 Srinivasan 的度量,以及样本(或基因)的监督和非监督分类等分析方 等[5]运用 k-means 算法比较颈椎病变的转归。 法,力图将无机的信息数据和有机的生命活动结合起来,阐 1.3 自组织图(self-organizing maps,SOM) [1] 释生命特征及基因功能,已成为生物信息学的研究课题 。 SOM 是一种基于神经网络的聚类算法,由若干简单的 探索基因功能的新技术和新方法[2]亦成为研究的重点,新的 拓扑结构的节点构成,且节点中包含了其距离函数,自组织 分析工具不断产生[3] 。本文就近 5 年来医学研究领域中基 图的形成就是这些节点以迭代的形式分布到 k 维的基因表 因芯片数据以分类分析方法为主作一综述。 达空间的过程[6] 。其适合于复杂的多维数据的模式识别和特 征分类等探索性的分析,它允许对聚类的部分结构施加干预 1 基因芯片数据分析的非监督算法 (相比于系统聚类中严格的结构、贝叶斯聚类中对先验假设 1.1 系统聚类(hierarchical clustering) 的要求及 k-means 聚类的无结构,SOM 则更灵活),首先 系统聚类根据聚类的方式分为凝聚法(agglomerative 被 Tamayo 等[7]用于基因表达数据的分析。与多维标度法 approach )和分裂法(divisive approach )。凝聚法按照从下 (multi-dimensional scaling ,MDS )及主成分分析(principal 到上的方式对个体进行聚类:初始每个个体为一类,按照一 component analysis,PCA )类似,SOM 可以对数据集中的 定的规则进行逐步合并,直到所有个体都归为一类或达到预 不同表达模式实现可视化,从而判断某种模式是否为另外一 定的终止条件。因类间相似性的度量方法的不同而又有所差 种模式的变异。如郑培烝等[8]通过建立基因芯片平台,用全 异。分裂法按照从上到下的方式对个体进行聚类:初始所有 反式维甲酸诱导急性早幼粒细胞白血病来源的 NB4 细胞 个体为一类,然后按照一定规则逐渐分裂,直到每个个体形 分化作为模型,并应用自主开发的自组织图结合成分平面展 成一类或满足某个特定的结束条件,如达到预定的类数或两 示动态地观察了药物作用过程。 个最邻近的类之间的距离超过某预定值。 1.4 模糊聚类(fuzzy clustering) 系统聚类方法简单,但有时在选择分裂或合并点时存在 在实际情况中,基因各功能类间的边界经常是不能截然 困难,因为一旦将一组个体分裂或合并,后续的类将在新类 分开的,模糊聚类适合于解决此类问题

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档