基因表达谱芯片的数据介绍.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因表达谱芯片的数据分析 (2012-03-13 15:25:58)转载▼标签:杂谈分类:生物信息摘要基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考.关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析吴斌, 沈自尹. 基因表达谱芯片的数据分析.?世界华人消化杂志 2006;14(1):68-74/1009-3079/14/68.asp0 引言基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法.1 差异基因表达分析(difference expression, DE)对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分析, 具体方法包括倍数分析、t检验、方差分析等.1.1 倍数变化(fold change, FC) 倍数分析是最早应用于基因芯片数据分析的方法[4], 该方法是通过对基因芯片的ratio值从大到小排序, ratio是cy3/cy5的比值, 又称R/G值. 一般0.5-2.0范围内的基因不存在显著表达差异, 该范围之外则认为基因的表达出现显著改变. 由于实验条件的不同, 此阈值范围会根据可信区间应有所调整[5,6]. 处理后得到的信息再根据不同要求以各种形式输出, 如柱形图、饼形图、点图等. 该方法的优点是需要的芯片少, 节约研究成本; 缺点是结论过于简单, 很难发现更高层次功能的线索; 除了有非常显著的倍数变化的基因外, 其它变化小的基因的可靠性就值得怀疑了; 这种方法对于预实验或实验初筛是可行的[7]. 此外倍数取值是任意的, 而且可能是不恰当的, 例如, 假如以2倍为标准筛选差异表达基因, 有可能没有1条入选, 结果敏感性为0, 同样也可能出现很多差异表达基因, 结果使人认为倍数筛选法是在盲目的推测[8,9].1.2 t检验(t-test) 差异基因表达分析的另一种方法是t检验[10], 当t超过根据可信度选择的标准时, 比较的两样本被认为存在着差异. 但是t检验常常受到样本量的限制, 由于基因芯片成本昂贵, 重复实验又很费时, 小样本的基因芯片实验是很常见的, 但是小样本导致了不可信的变异估计. 为了克服这种缺点, 研究者提出了调节性t检验(regularized t-test), 它是根据在基因表达水平和变异之间存在着相互关系, 相似的基因表达水平有着相似的变异这个经验, 应用贝叶斯条件概率(贝叶斯定理)统计方法, 通过检测同一张芯片临近的其它基因表达水平, 可以对任何基因的变异程度估计进行弥补. 这种方法对于基因表达的标准差估计优于简单的t-test和固定倍数分析法[11].1.3 方差分析(analysis of variance, ANOVA) 方差分析(ANOVA)又称变异数分析或F检验, 其目的是推断两组或多组资料的总体均数是否相同, 检验两个或多个样本均数的差异是否有统计学意义, 方差分析可用于差异基因表达研究[12]. 方差分析需要参照实验设计, 参照样本常用多种细胞的mRNA混合而成, 由于所有的细胞同时表达的基因众多, 结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性, 因此, 增加参照样本的细胞不会提高参照样本的代表性[13].方差分析能计算出哪些基因有统计差异, 但它没有对那些组之间有统计差异进行区分, 比如用单因素方差分析对A、B、C、D 4组进行分析, 对于某一个基因, 方差分析能够分析出A组与B、C、D组之间有差异, 但是

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档