第七讲_差异表达基因分析.pptVIP

下载本文档

13
0
约4.31千字
约 63页
2017-02-16 发布于北京
举报
版权申诉

第七讲_差异表达基因分析.ppt

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第七讲 Quantile Normalization 使每张芯片/通道的强度值有相同的分布(intensity distribution) Quantile normalization R语言和bioconductor 差异表达基因分析单张cDNA芯片差异表达基因差异表达基因分析基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异，在双色荧光系统中，用Cy5/Cy3的比值来衡量基因的表达差异，也称表达差异值。在Affymetrix等短的寡核苷酸芯片中，采用单色荧光标记的方式，实验组和对照组分别用两张芯片进行检测，表达差异值即为两张芯片的信号比值。噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。倍数法倍数法倍数法是比较常用的一种方法，因为比较简单和直接。但是，这种方法也是有其重大缺陷的。比如，在某个实验中，基因表达水平的变化不大，如果选择判别域值为2倍，则有可能找不到几个差异表达的基因，假阴性率比较高。但如果是主观缩小判断域值，又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。 Z值法在一张cDNA芯片上一般都点了很多基因，其实这些基因中只有很小一部分表达有差异，所以一般都假设表达的比率值满足正态分布。 Z=(X-μ)/σ. |Z|=1.96 在寡核苷酸芯片中，芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表达，可以假定强度满足对数正态分布，同样可以对其作Z变换，使其具有统计意义。如果实验体系中没有一条差异表达的基因，Z值法还是会挑选出5％的差异表达基因。这是因为在芯片实验中，总有一些由于背景噪声产生的假阳性点。如果实际上实验中有大量的基因发生表达改变，Z值法还是机械的找出5％的差异表达基因，丢失了一部分真阳性点。一般性的方法选择一个统计量给基因排秩来证明表达有差异为排秩统计量选择一个判别值，在它之上的值将被认为是显著的前面一个部分更为重要，所以研究的较多，方法也更多，后面那部分的方法稍微简单重复芯片（replicates）M值根据比率平均值或对基因排序。 M值为信号强度比值的log2值，是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如，可能某一个基因在某一张芯片上M值很大，但在其他芯片上M值很小，其实这条基因并没有差异表达，但由于个别M值的影响，从而显示出一个差异表达的特性，造成假阳性。 T值排序假如一个基因在几张重复芯片的M值都很小，但是这些M值非常接近，所以s值也非常小，这样可能会导致t值很大，从而会把这个本没有差异表达的基因误认为差异表达。修正的T值修正值由样本方差的均数和标准差估计而得。结果显示：在一个模拟的数据集中，虽然带有一些经验性质，但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。单通道寡核苷酸芯片差异基因（两个样本直接比较）不同类样本差异基因识别评价一组数的统计量平均值标准差比较多组数的方法 T检验：平均值 F检验：方差 SAM（significance analysis of microarrays） False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因，具体说来就是想用假设检验后赋予每个基因统计显著性或者P值，使得每个基因的判别更有统计学上的意义。为了达到这个目的，统计学家们常常用控制错误发现率（False Discovery Rate）的方法来判断差异基因。 Multiple test (Pvalue adjustment) 火山图（volcano plot） Statistical test: Pvalue Fold change: Ratio 其他方法 B-statistics (Smyth,2004) Bayes T-test (Baldi and Long, 2001) SAMROC (Broberg, 2002) Zhao-Pan method (Zhao and Pan, 2003) … … Improved Detection of Differentially Expressed Genes Time series microarray dataset 聚类分析数据矩阵具体形式数据形式 ClusterTreeview软件 ClusterTreeview软件 Genesis软件预分析（Pre