趋势性上调和下调基因分析6.基因集功能富集分析.ppt

下载文档 降价啦

781
0
约9.58千字
约 66页
2017-03-01 发布于天津
举报
版权申诉
保障服务

趋势性上调和下调基因分析6.基因集功能富集分析.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

趋势性上调和下调基因分析6.基因集功能富集分析

超几何分布： Fisher精确检验： Pathway 分析对实验结果有提示的作用，通过差异基因的Pathway 分析，可以找到富集差异基因的Pathway 条目，寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同，pathway 分析的结果更显得间接，这是因为，pathway 是蛋白质之间的相互作用，pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过测序结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控，翻译调控，翻译后修饰（如糖基化，磷酸化），蛋白运输等一系列的调控过程，mRNA 表达量和蛋白表达量之间往往不具有线性关系，因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到，在某些pathway 中，如EGF/EGFR 通路，细胞可以在维持蛋白量不变的情况下，通过蛋白磷酸化程度的改变（调节蛋白的活性）来调节这条通路。所以pathway 分析的结果需要有后期蛋白质功能实验的支持，如Western blot/ELISA，IHC（免疫组化），over expression（过表达），RNAi（RNA 干扰），knockout（基因敲除），trans gene（转基因）等。 4.差异表达基因分析统计学分析： 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多) under-expressed over-expressed ?/2 ?/2 4.1差异倍数法 Fold change= log2(A/B) Fold change = log2(A/B) A：sampleA表达值 B：sampleB表达值通常以1和-1为作为差异表达的阈值，判断基因是否差异表达倍数法是比较常用的一种方法，因为比较简单和直接。但是，这种方法也是有其重大缺陷的。比如，在某个实验中，基因表达水平的变化不大，如果选择判别阈值为2倍，则有可能找不到几个差异表达的基因，假阴性率比较高。但如果是主观缩小判断阈值，又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。 4.2卡方检验条件：a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，当样本含量小于40时只能用确切概率法计算概率。 ?2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)] df=1 sampleA sampleB Genei a b Sum(genei) c d 根据?2求出p值，对于p=0.05或0.01的，拒绝原假设，存在显著的统计学意义。统计学家已证明，当自由度比较大时，误差较小；自由度等于1时，特别n比较小，或理论频数5时，误差较大，使得所得概率值偏小，因此需要校正。 4.2.Fisher 精确检验英国统计学家Fisher提出的2*2表的确切概率计算法，它基于四格表的边际和固定。当?2检验的条件不满足时，这个检验非常有用。在样本比较小时（单元的频数小于4），需要用Fisher精确检验来做独立检验。 Fisher检验是建立在超几何分布的基础上的，对于单元频数小的表来说，特别适合。对于2*2列联表，原假设“两变量无关”。计算步骤： 1.确定统计量，如?2，计算?2记为?02； 2.对于每个可能的四格表计算?2和P； 3.符合?2 = ?02的那些四格表的P值之和，即为确切概率P值 sampleA sampleB Genei ai1 bi2 Sum(genei) Sum(a1) Sum(b2) 假设检验问题 Ⅰ型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。 Ⅱ型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（False Discovery Rate）值等。 False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因，具体说来就是想用假设检验后赋予每个基因统计显著性或者P值，使得每个基因的判别更有统计学上的意义。为了达到这个目的，统计学家们常常用控制错误发现率（False Discovery Ra