- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
趋势性上调和下调基因分析6.基因集功能富集分析
超几何分布: Fisher精确检验: Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。 与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过测序结果得到的是编码这些蛋白质的mRNA 表达量的变化。 从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。 4.差异表达基因分析 统计学分析: 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多) under-expressed over-expressed ?/2 ?/2 4.1差异倍数法 Fold change= log2(A/B) Fold change = log2(A/B) A:sampleA表达值 B:sampleB表达值 通常以1和-1为作为差异表达的阈值,判断基因是否差异表达 倍数法是比较常用的一种方法,因为比较简单和直接。 但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别阈值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断阈值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。 4.2卡方检验 条件:a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。 ?2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)] df=1 sampleA sampleB Genei a b Sum(genei) c d 根据?2求出p值,对于p=0.05或0.01的,拒绝原假设,存在显著的统计学意义。 统计学家已证明,当自由度比较大时,误差较小;自由度等于1时,特别n比较小,或理论频数5时,误差较大,使得所得概率值偏小,因此需要校正。 4.2.Fisher 精确检验 英国统计学家Fisher提出的2*2表的确切概率计算法,它基于四格表的边际和固定。当?2检验的条件不满足时,这个检验非常有用。 在样本比较小时(单元的频数小于4),需要用Fisher精确检验来做独立检验。 Fisher检验是建立在超几何分布的基础上的,对于单元频数小的表来说, 特别适合。 对于2*2列联表,原假设“两变量无关”。 计算步骤: 1.确定统计量,如?2,计算?2记为?02; 2.对于每个可能的四格表计算?2和P; 3.符合?2 = ?02的那些四格表的P值之和,即为确切概率P值 sampleA sampleB Genei ai1 bi2 Sum(genei) Sum(a1) Sum(b2) 假设检验问题 Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等。 False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Discovery Ra
文档评论(0)