生物芯片的数据处理及应用介绍.ppt

下载文档 降价啦

13
0
约9.7千字
约 67页
2017-05-10 发布于湖北
举报
版权申诉
保障服务

生物芯片的数据处理及应用介绍.ppt

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三、差异基因筛选 1、倍数法实验条件下的表达值（荧光强度值）对照条件下的表达值（荧光强度值）通常以2倍差异为阈值，判断基因是否差异表达通常大于2或者小于0.5即认为表达有差异这个筛选标准是可以改变的，如（0.333，3），（0.667，1.5）这种方法简单、直观。但是其阈值的划分主观性较强，未考虑到生物学变异和实验系统误差，缺乏生物学和统计学支持。这种方法适用于预实验和实验初筛，或辅助其他差异基因筛选方法。 2、t检验法运用t检验法可以判断基因在两种不同条件下的表达差异是否具有显著性零假设H0：μ1=μ2，即假设某基因在两种不同条件下的平均表达水平相等备择假设H1：μ1！=μ2 在实际操作中，经常结合t检验分析和倍数分析对数据进行筛选。火山图(Volcanoplot右图)是用p-value值与fold change值两个因素共同绘制的，用于显示两组样品数据的显著性差异。通常当p-value0.05且Foldchange≥2时，我们认为这些基因在两组样品中具有显著性差异。 3、SAM (significance analysis of microarrays) (一) 多重假设检验问题 Ⅰ型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。 Ⅱ型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（false discovery rate）值等。 Bonferroni(邦弗朗尼)校正?　　如果在同一数据集上同时检验n个独立的假设，那么用于每一假设的统计显著水平，应为仅检验一个假设时的显著水平的1/n。 Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因，其中有S个是真正有差异表达的，另外有V个其实是没有差异表达的，是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值（比如0.05），在统计学上，这也就等价于控制FDR不能超过5%。设总共有m个候选基因，每个基因对应的p值从小到大排列分别是 p(1),p(2),...,p(m)，则若想控制fdr不能超过q，则只需找到最大的正整数i，使得 p(i)= (i*q)/m.然后，挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因，这样就能从统计学上保证fdr不超过q。筛选差异基因后需要做进一步的研究和分析 1.筛选分子标志物 2.选择自己感兴趣的基因，做实验室的确证 3.利用数据库，做功能分析（基因功能及通路功能富集） 4.预测分子通路 5.基因和蛋白质相互作用分析四、基因注释与功能富集分析（一）基因注释数据库 GO数据库 KEGG数据库（二）功能富集分析超几何分布富集分析软件 ?BiNGO ?GO-function （一）基因注释数据库 1、研究人员已经掌握了大量的全基因组数据，同时关于基因、基因产物以及生物学通路的数据也越来越多，解释生物学实验的结果，尤其从基因组角度，需要系统的方法。 2、在基因组范围内描述蛋白质功能十分复杂，最好的工具就是计算机程序，提供结构化的标准的生物学模型，以便计算机程序进行分析，成为从整体水平系统研究基因及其产物的一项基本需求。基因注释数据库产生的原因 1、基因本体（gene ontology, GO）数据库基因本体数据库是GO组织（Gene Ontology Consortium）在2000年构建的一个结构化的标准生物学模型，旨在建立基因及其产物知识的标准词汇体系，涵盖了基因的细胞组分（cellular component）、分子功能（molecular function）、生物学过程（biological process）。 GO注释体系特点 GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即: 生物学过程(biological process)，分子功能(molecular function)和细胞组分(cellular component)。注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。 24th Feb 2006 Jane