网站大量收购闲置独家精品文档,联系QQ:2885784924

生物信息学第二版基因表达数据分析.pptxVIP

生物信息学第二版基因表达数据分析.pptx

  1. 1、本文档共112页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学;第五章 基因表达数据分析;第一节 引言 Introduction;基因表达组学与基因组学相比较 表达组信息是动态的; 表达组学的数据,更多的是数值分析; 转录组学中除了模式识别外,系统建模也十分重要。;真核生物基因表达的基本方式;基因表达调控示意图;基因表达的时空性;基因表达测定方法RT-qPCR;近20年来三种不同高通量基因表达测定技术的应用趋势; 高通量基因表达测定的应用实例 ;7.动植物的发育研究 8.环境对细胞基因表达的作用 9.环境监测 10.物种的繁育;第二节 基因表达测定平台与数据库; 1.cDNA 芯片 2.Affymetrix芯片 3.下一代测序技术技术如:Roche-454, Illumina MiSeq,Ion Torrent PGM ;二、Microarray技术与RNA-Seq技术的比较;RNA-Seq在基因表达的定量上准确性很高; RNA-Seq在测定技术上和生物上重复性很高; RNA-Seq的测定需要很少的RNA样本。 在应用上RNA-Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势。;三、基因表达数据库;疾病相关基因表达数据库 ;第三节 数据预处理与差异表达分析 ;一、基因芯片数据预处理;定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值 ;(二)数据对数化转换;(三)数据过滤;(四)补缺失值;高表达基因的数据缺失;2.数据补缺方法;(2)k近邻法;(3)回归法 ;(五)数据标准化;2.运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。;3. cDNA芯片数据标准化处理;假设: R=k*G 方法: c=log2k:中值或均值 ;荧光强度依赖的标化(intensity dependent normalization);点样针依赖的标化(within-print-tip- group normalization);(2)染色互换实验(dye-swap experiment)的标化 实验组 对照组 芯片1 cy5(R) cy3(G’) 芯片2 cy3(G) cy5(R’) 前提假设:c︽c’ 方法: ;线性标化法(linear scaling methods) 与芯片内标化的尺度调整???scale adjustment)方法类似。 非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上。;4. 芯片数据标准化;;分析步骤 获取探针水平数据→背景值效正→标准化处理→探针特异背景值效正→探针集信号的汇总;1;2;3;4;5;;;;;前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。;二、差异表达分析基本原理与方法;(二)t 检验法 ;(三)方差分析 ;两种或多种条件间下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。;(四)SAM 法(significance analysis of microarrays);在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(false discovery rate)值等。;2. 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对差异统计量 计算扰动后的平均相对差异统计量 ; 确定差异表达基因阈值 以最小的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估计假阳性发现率FDR值。 调整FDR值的大小得到差异表达基因。;(五)信息熵;三、差异表达分析应用;GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域—内侧颞回(middle temporal gy

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档