【生物信息学第二版】基因表达数据分析.pptVIP

【生物信息学第二版】基因表达数据分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

生物信息学

第五章

基因表达数据分析苏州大学沈百荣首都医科大学李冬果生物信息学

第一节引言Introduction

基因表达组学与基因组学相比较表达组信息是动态的;表达组学的数据,更多的是数值分析;转录组学中除了模式识别外,系统建模也十分重要。

真核生物基因表达的基本方式

基因表达调控示意图

基因表达的时空性

基因表达测定方法RT-qPCR

近20年来三种不同高通量基因表达测定技术的应用趋势

高通量基因表达测定的应用实例1.测定组织特异性基因表达2.基因功能分类3.癌症的分类和预测4.临床治疗效果预测5.基因与小分子药物、疾病之间的关联6.干细胞的全能型、自我更新和细胞命运决定研究

7.动植物的发育研究8.环境对细胞基因表达的作用9.环境监测10.物种的繁育

第二节基因表达测定平台与数据库MicroarrayPlatformandDatabases

1.cDNA芯片2.Affymetrix芯片3.下一代测序技术技术如:Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表达测定平台介绍

二、Microarray技术与RNA-Seq技术的比较1.RNA-Seq技术对没有已知参考基因组信息的非模式生物,也可测定转录信息;2.RNA-Seq技术可以测定转录边界的精度达到一个碱基,RNA-Seq可以用来研究复杂的转录关系;3.RNA-Seq可以同时测定序列的变异;4.RNA-Seq背景信号很小,测定的动态范围很大。

RNA-Seq在基因表达的定量上准确性很高;RNA-Seq在测定技术上和生物上重复性很高;RNA-Seq的测定需要很少的RNA样本。在应用上RNA-Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势。

三、基因表达数据库常用基因表达数据库名称数据库内容GeneExpressionOmnibus(GEO)目前最常用的基因表达数据(NCBI)ExpressionAtlas欧洲生物信息学中心的基因表达数据库SMDStanford基因表达数据库RNA-SeqAtlas正常组织的基因表达谱数据GEPdb基因型、表型和基因表达关系GXD老鼠发育基因表达信息EMAGE老鼠胚胎的时空表达信息AGEMAP老鼠老化的基因表达数据

疾病相关基因表达数据库数据库名称数据库内容GENT肿瘤组织与正常组织的表达数据ParkDB帕金森病的基因表达数据库cMAP小分子化合物对人细胞基因表达的影响Anticancerdruggeneexpressiondatabase抗癌化合物的基因表达数据CGED癌症基因表达数据库(包括临床信息)

第三节

数据预处理与差异表达分析

PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene

一、基因芯片数据预处理(一)基因芯片数据的提取cDNA微阵列芯片荧光信号

定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值原位合成芯片

(二)数据对数化转换对芯片数据做对数化转换后,数据可近似正态分布

(三)数据过滤数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其他

(四)补缺失值1.数据缺失类型非随机缺失基因表达丰度过高或过低。随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况。

高表达基因的数据缺失

2.数据补缺方法(1)简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average

(2)k近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数邻居个数距离函数

(3)回归法

(五)数据标准化1.为什么要进行数据标准化:存在不同来源的系统误差染料物理特性差异(热光敏感性,半衰期等)染料的结合效率点样针差异数据收集过程中的扫描设施不同芯片间的差异实验条件差异

2.运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。

3.cDNA芯片数据标准化处理(1)片内标化(within-slide

文档评论(0)

BraveBoy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档