【精编】【生物信息学第二版】基因表达数据分析.pptVIP

【精编】【生物信息学第二版】基因表达数据分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【精编】【生物信息学第二版】基因表达数据分析.ppt

SAM Plot 第四节 聚类分析与分类分析 Clustering Analysis and Classification 一、聚类目的 基于物体的相似性将物体分成不同的组 二、基因表达谱数据的聚类 对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知类别分组 发现亚型 样本 基因 4 5 6 M = log2R - log2G A = (log2R + log2G)/2 7 8 9 前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。 二、差异表达分析基本原理与方法 (一)倍数法 实验条件下的表达值 对照条件下的表达值 通常以2倍差异为阈值,判断基因是否差异表达 (二)t 检验法 运用t 检验法可以判断基因在两不同条件下的表达差异是否具有显著性 (三)方差分析 两种或多种条件间下基因表达量的比较,用方差分析。它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。 (四)SAM 法(significance analysis of microarrays) 1. 多重假设检验问题 Ⅰ型错误(假阳性) 在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性) 不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(false discovery rate)值等。 2. 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对差异统计量 计算扰动后的平均相对差异统计量 确定差异表达基因阈值 以最小的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估计假阳性发现率FDR值。 调整FDR值的大小得到差异表达基因。 (五)信息熵 运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。 三、差异表达分析应用 以一套阿尔海茨默病相关的基因表达谱数据(GSE5281)为例,详细介绍如何利用BRB-ArrayTools软件进行数据预处理,并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程。 GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域—内侧颞回(middle temporal gyrus,MTG)的数据进行说明 。 第一步:导入芯片数据 使用“import data”下的“General Format Importer”导入基因芯片数据,数据间用Tab键分隔(或使用Excell文件),也可使用“Data Import Wizard”进行导入 。 导入芯片数据 第二步:选择文件类型 每张芯片用单独的文件存储,多个文件保存在一个文件夹 “Array are saved in separate files stored in one folder” 若多张芯片数据组织成一个矩阵形式,存储在一个文件中 “Array are saved in horizontally aligned file” 选择记忆芯片数据文件类型 第三步:选择芯片数据文件所存储的路径 注意路径中不能包含中文 第四步:选择基因芯片平台 第五步:选择文件格式 第六步:数据的过滤和标准化 第七步:基因注释 由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名(gene symbol)或Entrez ID 第八步:运行SAM FDR=0.01, delta=0.68 选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。 SAM的参数设定 第九步:SAM Plot 7.动植物的发育研究 8.环境对细胞基因表达的作用 9.环境监测 10.物种的繁育 第二节 基因表达测定平台与数据库 Microarray Platform and Databases 1.cDNA 芯片 2.Affymetrix芯片 3.下一代测序技术技术如:Roche-454, Illumina MiSeq,Io

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档