生物信息学第二版 基因表达数据分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(五)信息熵 运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。 三、差异表达分析应用 以一套阿尔海茨默病相关的基因表达谱数据(GSE5281)为例,详细介绍如何利用BRB-ArrayTools软件进行数据预处理,并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程。 GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况,本例仅选择其中一个区域—内侧颞回(middle temporal gyrus,MTG)的数据进行说明 。 第一步:导入芯片数据 使用“import data”下的“General Format Importer”导入基因芯片数据,数据间用Tab键分隔(或使用Excell文件),也可使用“Data Import Wizard”进行导入 。 导入芯片数据 第二步:选择文件类型 每张芯片用单独的文件存储,多个文件保存在一个文件夹 “Array are saved in separate files stored in one folder” 若多张芯片数据组织成一个矩阵形式,存储在一个文件中 “Array are saved in horizontally aligned file” 选择记忆芯片数据文件类型 第三步:选择芯片数据文件所存储的路径 注意路径中不能包含中文 第四步:选择基因芯片平台 第五步:选择文件格式 第六步:数据的过滤和标准化 第七步:基因注释 由于基因芯片检测的是探针的表达情况,而探针和基因之间往往不是一一对应,所以,在数据导入后软件会询问是否需要进行基因注释,及是否需要将探针转换成相应的基因名(gene symbol)或Entrez ID 第八步:运行SAM FDR=0.01, delta=0.68 选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因。 SAM的参数设定 第九步:SAM Plot SAM Plot 第四节 聚类分析与分类分析 Clustering Analysis and Classification 一、聚类目的 基于物体的相似性将物体分成不同的组 二、基因表达谱数据的聚类 对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知类别分组 发现亚型 样本 基因 三、距离(相似性)尺度函数 几何距离 线性相关系数 非线性相关系数 互信息 四、聚类算法 层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。 (一)层次聚类 (3)回归法 (五)数据标准化 1.为什么要进行数据标准化:存在不同来源的系统误差 染料物理特性差异(热光敏感性,半衰期等) 染料的结合效率 点样针差异 数据收集过程中的扫描设施 不同芯片间的差异 实验条件差异 2.运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。 3. cDNA芯片数据标准化处理 (1)片内标化(within-slide normalization)方法 全局标化、荧光强度依赖的标准化、点样针组内标准化。 假设: R=k*G 方法: c=log2k:中值或均值 全局标化(global normalization) 荧光强度依赖的标化(intensity dependent normalization) 为什么 方法: scatter-plot smoother lowess拟合 c(A)为M 对A 的拟合函数 标化后的数据 点样针依赖的标化(within-print-tip- group normalization) 为什么 一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。 method (2)染色互换实验(dye-swap experiment)的标化 实验组 对照组 芯片1 cy5(R) cy3(G’) 芯片2 cy3(G) cy5(R’) 前提假设:c︽c’ 方法:

文档评论(0)

开心就好 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档