网站大量收购独家精品文档,联系QQ:2885784924

生物信息学讲义——基因芯片数据分析重点.ppt

生物信息学讲义——基因芯片数据分析重点.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七节 基因芯片数据的其他分析 Complementary Analysis of Microarray Data 一、降维处理(主成分分析) 新指标是原来基因的线性组合 二、时间序列的表达谱分析 (一)扩大的基因表达谱矩阵 (二)时间点延迟的共表达方式 延迟t个时间点 基因i 基因j 三、基因转录调控网络分析 参考第十一章和十二章 四、功能富集性分析 参考第八章 第八节 常用的表达谱分析软件 General Microarray Analysis Software ArrayTools DChip(DNA-Chip Analyzer) SAM Cluster和TreeView R语言和BioConductor: affy、marray、limma Matlab: Bioinformatics Toolbox * Wilcoxon’s Signed Rank test: 配对设计差值的符号秩和检验 * First of them is based on the deleting single case from the original sample (delete one jackknife), and second is based on the deleting multiple case from the original sample (delete d jackknife) sequentially M = log2R - log2G A = (log2R + log2G)/2 前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。 第四节 差异表达分析 Analysis of Differentially Expression Gene 一、倍数法 实验条件下的表达值 对照条件下的表达值 通常以2倍差异为阈值,判断基因是否差异表达 二、t检验法 运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性 三、方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。 四、SAM (significance analysis of microarrays) (一) 多重假设检验问题 Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(false discovery rate)值等。 (二) 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对差异统计量 计算扰动后的平均相对差异统计量 确定差异表达基因阈值:以最小 的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估 计假阳性发现率FDR值。 通过调整FDR值的大小得到差异 表达基因。 五、信息熵 运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。 第五节 基因芯片数据的聚类分析 Cluster Analysis of Microarray Data 一、聚类目的 基于物体的相似性 将物体分成不同的 组 二、基因表达谱数据的聚类 对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知 类别分组发现亚型 样本 基因 基因表达谱 三、距离尺度函数 几何距离 线性相关系数 非线性相关系数 互信息 其他 四、聚类算法 (一)层次聚类 层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。 在对含非单独对象的类进行合并或分裂时,常用的类间度量方法 2000年Alizadeh等运用基因芯片数据,基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型 (二)k均值聚类 基本思想 (三)自组织映射聚类 基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档