【生物信息学第二版】基因表达数据分析课件.ppt

【生物信息学第二版】基因表达数据分析课件.ppt

  1. 1、本文档共112页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【生物信息学第二版】基因表达数据分析课件

(三)PAM方法 (prediction analysis for microarray) 基本思想 每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。 基因1 基因2 分析步骤 计算统计量 对公式经过变换得到 收缩各类的均值 判断新样本类别 (四)决策树 基本思想 决策树又称多级分类器,它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。 决策树的结构:一个树状的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布。 决策树应用于肿瘤基因表达谱的分类分析 分析步骤:提取分类规则,进行分类预测 在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂) 这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理 决策树分类算法 output 训练集 决策树 input 衡量准则 信息增益——information gain 基尼指数——Gini index 决策树的修剪 消除决策树的过适应问题 消除训练集中的异常和噪声 (五)分类效能评价 1.构建训练集和检验集 n倍交叉验证(n-fold cross validation) Bagging(bootstrap aggregating) 无放回随机抽样 留一法交叉验证 (leave-one-out cross validation,LOOCV) 2.分类效能 灵敏度(sensitivity,recall) 特异性(specificity) 阳性预测率(positive predictive value,precision) 阴性预测率(negative predictive value) 均衡正确率(balanced accuracy) 正确率(correct or accuracy) 第五节 基因表达谱数据分析软件 Software Tools for Gene Expression Profile Analysis 一、R程序示例 R程序 说明 a = 49 ;sqrt(a) 赋值可用“=”,也可用“-〉”;R的语句可以写在一行,用“;”分开 seq(0, 5, length=6) seq 是R的一个函数;具体可以输入命令“? seq”查找seq的具体使用方法 plot(sin(seq(0, 2*pi, length=100))) plot 是画图函数, a = "The dog ate my homework" a是一个字符串 sub("dog","cat",a) sub的功能是将a中的“dog”用“cat”替代, 结果为"The cat ate my homework“ a = (1+1==3);a a 是一个逻辑变量, 结果为:FALSE R程序 说明 x <- 1:6 “:”在这里是"from : to"的意思,结果是1,2,3,4,5,6。 dim(x)<-c(3,4); x dim函数是维数的意思,这里的功能是将x变为3X4维的基阵 a = c(7,5,1); a[2] C函数的功能是组合,这里将3个数组合赋值给a, a[2]是5 doe = list(name="john",age=28,married=F) doe是list, 与向量的差别是可以由不同的变量组合 doe$name; doe$age R语言中,特殊符号$的作用 二、BioConductor命令示例 BioConductor 命令 说明 source("/biocLite.R");biocLite(c("affy", "limma")) 首先在R环境下安装"affy", "limma"两个程序包。 library(affy) library(limma) 将两个软件包装载,前者用于Affymetrix预处理;后者用于差异表达分析 phenoData <- read.AnnotatedDataFrame(system.file("extdata", "pdata.txt", package="arrays")) 将实验数据的表型信息,读给变量phenoData, 数据在安装好的系统里 BioConductor 命令 说明 celfiles <- system.file("extdata", package="arrays") eset <- justRMA(phenoData=phenoData, celfile.path=celfiles) 读入数据,利用RMA函数对数据进行标准化处理 combn <- factor(paste

文档评论(0)

静待花开 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档