基因表达数据分析 课件.pptVIP

  • 20
  • 0
  • 约8.65千字
  • 约 112页
  • 2019-05-24 发布于浙江
  • 举报
(三)PAM方法 (prediction analysis for microarray) 基本思想 每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。 基因1 基因2 分析步骤 计算统计量 对公式经过变换得到 收缩各类的均值 判断新样本类别 (四)决策树 基本思想 决策树又称多级分类器,它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决。 决策树的结构:一个树状的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布。 决策树应用于肿瘤基因表达谱的分类分析 分析步骤:提取分类规则,进行分类预测 在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂) 这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理 决策树分类算法 output 训练集 决策树 input 衡量准则 信息增益——information gain 基尼指数——Gini index 决策树的修剪 消除决策树的过适应问题 消除训练集中的异常和噪声 (五)分类效能评价 1.构建训练集和检验集 n倍交叉验证(n-fold cross validation) Bagging(bootstr

文档评论(0)

1亿VIP精品文档

相关文档