微阵列数据分析[文字可编辑].pptVIP

  • 6
  • 0
  • 约6.86千字
  • 约 70页
  • 2020-07-05 发布于天津
  • 举报
single linkage 最短距离 讨论(递推公式): 设 G r 是由 G p 和 G q 合并得到的新类,考虑 G r 与 G s ( s ? p , q )的类间距离(最短距离) D rs ,有: } , | m in{ q p ij pq G j G i d D ? ? ? 定义: G p 和 G q 中最邻近的两个样本的距离为这两个类之间的距离。 } , min{ }} , | min{ }, , | min{min{ } , | min{ qs ps s q ij s p ij s r ij rs D D G j G i d G j G i d G j G i d D ? ? ? ? ? ? ? ? ? complete linkage 最长距离 讨论(递推公式): 设 G r 是由 G p 和 G q 合并得到的新类,考虑 G r 与 G s ( s ? p , q )的类间距离(最长距离) D rs ,有: } , | m ax{ q p ij pq G j G i d D ? ? ? 定义: G p 和 G q 中相距最远的两个样本的距离为这两个类之间的距离。 } , max{ }} , | max{ }, , | max{max{ } , | max{ qs ps s q ij s p ij s r ij rs D D G j G i d G j G i d G j G i d D ? ? ? ? ? ? ? ? ? average linkage 类平均距离 讨论(递推公式): 设 G r 是由 G p 和 G q 合并得到的新类,考虑 G r 与 G s ( s ? p , q )的类间距离(类平均距离) D rs ,有: q p t i t j ij q p pq G j G i d t t D p q ? ? ? ?? ? ? , 1 1 1 定义: 用 G p 和 G q 中每两两样本间距离的平均值作为两个类之间的距离。 ] ] [ 1 ) ( 1 , 1 1 1 1 1 1 sq r q sp r p sq q s sp p s s r t i t j ij t j ij s r s r t i t j ij s r rs D t t D t t D t t D t t t t d d t t G j G i d t t D s q p r s ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? 类别数目的确定 X (1) X (2) X (3) X (4) X (5) 1 2 0 D cr1 D cr2 D cr3 D cr4 D cr5 层次聚类结果的可视化 - TreeView 非层次聚类 选取 聚类种子点 (Cluster seeds) 初始分类 修改分类 分类是否 合理? 最终分类 是 否 例 Microarray 数据模式分类 预处理 特征提取 机器学习 决策 训 练 样 本 新 样 本 分类器 决策 X F(X) Y x 1 x 2 L : c 1 x 1 +c 2 x 2 - c =0 G 1 G 2 模式分类算法 ? 线性分类器 ? 神经网络 ? 最近邻 ? 贝叶斯分类器 ? 隐马尔科夫模型分类器 ? 决策树 ? 支持向量机 Principal component analysis (PCA, 主成分分析 ) ? 基因芯片数据维数高,难以可视化 ? 基因芯片数据噪音比较强 ? PCA 主要的应用 – 降维 – 去噪 PCA 数学基础:统计和线性代数 ? 均值 (mean): ? 标准差 (standard deviation): ? 方差 PCA 数学基础:统计和线性代数 ? 协方差( covariance ) : 以上测量都是针对 一维变量的,然而,实际数据很多都包 含 2 维以上的数据,统计分析的一个重要 目标是检查这些维之间是否有某种关系。 PCA 数学基础:统计和线性代数 ? 协方差( covariance )例子 : 样本:一个班里抽 取 12 个学生。 2 维:一是每个学生的期末成绩, 另一是每个学生花费在学习上的时间 PCA 数学基础:统计和线性代数 ? 协方差距阵( covariance matrix ) ? 矩阵代数(线性代数):这方面知识不介绍了, 感兴趣的同学可以课下自学。 PCA: 举例说明

文档评论(0)

1亿VIP精品文档

相关文档