聚类分析与分类分析.pptx

下载文档 降价啦

8
0
约1.84千字
约 28页
2017-11-02 发布于陕西
举报
版权申诉
保障服务

聚类分析与分类分析.pptx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析与分类分析;基因表达谱分析所采用的常用方法是聚类，其目的就是将基因分组。; 对基因表达谱进行聚类分析之前，必须首先确定反映不同基因表达谱相似程度的度量函数，根据该函数可以将相似程度高的基因分为一类。在实际计算中，还可以用距离代替相似的概念，相似性度量被转化为两个基因表达谱之间的距离。距离越小，表达模式越相近；反之，则表达模式差异大。;欧氏距离;从本质上说 Pearson 相关系数是测量两个表达矢量所指方向的相似性，处理时将其视为单位矢量，因而对幅度的变化不敏感。但若两个不很相似的基因表达谱在某一突出的的峰或谷特别相关的话，Pearson 相关系数可能得出假阳性。相关系数的一个有趣的性质是它可用来检测负相关的基因 ; 距离和相关系数反映的都是基因表达谱之间的相似性，这种相似性反映了基因的共表达行为，而基因的行为是复杂的，它们之间存在调控和被调控的关系，或者存在调控链，调控还有正性调控和负性调控之分。对于这些调控关系，它们的表达谱往往是不相似的，或者存在时延、或者存在反相，而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢? ;考虑到了两个或多个基因对同一输入基因控制信号反应可能不同 ,一个基因可能上调 ,而另一个可能下调。这两种基因反应虽然不同, 但常被认为功能相关。;聚类算法;层次聚类;凝聚法：首先将每个表达谱当作一个类, 根据一定的距离度量标准计算两类间的距离。然后反复地将距离最近的两类合并为一类 ,并重新计算类间距离 ,直到达到某种终止标准或只剩一个类。这一过程产生一树状结构, 树枝高度与类间距离成正比。最后选取某一水平(即某一类间距离)的类数作最终结果。 ;距离度量标准;层次聚类缺点：算法的时间复杂度大结果依赖聚类的合并点和分裂点的选择层次聚类过程最明显的特点就是不可逆性，也就是说，一旦聚类结果形成，想要再重新合并来优化聚类的性能是不可能的了聚类终止的条件的不精确性，要求指定一个合并或分解的终止条件，比如指定聚类的个数或是两个距离最近的聚类之间最小距离阈值;K均值聚类;K-均值聚类缺点：要求预指定类数 ,而实际应用中很难预测类数, 因此需要通过试误 ,即使用多套不同的参数设定,比较其结果 ,并且从生物学角度对结果进行验证。需要用随机初始类中心，不同的随机类中心会有得到完全不同的结果是完全无结构的方法，聚类的结果是无组织的;自组织映射聚类（SOM）;SOM缺点：也需要预先指定参数(节点群的拓扑构形) 是一种拓扑保留的神经网络，易产生不均衡分类。若不相关数据过多，感兴趣的数据较少时，分辨率可能会很低。因此，在应用 SOM对基因表达谱聚类前，需要对数据进行筛选 ;双向聚类;分类分析;Fisher线性判别;PAM方法;K-均值聚类和K-中心点聚类区别： k-means的质心是各个样本点的平均，可能是样本点中不存在的点 k-medoids的质心一定是某个样本点的值这个不同使他们具有不同的优缺点： k-medoids的运行速度较慢 k-medoids对噪声鲁棒性比较好虽然k-medoids也有优点，但是只能对小样本起作用，样本一大其速度就太慢了，而且当样本多的时候，少数几个噪音对k-means的质心影响也没有想象中的那么重，所以k-means的应用明显比k-medoids多的多。;决策树;决策树应用于肿瘤基因表达谱的分类分析;决策树优点：不需要使用者了解很多背景知识（这同时也是它的最大缺点），概念简单，计算效率高作为一种非参数分类方法，使用者不需要输入任何参数分类的结果意义明确，可解释性强有关决策树的演变算法也很多 ;优化方案：修剪枝叶决策树过度拟合往往是因为太过“茂盛”，也就是节点过多，所以需要裁剪（Prune Tree）枝叶。裁剪枝叶的策略对决策树正确率的影响很大。主要有两种剪枝方法：前剪枝：在构建决策树的过程时，提前停止。那么，会将切分节点的条件设置的很苛刻，导致决策树很短小。结果就是决策树无法达到最优。实践证明这种策略无法得到较好的结果。后剪枝：决策树构建好后，然后才开始剪枝。后剪枝有个问题就是计算效率，有些节点计算后就被剪枝了，导致有点浪费。;分类效能评价;聚类分析软件;THANK YOU FOR WATCHING