生物芯片数据方法.ppt.ppt

  1. 1、本文档共101页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物芯片数据方法.ppt

1 2 3 4 1 2 1 2 K – 均值聚类在基因芯片实验中的应用 Step 1: 假设基因表达模式的距离为基于距离矩阵的二维空间中的变量 Step 2: 随机选择第一个类中心(质心,红色),然后通过寻找与已选择的类中心最远的数据点来确定下一个类中心。本例中, k=3。 K – 均值聚类在基因芯片实验中的应用 * K-MEANS CLUSTERING ALGORITHM(CONTINUED) Step 3: 每一个点被分配到与其最近的类中心 Step 4: 重新计算每一个类的质心,通过最小化类内每个点与质心的距离平方和来移动质心、计算下一个类中心 K-MEANS CLUSTERING ALGORITHM(CONTINUED) 重复步骤3、4、5直至质心不变或变化很小。 Step 5: 重复步骤3和4,获取新的替代质心 利用MATLAB进行K-均值聚类 IDX = KMEANS(X, K) 利用MATLAB进行K-均值聚类 (三)自组织映射聚类 基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变 3、自组织映射聚类(SOM) 自组织映射聚类(Self-Organizing Map, SOM),是由T.Konohen 于1980 年提出的模型,属于非监督学习的神经网络聚类,与K-means 相似,采用SOM 聚类算法之前,也要首先估计出想要得到的类的个数。在SOM 神经网络中,输出层的神经元是以列阵的方式排列于一维或二维的空间中的。根据当前输入向量与神经元的竞争,利用欧氏距离,寻找最短距离当作最有效神经元,以求得调整向量神经元的机会,而其他神经元也可以彼此学习。而最后的神经元就可以根据输入向量的特征,以拓扑结构展现于输出空间中。 四 主成分分析算法(PCA) 能把复杂的数据集转换为比较简洁的数据集。PCA可以降低数据集的多维空间,从而能将数据集在2维图或3维图上表现出来,以至于能从中找到类中对象之间的相互关系。 (五)双向聚类 双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。 层次聚类 采用嵌套式基因和疾病 两个方向的循环搜索, 识别疾病亚类及导致 疾病亚类发生的对应 基因簇 双向聚类 局部相似性 识别出特定条件子集中表达模式一致的基因类 单向聚类算法不允许基因或条件属于多个相互重叠的类 * * * * * Euclidean distance. * * * * * * * * * * * * 2. 中间距离法 在定义类与类之间的距离时采用介于两者之间的距离的聚类方法称为中间距离法。 设将类Gp与Gq类合并为类Gr,然后计算任意的类Gk和Gr的距离: 若Dkq>Dkp: 如果采用最短距离法,则Dkr = Dkp, 如果采用最长距离法,则Dkr = Dkq。 而中间距离法是取它们(最长距离与最短距离)的中间一点作为计算Dkr的根据。 中间距离法取最短距离与最长距离的中线,则由初等几何可知这个中线的平方为: 由于此公式中出现的全是距离的平方,所以为了计算的方便,距离矩阵的元素也可以都为平方。 2. 中间距离法 上述八种系统聚类法的步骤完全一样,只是距离的递推公式不同。兰斯(Lance)和威廉姆斯(Williams)于1967年给出了一个统一的公式,即将Gp和Gq合并为新类Gr,类Gk与新并类Gr的距离公式为: 其中ap、aq、 ? 、 ? 是参数,不同的系统聚类法,它们取不同的数。 * * 系统聚类法参数表 方 法 ap aq ? ? 最短距离法 1/2 1/2 0 -1/2 最长距离法 1/2 1/2 0 1/2 中间距离法 1/2 1/2 -1/4 0 重心法 0 类平均法 0 0 可变类平均法 0 可变法 0 离差平方和法 0 聚类树的分割 系统聚类树可以用于分割数据,分割的类数由用户确定。分割的方法为:在树的一定深度上(从根部开始的距离)进行切割,不同深度的切割产生不同的分类结果。 3 clusters? 2 clusters? 层次聚类 确定类别个数? 指定类别数 相似性阈值 如何比较不同聚类方法的聚类结果? 不同聚类方法产生的系统树图间存在差异。 常用的方法:在固定分类的情况下比较不同方法聚类结果的一致性。 假定有两个系统树,把两棵树都进行切割,把对象分成K类。 两棵树的相似性可以定义为在一棵树中分到相同的类中而在另一个棵树中分到不同的类中的所有的配对观测对象的比例。 层次

文档评论(0)

dlhss + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档