相似性度量在基因表達聚类分析中的应用研究.docVIP

下载本文档

8
0
约8.52千字
约 14页
2016-11-28 发布于重庆
举报
版权申诉

相似性度量在基因表達聚类分析中的应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

相似性度量在基因表達聚类分析中的应用研究

相似性度量在基因表达聚类分析中的应用研究摘要：聚类分析是基因表达数据分析研究的主要技术之一，其算法的基本出发点在于根据对象间相似度将对象划分为不同的类，选择适当的相似性度量准则是获得有效聚类结果的关键。采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析，并得到聚类结果评价。其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素，为了获得更有效的聚类结果，改进相关聚类算法并提出了一种比例相似性度量准则。关键词：dna微阵列；聚类分析；相似性度量；基因表达 dna 微阵列(dna microarray) 技术的日益成熟导致了基因表达数据不断扩大,尤其在近十几年内更以指数形式增长。如何分析和处理大量的基因表达数据，从中提取有用的生物学或医学信息，已成为后基因组时代研究的瓶颈［12］。由于基因芯片产生巨量的表达谱数据，数据挖掘技术已经被广泛的应用到基因表达谱的许多方面，并取得成功。聚类分析是基因表达数据分析研究的主要技术之一［23］，并且作为一种有效的数据分析工具, 已广泛地应用于图像处理、信息检索、数据挖掘等领域。目前，作为研究基因表达数据的主要技术之一的聚类分析算法有很多种，如分层聚类(hierarchical clustering)，k均值聚类(k_means clustering)，自组织映射(self organizing maps，soms)，主成分分析(principal component analysis，pca)等等。但由于不同聚类算法，甚至同一聚类算法使用不同参数，一般都会产生不同的聚类结果。因此，在对数据处理过的基因表达矩阵聚类分析时，选择合适的聚类相似性准则至关重要，同时也是获得合理、精确的聚类结果的关键。 1dna微阵列 dna微阵列（dna microarray）,也叫基因芯片。它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的（约1 cm2）玻璃或硅片等固体基片或膜上，该固定有探针的基片就称之为dna微阵列。 1.1基因表达数据的获得和表示在不同的实验环境条件或是不同的时间点，通过对基因芯片的扫描，可以得到不同的实验数据，所以这些数据是基因在一定实验条件下或一段时间内的表达情况。经过对这些数据表达进行预处理和标准化后，产生得到的微阵列数据也就是基因表达数据。微阵列基因表达数据主要为数值型，并以矩阵的方式存储，“行”为各个基因在不同环境条件下或不同时间点的表达情况，“列”是同一环境或时间下一个样本所有基因的表达谱。每一个元素代表第i个基因在第j个样本中的表达水平。 1.2基因数据的研究现状与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段。现阶段基因芯片所遇到的挑战并不在于表达芯片实验技术本身,而是发展实验设计方法及数据分析［4］。实验数据的预处理、标准化的方式，度量相似性的方式以及所选择的聚类方法都会对分析结果产生影响。面对海量的基因数据，聚类算法也不只是拘泥于传统的k均值算法，层次聚类算法上，而是向着多元化、专门化、复杂化的方向发展。 2聚类相似性研究在日常生活中进行识别时也总是利用相似性概念，但是人们又很难对“相似”或“不相似”做出明确的定量表述，因此通常所说的相似性只具有定性的或不确定的性质。怎样对相似性概念给以明确的定量表述是模式识别工作者要解决的任务之一。 2.1相似性度量两个样本间的相似性或离散度的测量称为相似性度量，简称相似度。聚类通常按照样本间的相似性进行分组，因此如何描述对象间相似性是聚类分析的一个重要问题。聚类分析按照样本之间的亲疏远近程度进行分类。为了使类分得合理，必须描述样本之间的亲疏远近程度。刻画聚类样本之间的亲疏远近程度主要有以下2类函数：（1）距离函数。可以把每个样本看作高维空间中的一个点，进而使用某种距离来表示样本之间的相似性，距离较近的样本性质较相似，距离较远的样本则差异较大。（2）相似系数函数。两个样本愈相似，则相似系数值愈接近1；样本愈不相似，则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本性质的相似性。 d(i, j)是样本i和样本j之间相似性的量化表示，通常它是一个非负的数值，一般地，距离函数有如下数学要求：（1） d(i, j)≥0：距离是一个非负的数值；（2） d(i, i)=0：一个对象与自身的距离是0；（3） d(i, j)= d(j, i)：距离函数具有对称性；（4） d(i, j)≤d(j,h)+d(h,i)：从对象i到对象j的直接距离不会大于途经任何其他对象