相对行常量差异共表达双聚类挖掘算法.docVIP

下载本文档

3
0
约5.92千字
约 1页
2017-03-15 发布于北京
举报
版权申诉

相对行常量差异共表达双聚类挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

相对行常量差异共表达双聚类挖掘算法.doc

相对行常量差异共表达双聚类挖掘算法摘要：在生物信息学上，挖掘差异共表达双聚类有助于研究衰老、癌变类变化的生物过程。以往的差异共表达双聚类定义仅仅从一组基因的角度来衡量差异，导致包含了很多噪声。为了克服上述缺点提出新的差异共表达支持度MiSupport，可以将一组基因的差异细化到基因级别；并由此定义提出MiCluster算法，可以在两个真实的基因芯片数据中挖掘最大的差异共表达双聚类。MiCluster算法首先基于两个基因芯片数据构建差异共表达权值图，然后基于权值图，采用样本扩展和层次扩展，并利用精确的候选产生方法和高效的剪枝策略，挖掘出最大的差异共表达双聚类。实验结果证明，MiCluster算法比现有的算法快速高效，而且通过均方误差（MSE）测试和基因本体（GO）评价，挖掘出来结果具有更大的统计意义和生物学意义。关键词：基因芯片；基因共表达；双聚类；差异；行常量中图分类号： TP311 文献标志码：A 0 引言在生物信息学上认为，疾病常常是由维持细胞健康状态的基因网络及其衍生物的扰动所造成的，而基因芯片技术是大规模研究此类扰动和探究基因作用的最流行的技术之一。基因芯片技术中广泛使用的方法是双聚类。双聚类是在基因表达数据中，识别和一组实验条件相关的共表达的基因组。双聚类一般有以下类型[1]：固定值双聚类[2]、行是常量或者列是常量的双聚类[3]、行与列之间都紧密的双聚类[4]、行与列的变化紧密的双聚类[5]。这些不同类型的双聚类可以从真实数据挖掘出不同意义的重要知识。差异共表达双聚类方法是基因芯片技术中另外一种流行的方法，它能识别有差异共表达的双聚类，即基因组在一组数据集中有很强的关联关系而在另外一组没有。差异共表达双聚类方法有助于发现和衰老、癌变类变化的生物过程相关的基因。例如，通过比较两个年龄段的基因表达数据可以发现一组和衰老相关的基因。在生物学上，差异共表达双聚类可以预示出错的调控网络[6]。近年来有很多挖掘差异共表达双聚类的算法。Okada等[7]采用了两步挖掘方法，先分别在两个基因芯片数据集中产生双聚类，然后把在两个数据集间有差异的双聚类保留下来。DeBi算法[8]也采用类似的步骤，在单个数据集产生双聚类后采用MAFIA算法[9]挖掘具有差异的正调控或负调控模式。由于在每一个数据集都要产生双聚类或者基因模式，而这些双聚类在下一步差异挖掘过程中可能被剪枝，所以两步挖掘方法效率比较低。因此产生了直接从基因芯片数据中挖掘差异共表达的双聚类的方法。DiBiCLUS算法[10]直接采用聚类的方式从两个数据集中挖掘满足差异共表达的双聚类。Fang等[11]提出差异支持度概念，由此定义了子空间上的差异表达基因模式，并相应地提出SDC算法挖掘此类差异模式。DRCluster[12]算法提出了样本范围支持度，并在此基础上提出了新的行常量差异双聚类，此算法通过基于权值图的回溯扩展，效率较高。以上三个算法都存在不足。如DiBiCLUS算法可能会丢失部分信息：一组基因在不同实验条件中可能同时存在正共表达和负共表达，DiBiCLUS算法只保存样本数最多的那个表达方式；而且DiBiCLUS算法对原始数据进行了离散化，也会造成信息的缺失。SDC算法所挖掘的子空间差异表达模式使用范围支持度来衡量，而不是用基因之间的共表达关系，可能会丢失信息；同时SDC算法采用类Apriori结构，所以SDC算法的不足和Apriori类似，效率不高，需要保留候选集，这些缺点都不适用于大规模的基因芯片数据集。DRCluster算法中差异共表达双聚类定义有点弱，挖掘出的结果差异效果不大明显。为了更加有效地挖掘，本文提出了一个新的差异共表达双聚类定义MiSupport以及一种基于差异权值图的扩展算法MiCluster，以从两个真实的基因芯片数据集中挖掘出差异共表达双聚类。首先从两个数据集中产生满足定义的差异权值图，这个权值图中包含了在每两个实验条件满足MiSupport定义的基因组；然后在差异权值图的基础上，采用样本（实验条件）扩展的方式并使用相应的剪枝策略来挖掘最大的差异共表达双聚类。本文工作主要包括： 1）提出相对样本范围支持度，用以在基因表达值的基础上产生具有相关性样本（实验条件）的集合和衡量基因间的共表达关系。 2）在基因共表达关系的基础上提出新的差异共表达双聚类定义MiSupport。该定义满足反单调性，采用该定义的算法可以利用Apriori性质剪枝。从实验结果中可以得出采用此定义的算法能挖掘出更好的结果。 3）MiCluster算法在差异权值图的基础上扩展，由于保留了中间结果，大大提高了算法效率。 4）MiCluster算法采用了有效的剪枝策略，可以有效地一次性挖掘满足定义的最大差异双聚类。 3 实验分析本章将MiCluster算法与SDC算法和