基因表达聚类分析方法研究-医学统计学专业论文.docxVIP

基因表达聚类分析方法研究-医学统计学专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因表达聚类分析方法研究-医学统计学专业论文

基因表达数据聚类分析方法研究摘要 基因表达数据聚类分析方法研究 摘要 +巨渤:基因芯片(Gene Chip or Mieroarrays)是最近分子生物学实验技 术的一个突破,利用该技术可以同时对成千上万个基因的表达进行平行分 析,产生了海量的有用数据,分析与整理这些数据成为利用这一技术的一 个主要瓶颈问题。聚类分析是有效的分析手段之一,且是后续研究的基础。 /目前基因表达数据聚类分析还处于起步阶段,有许多问题有待解决,其中 比较突出的有以下两点:①算法及其参数的选择。现在已有不少的算法开 始应用于基因表达数据分析,而且不断有新的算法提出。但目前的聚类算 法选择合适的参数,在合适的数据上运行时能产生满意的结果,当这些条 件得不到满足时,聚类结果就很差。因此,在一个具体聚类问题,其主要 的挑战不是来自于如何执行聚类上,而是在于选择算法和相关的参数值 上。目前的方法经常依赖于非直观参数,甚至对于统计专家来说也难以对 其做出正确的选择②聚类结果的评判。由于目前还没有一个合适的聚类结 果评判方法,因此对于聚类算法的选择缺少客观依据,对于聚类结果的质 量也缺乏必要的检验手段。本研究的目的就是要探讨上述两个方面的问 题。,; 磁:①模糊c一均值法是广泛应用于基因表达数据聚类分析的方法 之一,但参数c要人为确定,穆阀通过建立一个PFS判别函数来解决参 数c的确定问题,称之为PFS模糊聚类法。②针对聚类结果评判的问题, 在FOM评判法的基础上,加入一个外部评判标准gain ratio,建立了一套 新的评判方法.Entropy评判法。 f结果:①先用几组模拟数据对PFS函数进行试验,获得满意的结果。 然话用PFS模糊聚类法对一个真实数据集聚类,经过与该数据集已知的 功能分类进行比较,PFS模糊聚类的结果与数据集的功能分类呈现很好的 功能分类进行比较,PFS模糊聚类的结果与数据集的功能分类呈现很好的 相关性,验证了PFS模糊聚类法的有效性。②利用我们建立的Entropy评 判法,对SOM法、模糊聚类法、K一均值聚类法和3个分层聚类法在Lyer 和Ferea数据集上表现进行了评判。发现SOM法和模糊聚类法的聚类效 能高于其它4个聚类算法;而K一均值法和平均连锁算法又好于单连锁和 完全连锁算法。评判结果的同时还在一定程度上验证了Entropy评判法的 价值。 结论:①PFS模糊聚类是有效的聚类方法,可以应用于基因表达数据 的聚类分析②Entropy评判法是基于类的结构和数据集的外部信息两个方 面来对聚类结果进行评判的方法,对聚类结果的评判简单、直观。经Entropy 评判,认为SOM法和模糊聚类法适用于基因表达数据聚类分析。 : 关Itia鹫固碴片;基因表整数据;聚类算法;自组织图 模糊聚类;评判;熵 Clustering Clustering Analysis of Gene Expression Data Abstract Motivation:Microarrays are one of the latest breakthroughs in experimental molecular biology,which allow monitoring of gene expression for tens of thousands of genes in parallel and are already producing huge amounts of valuable data.Analysis and handling of such data is becoming one of the major botttenecks in the utilization of the technology.However,gene expression data analysis are currently only in their infancy,there are many difficulties to be conquered:①The selection of clustering algorithms and its suitable parameters for a given clustering problem.②Validating the clustering result.There are many clustering algorithms have been applied to gene expression data now,and new algorithms are proposed continuously.So,select a suitable algorithm fo

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档