基因数据分析中聚类算法研究与应用.pdfVIP

  • 13
  • 0
  • 约4.19万字
  • 约 60页
  • 2018-03-26 发布于安徽
  • 举报

基因数据分析中聚类算法研究与应用.pdf

优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!

摘要 作为数据分析中的两个重要工具,聚类分析(Clustering)和形式概念分析 (FCA)在数学、计算机科学和生物学等各个科学领域得到广泛的应用。在生物 学研究领域,基因芯片因其研究对象的复杂,产生了大量的基因表达数据;人们 希望能够了解这些数据里面包含的重要信息,因此如何高效地使用这两个数据分 析工具,成了目前研究的热点。 目前虽然提出了一些经典的聚类分析和建立概念格的算法,包括层次聚类分 析、K-means算法和SOMs等。但是这些算法或多或少存在着时间复杂度大、对 初始聚类中心敏感和聚类结果不稳定等缺点,且层次聚类和K-means算法需要 预输入合适的类数K值,这对未知数据集结构的研究人员是难以确定的。与此同 时基因存在着模糊性的客观现实,经典的算法已经不适用了。虽然可以使用模糊 C.均值(FCM)算法解决一部分问题,可是其结果是我们无法进一步了解基因 样本之间的内部联系。 本文针对上述算法的优点和不足,将两种工具结合起来。首先介绍和分析了 经典聚类算法的原理,将其应用到基因表达数据的中;接着根据基因表达数据聚 类的模糊性特点,使用FCM算法并提出该算法的效率和功能评价准则,以此解 决经典和新颖的聚类算法难以比较各个算法之间优劣性的缺点;与此同时,在基 于评价准则的基础上讨论如何选择最佳类数C,使得FCM算法不再需要预输入 合适的类数;最后分析了模糊概念格的优点,使用模糊概念格对FCM的结果进 行形式概念分析,解决了使用FCM算法后基因样本间缺乏内部联系的缺点,最 后证明我们的方法及其结果是有积极的参考价值的。 关键词:模糊C.均值(FCM);基因表达数据;模糊形式概念分析(FFCA) Abstract Astwoofthemost toolsofthedata andFormal important analysis,Clustering been usedintheareaofMathematics, ConceptAnalysis(FCA)havewidely andSOon.Forthe research ComputerScience,Biology biological area,genechips have amountof aconsiderable produced geneexpression data much ofhowtollsethese information.Therefore,the carry important problems two toolshavebecometheresearchfocuses. powerful are classic on and of Currently,theremany algorithmsClusteringapproaches theHierarchical Concept ClusteringAnalysis, constructingLattices,including SO K-means and ofthese ClusteringAlgorithm,SOMson.However,allalgorithms and havethdr the

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档