聚类和分类技术在生物信息学中应用.pdfVIP

  • 7
  • 0
  • 约7.37万字
  • 约 79页
  • 2015-12-04 发布于安徽
  • 举报

聚类和分类技术在生物信息学中应用.pdf

优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!

中文摘要 中文摘要 大量生物学实验积累了数以万计的生物信息数据。如何有效地进行数 据的采集、整理、检索、分析,从中提耿规律,上升为理论,“读懂”基 因组的遗传信息,以便指导研究工作,对生物信息学提出了很高的要求, 也对信息理论与技术提出了挑战。数据挖掘作为一种以数掘库、统计学和 人工智能学为基础的新兴技术,给生物学家提供了fii『所未有的数据分析工 具,为基因和蛋白质信息的分析和提取提供了强有力的手段。 本文主要对基因表达数据、蛋白质序列数据的分类和聚类进行了研 究。本文提出了蛋白质序列数据的分类算法,主要根据蛋白质序列数掘的 特性设计了一个挖掘连续频繁模式的方法,对每类数据挖掘得到的频繁模 式进行类间裁减,用每类独有的频繁序列对测试数据进行分类。还提出了 蛋白质序列数据聚类算法,它首先应用连续频繁模式挖掘算法找出频繁定 长模式,然后对频繁模式进行裁减,利用剩余的模式建立新空间,把蛋白 质序列数据在新空间上投影,计算序列问的相似矩阵,最后应用K—means 方法进行聚类。还提出的基因表达数据分类算法中,首先利用基因表达值 的期望和方差对基因进行裁减,把基因表达数据离散化,然后转变成 P.tree的形式,利用P.tree结构的数据计算信息增益构建多棵决策树对测 试数据分类。提出了一个并行计算基因表达数掘聚类的方法,是一个基于 KNN密度聚类的方法。首先把基因表达数据均分到服务器上,然后在各 台服务器上分别计算基因的密度,求出核心基因,聚类核心基因,求得部 分数据的簇中心点,客户机聚类各台服务器求得的簇中心点,计算出全体 数据的簇中心点。实验结果表明所提出的算法是较优的。 关键词:生物信息学基因表达蛋白质序列分类聚类 外文摘要 Abstract thousandsdatahavebeenachieVed 1、housands upon biology bybi0109y Howto and data collect,cleanup,searchanalyzee伍caciously, experiments howto rulesfmm area11wemustresolVeData isa pick data,which mining isbased andani6cial new database,statistjcs techn0109y,whichupon isausemland to intelligence.Datamining powerfultoolbiologist. Inthe research and mainly geneexpressionproteinsequence p印er,we data.We amethodof classinc“onrWe a provide pmteinsequences design metllodtominecontinuous testdataisbasedon frequentpattems.classify ametho

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档