数据分布拟合的EM算法及其在生物计算中的运用.pdfVIP

  • 10
  • 0
  • 约2.71万字
  • 约 18页
  • 2018-06-07 发布于贵州
  • 举报

数据分布拟合的EM算法及其在生物计算中的运用.pdf

数据分布拟合的EM算法及其在生物计算中的运用

摘要 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,生物信息或基 因数据挖掘更使人类受益匪浅。数据分布的拟合问题是数据发掘理论与应用中的一 个典型问题。这就是为了更确切地了解一批观测数据的统计特性,我们必须确定它 们的分布函数,用已知的概率分布去作拟合。本文的主要内容就是讨论在较一般的 混合分布条件下,用EM算法,在最小熵原理的优化准则下的数据拟合问题。 传统的EM算法是我们早已熟知的算法(见[2],[3]),本文是在其基础上提 出了新的优化准则,从而使其更方便的应用于数据分布拟合问题.这就是用一般指 数混合分布,对观测数据进行拟合,使它们的Kullba吐.Leibler熵为最小。本文在给 出了拟合计算中的EM算法后,也证明了该拟合计算的收敛性定理。 在生物计算中存在大量数据拟合问题,本文以蛋白质空间结构分析为例,利用 PDB数据库对蛋白质空间结构中的几种重要参数进行分布拟合,得到了明显的效 果,并由此可以得到蛋白质空间结构特性。这使得本文提出的基于最小熵原理的EM 算法有着更实际的意义. 关键词: 数据发掘中的分布拟合问题,最小熵原理,EM算法,生物计算 中的应用 2

文档评论(0)

1亿VIP精品文档

相关文档