- 10
- 0
- 约2.71万字
- 约 18页
- 2018-06-07 发布于贵州
- 举报
数据分布拟合的EM算法及其在生物计算中的运用
摘要
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,生物信息或基
因数据挖掘更使人类受益匪浅。数据分布的拟合问题是数据发掘理论与应用中的一
个典型问题。这就是为了更确切地了解一批观测数据的统计特性,我们必须确定它
们的分布函数,用已知的概率分布去作拟合。本文的主要内容就是讨论在较一般的
混合分布条件下,用EM算法,在最小熵原理的优化准则下的数据拟合问题。
传统的EM算法是我们早已熟知的算法(见[2],[3]),本文是在其基础上提
出了新的优化准则,从而使其更方便的应用于数据分布拟合问题.这就是用一般指
数混合分布,对观测数据进行拟合,使它们的Kullba吐.Leibler熵为最小。本文在给
出了拟合计算中的EM算法后,也证明了该拟合计算的收敛性定理。
在生物计算中存在大量数据拟合问题,本文以蛋白质空间结构分析为例,利用
PDB数据库对蛋白质空间结构中的几种重要参数进行分布拟合,得到了明显的效
果,并由此可以得到蛋白质空间结构特性。这使得本文提出的基于最小熵原理的EM
算法有着更实际的意义.
关键词: 数据发掘中的分布拟合问题,最小熵原理,EM算法,生物计算
中的应用
2
原创力文档

文档评论(0)