基于HMM和BP网络混合模型的web文本信息抽取分析.doc

基于HMM和BP网络混合模型的web文本信息抽取分析.doc

- -- HYPERLINK \l br0致谢HYPERLINK \l br064 摘 要 随着 Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人 们不满足于自己去检索必要的信息,等等诸如此类的需求推动了 web文本信息抽取 的研究。但是目前信息抽取中使用的主要技术,存在一些问题,比如自适应性不好, 统计能力不强等,造成抽取结果中的准确性和召回率较低,通过分析以上问题,本 文提出了一种基于混合模型的方法,能较好的改善上述问题,提高抽取质量。 本文通过介绍在文本信息抽取领域使用的两种主要技术:隐马尔可夫模型 (HMM)和 BP 网络,并分析了二者的优缺点,HMM 是一种优秀的统计学模型,其 优越的时序性,动态性和优秀的建模能力已经使得该模型成功应用于各个领域,但 其适应性交差,并需要大量的训练数据;BP网络有优秀的决策能力,对不确定信息 的描述能力以及自适应性较强,但是该模型时序性不强,而且需要特定的输入条件。 在此基础上研究如何通过隐马尔科夫模型和神经网络模型的结合,来提高目前信息 抽取方法的准确性和召回率。通过分析发现,两种模型在优缺点上互补,将 HMM 与 BP 网络结合在一起,可以即克服 HMM 在分类能力以及适应性上的不足,又可 以弥补 BP 网络需要特定输入和建模能力弱等缺陷。 在分析了前人对信息抽取技术的改进后,本文采用对待抽取文本进行分

文档评论(0)

1亿VIP精品文档

相关文档