-
--
HYPERLINK \l br0致谢HYPERLINK \l br064
摘 要
随着 Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人
们不满足于自己去检索必要的信息,等等诸如此类的需求推动了 web文本信息抽取
的研究。但是目前信息抽取中使用的主要技术,存在一些问题,比如自适应性不好,
统计能力不强等,造成抽取结果中的准确性和召回率较低,通过分析以上问题,本
文提出了一种基于混合模型的方法,能较好的改善上述问题,提高抽取质量。
本文通过介绍在文本信息抽取领域使用的两种主要技术:隐马尔可夫模型
(HMM)和 BP 网络,并分析了二者的优缺点,HMM 是一种优秀的统计学模型,其
优越的时序性,动态性和优秀的建模能力已经使得该模型成功应用于各个领域,但
其适应性交差,并需要大量的训练数据;BP网络有优秀的决策能力,对不确定信息
的描述能力以及自适应性较强,但是该模型时序性不强,而且需要特定的输入条件。
在此基础上研究如何通过隐马尔科夫模型和神经网络模型的结合,来提高目前信息
抽取方法的准确性和召回率。通过分析发现,两种模型在优缺点上互补,将 HMM
与 BP 网络结合在一起,可以即克服 HMM 在分类能力以及适应性上的不足,又可
以弥补 BP 网络需要特定输入和建模能力弱等缺陷。
在分析了前人对信息抽取技术的改进后,本文采用对待抽取文本进行分
您可能关注的文档
最近下载
- 锅炉日常运行记录表.docx VIP
- 新闻宣传培训课件.pptx VIP
- 2026年医卫类执业兽医-临床科目(全科)参考题库含答案解析(5套题答案).docx VIP
- GBT50493-2019石油化工可燃气体和有毒气体检测报警设计标准(完整正版清晰无水印)OCR.pdf VIP
- 远洋渔业无人机辅助探鱼、渔场环境监测应用与经济效益分析.docx VIP
- 职业兽医师试题及答案.docx VIP
- 中投顾问:2026-2030年中国固态电池行业深度分析报告.pdf VIP
- 中级会计实务教材电子书 -中级实务电子教材.docx VIP
- 安徽省合肥市庐阳区45中学2026届中考三模英语试题含答案.doc
- 简体中文版 ACI 318-14 结构混凝土建筑规范 及 解说 4.pdf VIP
原创力文档

文档评论(0)