信息抽取中地点归一化的研究.docVIP

  • 25
  • 0
  • 约5.98千字
  • 约 12页
  • 2018-10-12 发布于福建
  • 举报
信息抽取中地点归一化的研究

信息抽取中地点归一化的研究   摘 要:汉语中地名歧义现象非常普遍。我国每个县级城市基本上都有一个镇名叫城关镇。在信息抽取、融合、知识图谱构建中,首先要解决地名歧义问题。运用最大生成树算法,提出了一种地点归一化的混合模式解决方法,其基本步骤为:基于CRF的地点命名实体识别;用最大生成树的图搜索算法进行地名消岐,如无法消岐,则通过半自动抽取计算缺省地名。对《人民日报》2013下半年相关数据进行测试显示,正确率为93.7%。   关键词:信息抽取;地点归一化;最大生成树;命名实体;歧义   DOIDOI:10.11907/rjdk.151159   中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2015)007-0026-04   0 引言   地点归一化任务是确认一个有歧义地点命名实体的确切含义。地名有歧义的情况非常多,譬如,我国名叫城关镇的地名就非常多,地点归一化在信息抽取系统中至关重要。   地点归一化是词义消歧(Word Sense Disambiguation)中的一个特殊部分。词义消歧方法很多,譬如基于带有注释的语料库,通过手写规则或者机器监督学习来进行词义消歧[1-3];或者基于语料库无监督方法 [4-6]。地点归一化不同于传统的词义消歧,多数情况下由于选择的限定导致难以区分出一个地点的确切含义。譬如在句子“大雁塔位于西安”中,通过

文档评论(0)

1亿VIP精品文档

相关文档