信息抽取中地点归一化的研究.docVIP

下载本文档

25
0
约5.98千字
约 12页
2018-10-12 发布于福建
举报

信息抽取中地点归一化的研究.doc

信息抽取中地点归一化的研究

信息抽取中地点归一化的研究　　摘要：汉语中地名歧义现象非常普遍。我国每个县级城市基本上都有一个镇名叫城关镇。在信息抽取、融合、知识图谱构建中，首先要解决地名歧义问题。运用最大生成树算法，提出了一种地点归一化的混合模式解决方法，其基本步骤为：基于CRF的地点命名实体识别；用最大生成树的图搜索算法进行地名消岐，如无法消岐，则通过半自动抽取计算缺省地名。对《人民日报》2013下半年相关数据进行测试显示，正确率为93.7%。　　关键词：信息抽取；地点归一化；最大生成树；命名实体；歧义　　DOIDOI：10.11907/rjdk.151159 　　中图分类号：TP301 文献标识码：A 文章编号：1672-7800（2015）007-0026-04 　　0 引言　　地点归一化任务是确认一个有歧义地点命名实体的确切含义。地名有歧义的情况非常多，譬如，我国名叫城关镇的地名就非常多，地点归一化在信息抽取系统中至关重要。　　地点归一化是词义消歧（Word Sense Disambiguation）中的一个特殊部分。词义消歧方法很多，譬如基于带有注释的语料库，通过手写规则或者机器监督学习来进行词义消歧[1-3]；或者基于语料库无监督方法 [4-6]。地点归一化不同于传统的词义消歧，多数情况下由于选择的限定导致难以区分出一个地点的确切含义。譬如在句子“大雁塔位于西安”中，通过

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息抽取中地点归一化的研究.docVIP