大规模地名本体数据库系统的建构技术与方法.PDFVIP

  • 5
  • 0
  • 约2.17万字
  • 约 6页
  • 2019-04-08 发布于天津
  • 举报

大规模地名本体数据库系统的建构技术与方法.PDF

大规模地名本体数据库系统的建构技术与方法.PDF

第60卷 第8期 2016年4月 大规模地名本体数据库系统的建构技术与方法 1,2 1 2 ■ 俞敬松  王惠临 杨洁 1 2 北京大学信息管理系 北京 100871  北京大学软件与微电子学院 北京 100871 摘要:[目的/意义]实用的大规模地名本体数据库系统在自然语言处理、信息检索和情报分析领域具有重 要的应用价值。本研究的目的是在减少人工干预的情况下,实现对地名简称、俗名以及随时间变化的复杂地名 文本的自动识别与处理。[方法/过程]以多种方法获取大规模名址数据为根基,简化地名元素间复杂关系,在 开发名址元素切分、属性与关系分析及推理工具包的基础上,利用Neo4j图数据库工具开发实用地名本体数据 库系统。[结果/结论]基于所介绍的技术与方法而构建的系统具有良好的容错性和持续的数据更新能力,其 地名分析、地名元素间关系推理达到了期望的精度,并在面向诸如新闻主题追踪、金融征信中的地名匹配等多 种自然语言处理任务中取得良好效果。 关键词:自然语言处理地名 本体库名址 分析 关系推理 分类号:P208   DOI:10.13266/j.issn.0252-3116.2016.08.016 1 引言 2.1 地名识别算法   李丽双等提出了一种支持向量机(SVM)与规则相   地名是确定空间地理信息的重要信息。不同于地 结合的中文地名自动识别方法,并采用递增式学习策 理信息系统(GIS),自然语言文本中的名址字符串没 略优化条件随机域(conditionalrandomfields,CRF)的 有确定的空间坐标。在新闻主题事件追踪、应急响应 特征模板以提高中文地名的识别效果,结合语言学相 与危机管理、科技热点主题与机构监测、竞争对手情报 关知识构建规则库,以弥补机器学习模型获取知识不 跟踪、机构合作关系挖掘等研究领域都会涉及地名的 [2-3] 够全面导致召回率偏低的不足 。钱晶等构建了一 问题。在当今 Web信息爆炸式增长特别是位置信息 个基于最大熵原理的汉语人名地名自动识别混合模 大量涌现的时代,如何从大量的新闻或其他文本语料 [4] 型 。 中抽取地名,并形成一个面向真实用途的大规模地名 2.2 地理或历史语料中地名的抽取 库,成为图书情报领域解决一些信息抽取与挖掘等技   黄水清等基于先秦古汉语语料库和条件随机场模 术问题的关键。 型,构建古汉语地名自动识别模型,对《春秋左氏传》 中的地名的内部和外部特征进行统计分析,构建模型 2 相关研究述评 [5] 的特征模板 。朱锁玲等以地方志资料汇编《方志物   中文地址写法相对于英语较为随意,各地名元素 产》为语料,设计并构建了古籍地名识别系统。采用规 的顺序及能否省略没有一定之规,“一地多名”和“一 则与统计相结合的命名实体识别方法,实现了物产地 名多址”泛滥,简称、缩略、大小写、全半角、格式化等因 [6] 名的自动识别 。柯修等基于Nagao串频统计算法实 素大大增加了实用化地名处理系统的复杂性。解析名 现汉语和孟加拉语专有名词的识别,通过提取未经过 址字符串信息,不但要得到各个地名元素,还要分析其 词性标注的中

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档