- 7
- 0
- 约5.06万字
- 约 55页
- 2019-03-30 发布于上海
- 举报
摘要
摘要
I
I
摘 要
自然语言是人类空间认知结果的最重要表现形式。实现自然语言中地理空间 信息的挖掘,不仅能够丰富地理信息系统(GIS)的信息来源,而且能够提升 GIS 的表达能力和可理解性。作为一种最常用的自然语言载体,文本中蕴含着丰富的 地理空间信息。从文本中获取未分析的、非显式的空间知识已成为当前地理信息 科学迫切需要解决的问题。地理命名实体识别是从文本智能化获取地理空间信息 的基础。本文在综述国内外相关研究进展的基础上,重点探讨了基于机器学习的 地理命名实体识别方法。主要内容包括以下几个方面:
(1)地理命名实体标注语料库的构建方法。针对目前国内外相关实验数据 匮乏的情况,借鉴自然语言处理技术中命名实体标注方法,制定了中文文本中地 理命名实体的标注规范,开发了相应的标注系统,并以“《中国大百科全书》(地 理分册)”(约 150 万字)为例进行了标注实验。统计分析表明,该语料库中地理 命名实体的分布较为均匀,适宜于地理命名实体识别技术的研究。
(2)基于条件随机场的地理命名实体识别方法(简称“CRF-GNER”)。条 件随机场(CRF)是一种用于在给定了指定的输入结点值时计算指定输出结点值 的概率的无向图模型,具有表达长距离依赖性和交叠性特征的能力,成功应用于 生物医学、计算机语言学和语音识别等领域。地理命名实体具有上下文依赖性、 嵌套性等特点,而 CRF 模型在解决这些问题方面具有较好的性能。本文在分析 中文文本中地理命名实体语言特点的基础上,通过制定标注粒度策略,建立了基 本特征函数集,设计了相应的特征模板,讨论了模型训练和测试的具体过程。
(3)原型系统开发和实验验证分析。在上述研究基础上,开发了面向中文 文本的地理命名实体识别原型系统,主要功能包括语料管理、语言模型、地理命 名实体识别和模型评测。此外,为了验证相关模型和算法的应用效果,开发了网 页地理命名实体识别系统。最后,以“《中国大百科全书》(地理分册)”为实验 数据,对本文提出的“CRF-GNER”模型和算法进行了实验。实验结果表明,合 适的复合特征能够提高识别性能,但手工设计复合特征过于繁琐,有必要采用特 征归纳方法自动生成优化的组合特征。使用 ICTCLAS 标注的词性特征有助于改 善识别效果。是否有必要加入词典特征以及如何选取更有效的原子特征加入模型 是需要进一步探索的问题。
关键词:中文文本,地理命名实体识别,条件随机场,语料库
Abstract
Abstract
II
II
Abstract
Natural language is the most important expressive form of human cognitive results on space. Mining geo-spatial information from natural language not only enriches information sources for Geographic Information System (GIS) but also enhances representability and perceptibility of GIS. Abundant geo-spatial information exists in text which is one of the most common carriers of natural language. It’s now a very crucial and urgent problem which is to acquire non-analytical, non-explicit spatial knowledge from text in geographic information science. Geographic Named Entity Recognition (GNER) is the foundation on which to acquire geo-spatial information from text in an intelligent way lies. Based on detailed research development from home and abroad, this thesis explores Conditional Random Fields (CRF) based GNER approach emphatically. Major contents are as follows:
Approach to the construction of Geographic Named Entity (GNE) labeled
您可能关注的文档
- 基于网络安全的政府监管分析-行政管理专业论文.docx
- 基于塑性和弹性模型的日元美元汇率波动实证研究-金融学专业论文.docx
- 基于数据挖掘的体育成绩管理与体能分析系统-软件工程专业论文.docx
- 基于前景理论的随机模糊多属性决策方法的研究-管理科学与工程专业论文.docx
- 基于生活情境的中学物理教学对学生能力培养的研究-课程与教学论(物理)专业论文.docx
- 基于利益相关者的企业社会责任与企业价值关系研究-会计学专业论文.docx
- 基于决策树的港口后方堆场辅助决策应用的研究计算机技术专业论文.docx
- 基于碳排放的 产品质量设计与推广策略研究-企业管理专业论文.docx
- 基于随机波动率和随机利率的亚式期权定价-应用数学专业论文.docx
- 基于数据挖掘的高校成绩分析系统的设计与实现-计算机技术专业论文.docx
最近下载
- (高清版)C-H-T 9012-2011 基础地理信息数字成果数据组织及文件命名规则.pdf VIP
- Unit6 Numbers in life A let's learn(课件) 人教PEP版(2024)英语三年级下册.pptx VIP
- 2026年重庆高考物理考试卷及答案.docx VIP
- 2025年新疆高考语文试卷及答案.docx VIP
- 工程断裂力学课件.ppt
- 部编版六年级语文下册导学案(全册).docx VIP
- 大足石刻宝顶山景区讲解词(完整版).pdf VIP
- 最新2026年时事政治题单招标准卷.docx VIP
- 伟思医疗公司2019年财务分析研究报告.docx
- 外国名家哲理短文40篇重点.doc
原创力文档

文档评论(0)