- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地址分词算法,分词算法,中文分词算法,搜狗输入法的分词算法,英文分词算法,php分词算法,java分词算法,ik分词算法,逆向最大匹配分词算法,java中文分词算法
基于分词的地址匹配技术
孙亚夫 陈文斌
(北京灵图软件技术有限公司,北京 100094
sunyafu@,chenwenbin@)
?
?
?
摘要? 根据调查显示,城市信息中80%都与地理位置有关,而这些信息中大多数却没有空间坐标,自然就无法整合,无法进行空间分析。这对于城市信息化建设来说,是一个极大的阻碍。为了快速的推进数字化城市的建设和发展,有必要找到一种快速、高效的方法,将大量的与地理位置相关的信息,进行坐标编码,以便于GIS系统分析、查询。本文提出了一种“基于分词的地址匹配技术”,它能将大量的非空间信息高效的转化成空间信息,极大地提高了非空间信息数据的编码、录入效率。
?
?
?
关键词? 地理编码 地址匹配 GIS系统 地址数据库
?
1.?? 引言
随着互联网、信息技术、GIS技术的发展,人们的生活越来越多的依赖于地图。地图制作需要的数据从哪来了?传统的数据采集方法,我们称之为“扫街”,就是通过人工的方法,到实地去采集地址的坐标。这种“扫街”的方法,由于成本太高,很显然已经不适应大量非空间信息的处理。
本文提出了一种“基于分词的地址匹配技术”,它是通过构造一种分级地址库的方法,并转换成地址分词库,采用基于地址词典的中文分词技术,实现地址匹配。采用这种方法,易于维护修改地址库,并构建一个可自学习的地址库,不断丰富完善,提高匹配范围与匹配精度。
?
?
?
2.?? 原理实现
2.1. 系统架构
?
?
从上图可以看出,地址匹配分为三层,分别是:应用层、核心层、数据准备层。数据准备层处在整个架构的最底层,这主要是由于其提供了地址匹配引擎所需要的最基本的地理数据,没有基础数据,匹配引擎也无从谈起。中间层也就是地址匹配核心引擎,它主要利用数据底层提供的基础数据,进行相关处理,并转化成引擎服务所需要的相关索引数据和地址分词数据。所有对外功能接口都由该引擎核心层完成。最上层就是应用层,在这个体系里,所有的对外应用,都是通过WEB服务实现,web服务则是采用Apache DSO技术实现。地址匹配引擎通过web服务的方式对外发布,方便应用层灵活使用。
?
2.2. 应用层
应用层利用核心层提供的软件功能,为外部提供各种应用。目前,地址匹配主要有以下应用。
1)??????? 对外提供地址匹配引擎服务。
2)??????? 利用地址匹配引擎实现地址数据的查重、纠错。
3)??????? 批量处理没有经纬度标示的地址数据,即:实现地理编码。
4)??????? 在现有的地址数据之上,采用地址匹配引擎,实现大规模扩充地理信息数据。
?
目前,由于“地址匹配技术”主要用于地址匹配服务,因此,文中涉及到“地址匹配”相关描述,很多都是指“地址匹配服务”。地址匹配引擎服务采用“Apache+DSO” 的方式实现。
2.3. 核心层
核心层为地址匹配提供软件功能实现。该层是地址匹配中最重要的一层,它直接关系到地址匹配的效果。
地址匹配核心层目前主要有九大模块构成,分别是:地址匹配管理器,参数解析器,地址分词器,门牌检索器,楼牌检索器,方位词处理器,SmartLS检索器,组合排序器,测试模块。这九大模块相对独立,并基本上采用“高内聚、低耦合”的方式进行设计。
2.3.1.??? 模块介绍
模块 功能 地址匹配管理器 负责管理和协调搜索九大模块工作,并实现封装基本用户需求功能。 参数解析器 负责对外部传来的参数进行解析。包括对含有多个参数和参数值的字符串进行解析。 地址分词器 负责把用户输入的地址拆分成多个更细的地址要素单元。每个地址要素单元,都有地址要素名称、地址级别、父地址信息、经纬度等。 门牌检索器 ?? 实现给定道路,在门牌索引文件中查找对应门牌号。
在用户地址经过“地址分词器”拆分以后,如果地址要素中含有门牌号,则通过其门牌索引ID,到门牌索引文件中查找相对应的门牌号。 SmartLS检索器 ? 负责请求网络SmartLS服务,并提取、处理返回结果。 组合排序器 ? 负责多个匹配结果的组合排序,并返回最终结果。 测试模块 ? 负责对各个功能模块进行测试,保证地址匹配其他八大模块的稳定性。 ?
?
?
?
?
2.4. 数据层
数据层在整个地址匹配架构中,承担着数据提取、加工、制作(转换)任务,为上层提供必须的数据支撑。目前根据功能可以将数据层分为三大工具,分别是:地址要素库创建工具、地址转化工具和地址分词交互工具。这三个工具在地址匹配数据层中承担着不同的角色和任务,他们缺一不可。
?
4.3.1.??? 标准地址要素库
.????????? 地址级别定义
利用下面的图说明地址级别的关系。
?
?
从通用分类来看,地址可分为有从属关系和跨从属关系的两类,市、区县、街道、社区、小区、地片、标志物等按行政区划范围从大到小可以建立
您可能关注的文档
最近下载
- 机动车辆租赁合同.docx VIP
- 形势与政策论文1500(通用3篇).docx VIP
- 2025年教科版(2024)小学科学三年级上册(全册)教学设计(附目录P171).docx
- T∕CECS G:T34-2023 寒区公路隧道设计标准.pdf
- 2014普通铁路质量控制标准和要求.doc VIP
- 2025年新人教版7年级道德与法治上册全册课件.pptx
- 第一单元+第2课《缤纷的世界美术流派》-2025-2026学年人美版(2024)美术新教材八年级上册.pptx VIP
- 江苏省泰州市区县街道社区乡镇村名称统计.pdf VIP
- 行政管理学题库答案.pdf VIP
- 学校食堂采购水果供应协议书.doc VIP
文档评论(0)