地址分词算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地址分词算法,分词算法,中文分词算法,搜狗输入法的分词算法,英文分词算法,php分词算法,java分词算法,ik分词算法,逆向最大匹配分词算法,java中文分词算法

基于分词的地址匹配技术 孙亚夫 陈文斌 (北京灵图软件技术有限公司,北京 100094 sunyafu@,chenwenbin@) ? ? ? 摘要? 根据调查显示,城市信息中80%都与地理位置有关,而这些信息中大多数却没有空间坐标,自然就无法整合,无法进行空间分析。这对于城市信息化建设来说,是一个极大的阻碍。为了快速的推进数字化城市的建设和发展,有必要找到一种快速、高效的方法,将大量的与地理位置相关的信息,进行坐标编码,以便于GIS系统分析、查询。本文提出了一种“基于分词的地址匹配技术”,它能将大量的非空间信息高效的转化成空间信息,极大地提高了非空间信息数据的编码、录入效率。 ? ? ? 关键词? 地理编码 地址匹配 GIS系统 地址数据库 ? 1.?? 引言 随着互联网、信息技术、GIS技术的发展,人们的生活越来越多的依赖于地图。地图制作需要的数据从哪来了?传统的数据采集方法,我们称之为“扫街”,就是通过人工的方法,到实地去采集地址的坐标。这种“扫街”的方法,由于成本太高,很显然已经不适应大量非空间信息的处理。 本文提出了一种“基于分词的地址匹配技术”,它是通过构造一种分级地址库的方法,并转换成地址分词库,采用基于地址词典的中文分词技术,实现地址匹配。采用这种方法,易于维护修改地址库,并构建一个可自学习的地址库,不断丰富完善,提高匹配范围与匹配精度。 ? ? ? 2.?? 原理实现 2.1. 系统架构 ? ? 从上图可以看出,地址匹配分为三层,分别是:应用层、核心层、数据准备层。数据准备层处在整个架构的最底层,这主要是由于其提供了地址匹配引擎所需要的最基本的地理数据,没有基础数据,匹配引擎也无从谈起。中间层也就是地址匹配核心引擎,它主要利用数据底层提供的基础数据,进行相关处理,并转化成引擎服务所需要的相关索引数据和地址分词数据。所有对外功能接口都由该引擎核心层完成。最上层就是应用层,在这个体系里,所有的对外应用,都是通过WEB服务实现,web服务则是采用Apache DSO技术实现。地址匹配引擎通过web服务的方式对外发布,方便应用层灵活使用。 ? 2.2. 应用层 应用层利用核心层提供的软件功能,为外部提供各种应用。目前,地址匹配主要有以下应用。 1)??????? 对外提供地址匹配引擎服务。 2)??????? 利用地址匹配引擎实现地址数据的查重、纠错。 3)??????? 批量处理没有经纬度标示的地址数据,即:实现地理编码。 4)??????? 在现有的地址数据之上,采用地址匹配引擎,实现大规模扩充地理信息数据。 ? 目前,由于“地址匹配技术”主要用于地址匹配服务,因此,文中涉及到“地址匹配”相关描述,很多都是指“地址匹配服务”。地址匹配引擎服务采用“Apache+DSO” 的方式实现。 2.3. 核心层 核心层为地址匹配提供软件功能实现。该层是地址匹配中最重要的一层,它直接关系到地址匹配的效果。 地址匹配核心层目前主要有九大模块构成,分别是:地址匹配管理器,参数解析器,地址分词器,门牌检索器,楼牌检索器,方位词处理器,SmartLS检索器,组合排序器,测试模块。这九大模块相对独立,并基本上采用“高内聚、低耦合”的方式进行设计。 2.3.1.??? 模块介绍 模块 功能 地址匹配管理器 负责管理和协调搜索九大模块工作,并实现封装基本用户需求功能。 参数解析器 负责对外部传来的参数进行解析。包括对含有多个参数和参数值的字符串进行解析。 地址分词器 负责把用户输入的地址拆分成多个更细的地址要素单元。每个地址要素单元,都有地址要素名称、地址级别、父地址信息、经纬度等。 门牌检索器 ?? 实现给定道路,在门牌索引文件中查找对应门牌号。 在用户地址经过“地址分词器”拆分以后,如果地址要素中含有门牌号,则通过其门牌索引ID,到门牌索引文件中查找相对应的门牌号。 SmartLS检索器 ? 负责请求网络SmartLS服务,并提取、处理返回结果。 组合排序器 ? 负责多个匹配结果的组合排序,并返回最终结果。 测试模块 ? 负责对各个功能模块进行测试,保证地址匹配其他八大模块的稳定性。 ? ? ? ? ? 2.4. 数据层 数据层在整个地址匹配架构中,承担着数据提取、加工、制作(转换)任务,为上层提供必须的数据支撑。目前根据功能可以将数据层分为三大工具,分别是:地址要素库创建工具、地址转化工具和地址分词交互工具。这三个工具在地址匹配数据层中承担着不同的角色和任务,他们缺一不可。 ? 4.3.1.??? 标准地址要素库 .????????? 地址级别定义 利用下面的图说明地址级别的关系。 ? ? 从通用分类来看,地址可分为有从属关系和跨从属关系的两类,市、区县、街道、社区、小区、地片、标志物等按行政区划范围从大到小可以建立

文档评论(0)

gooddoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档