基于规则中文地址分词与匹配方法-chinese address segmentation and match method based on rule.docx

基于规则中文地址分词与匹配方法-chinese address segmentation and match method based on rule.docx

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于规则中文地址分词与匹配方法-chinese address segmentation and match method based on rule

摘要在信息时代的今天,城市各部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策提供支持。论文以武汉市的地址研究为项目背景,进行中文地址分词与地址匹配研究。利用地理编码技术实现地址的快速查询匹配和社会经济数据的空间化,建立数据库统一管理,从而实现城市各部门、行业数据的共享。主要研究内容和取得的成果如下:(1)改进了现有的地址模型,并根据此地址模型将地址数据规范化,建设完备的标准地址数据库。(2)在研究了几种地址分词及匹配方法的基础上,提出一种基于规则的地址分词匹配方法,加入了规则树和歧义存储等机制,通过算法改进,提高了地址残缺和歧义这两类模糊地址的匹配成功率。(3)建立了知识学习机制,通过地址补录模块,将匹配失败和数据库中缺少的地址补录入库,从而不断完善标准地址数据库。关键词:地理编码,地址标准化,中文地址分词,地址数据库,规则库,地址匹配ABSTRACTIntheinformationageoftoday,therearealargenumberofaddressinformationinthecitydepartments.Mostofthedatasarenon-spatialinformation,wecannotsharethembyGeographicinformationsystem.Soit’samainpartofdigitalcitybuildingtoinformationizethecityaddressinformation.Geocodingisamethodtoinformationizethecityaddressinformation,whichprovidesawayoftranslatingthetextaddresstogeographiccoordinates.Bygeocodingtechnology,alargenumberofsocio-economicdatawillbecomespatialinformationintheformofcoordinates,datasharingcanbeachievedbetweenthecitydepartmentsandtheindustry,sotherewillbeamorerapidandeffectivespatialanalysisanddecision-making.ThepapertakestheresearchoftheWuHanaddressesastheprojectbackground,usingtheaddressGeocodingtechnologytoachieveaddressrapidqueryandsocio-economicdataspatialization,andbuildaddressdatabase.Thenwecanshareinformationinthecitydepartments.Themaincontentsoftheresearchare:Improvingtheexistingaddressmodel,thenwemadeaddressstandardizationbythenewmodel,andbuildthestandardaddressdatabase.Researchsomeaddresssegmentationandgeocodingmethods,andproposearule-basedChineseaddressgeoeodingmethod.Weaddruletreeandambiguitystoragemechanismtoimprovethesuccessrateoffuzzyaddressmatching.Thepapercreatesalearningsystem,sowecanadddatabasewithfail-matchingaddressbyaddressaddingmodule.Keywords:Geocoding,Addressstandardization,Chineseaddresssegmentation,Addressdatabase,Ruledatabase,Addressmatching目录1绪论..........................

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档