- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于中文分词地址匹配技术在警用地理信息系统中应用
基于中文分词地址匹配技术在警用地理信息系统中应用
摘要:通过对基于盘古分词的地址匹配研究,结合重庆市地址名称的特殊性,对盘古分词功能进行了扩展,并进行了词库的建设和索引的优化,并以此为基础在警用地理信息系统中进行了成功的应用。
关键词:盘古分词 地址匹配 警用地理信息系统
中图分类号:TP391.1 文献标识码:A 文章编号:1674-098X(2013)01(b)-00-03
地址匹配也称地理编码,是指将地址映射成地理坐标的过程,是用户输入一个地址串,即可返回其空间坐标,从而在可以将这个地址在地图上进行定位。计算机无法通过文字叙述直接找到目标位置经纬度坐标。
例如,用“重庆市江北区电测村231号”来表示重庆市勘测院的位置,计算机无法从“重庆市江北区电测村231号”获得重庆市勘测院的具体坐标位置。在使用地址匹配时,首先要建立一个标准地址库作为基础,标准地址库包含了门牌地址、地名点等大量地址信息,并按照相应的标准规范进行了整理。地址匹配可以利用该标准地址数据库来建立地址与地理坐标空间的对应关系,将各种兴趣点或文本地址与标准地址数据库进行匹配。
在公安信息化多年的建设过程中,各公安业务单位已经建立了大量的业务应用数据库管理系统,业务数据量非常庞大,以重庆市为例,仅常住人口、重点单位、案发地点、POI等都有上百万甚至于千万条的信息,要将这些信息在地图上进行空间定位,若采用人工手段直接将一条条信息按地址在电子地图上进行标定,将耗费大量的人力、物力而且效果不准确。而地址匹配技术则正是快速实现大量业务数据向空间数据转换的桥梁。结合重庆市地名的特殊性,该文采用全文检索技术结合词库对重庆市地理数据库进行地址标准化,并在此基础上建立起了地址匹配服务。
1 中文分词的实现
分词(Word Segmentation)指的是将一个字符串切分成一个个单独的词。分词是文本挖掘的基础,对于输入的一段文字成功的进行分词,可以达到电脑自动识别语句含义的效果。
基于地址分词的地址匹配是基于地址词库将地址字符串切分不同级别的地址单词,如“重庆市/渝北区/黄龙路/555号/市公安局/”,然后利用分词后的地址要素组成查询条件在标准地址库进行匹配。并返回标准地址库中相应记录的地理坐标。同时在匹配过程中对精准度进行加权计算。基于地址分词的地址匹配实现流程如图1所示。
传统的分词技术包括一元分词,二元分词,多元分词和精确分词等,一元分词和二元分词由于将简单,且效率和精度都不满足需求在此不再赘述。现在让我们看看精确分词和多元分词。如下面这句话:“重庆市龙头寺公园”,精确分词由于不能包含重叠的词,一般可以分成“重庆市/龙头寺公园”,用这种分词结果构建索引,输入龙头寺公园可以搜到,但输入龙头寺就无法搜到。而作为搜索用户,往往需要既能搜到龙头寺也能搜到公园,为了解决这个问题,我们必须对中文句子进行多元分解,即分解出合适的组合,比如上面的句子,如果分解为“重庆市/龙/龙头/龙头寺/龙头寺公园/公园”那么无论我们输入龙头寺、公园还是龙头,我们都可以搜索到这条记录。
多元分词和搜索引擎结合可以得到较多的匹配结果,但同时也增加了索引文件的大小和搜索的时间。另外由于将一些单词进行了拆分,搜索结果的排序会受到影响。比如搜索龙头寺,多元分词后搜索的关键字组合为“龙+头+龙头+龙头寺”,很可能会将只包含“龙”或者“寺”的记录排在包含龙头寺的记录前面,这不是我们希望的结果。
为了解决上述问题,我们引入了盘古分词,盘古分词是一款开源的中文分词系统,他提供了更加准确快速的多元分词和精确分词等类型,并通过控制多元分词的冗余度和多元分词结果的权重级别使分词更加的快速精确。盘古分词支持3级
冗余。
如“重庆市龙头寺火车北站”,首先设置冗余度为1,只分解最佳的地名组合,结果为“重庆市/龙头寺/火车北站/”;控制冗余度为1,地名更加细致,结果为“重庆/重庆市/龙头寺/火车/北站/火车北站/”;控制冗余度为2,分词达到最大细化,但结果也更臃肿“重庆/市/重庆市/龙头/寺/龙头寺/火车/北站/火车北站/”。
虽然通过多元分词配合冗余度能大大的加快索引速度和精确度,但是依然不能满足我们的需求,对应复杂的地名依然是很难对其进行很好的分词,只有通过建立词典,利用词库分词,才能达到速度与精确度双赢的效果。
2 词库建立与优化
词库是中文自动分词的基础,分词词库机制的优劣直接影响到中文分词的速度和效率。盘古分词提供了词库管理接口,该文对其进行了扩展,可以对词库进行批量的增、删、改操作。
2.1 词库内容
在保留字母词库、数字词库和量词词库的基础上添加当地地名地址词库和同义词词库,方位词词库,特殊符号词库等。地名地
原创力文档


文档评论(0)