- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用产生式规则邮政地址标准化方法研究
应用产生式规则邮政地址标准化方法研究
摘要:文本结构化是中文处理的重要内容,包括分词、关键字提取等都与英文处理有较大差异。在行业应用中,中文短句特别是地址处理和标准化问题更是基于地址整合客户数据的核心问题。专家系统作为人工智能最重要的应用领域,包含了领域专家的大量知识。文章在分析地址数据结构化方法的基础上,提出一种基于专家系统的地址标准化方法。该方法将混乱的中文地址处理为完整、标准、可用于精确匹配的地址。
关键词:文本挖掘;中文分词;关键字;专家系统;地址;标准化
中图分类号:F61
文献标识码:A
专家系统是人工智能中最重要、最活跃的应用领域,它实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。1965年,世界上第一个专家系统dendral问世,可以推断化学分子结构,目前,一些人把dendral、macsyma称为第一代专家系统。20世纪70年代中期,mycin、casnet、prospector、hearsay等一批卓有成效的专家系统相继研制成功,人们称这一批专家系统为第二代专家系统。20世纪70年代后期,专家系统已基本成熟。
第三代专家系统属多学科综合型系统,采用多种人工智能语言,综合采用各种知识表示方法和多种推理机制及控制策略,并开始运用各种知识工程语言、骨架系统及专家系统开发工具和环境来研制大型综合专家系统。在总结前三代专家系统设计方法和实现技术的基础上,目前已开始采用大型多专家协作系统、多种知识表示、综合知识库、自组织解题机制、多学科协同解题与并行推理、专家系统工具与环境、人工神经网络知识获取及学习机制等最新人工智能技术来实现具有多知识库、多主体的第四代专家系统。
1 中文地址概述
地址是人员信息中重要的组成部分,是联系客户、分析客户家庭情况和其他信息的人手点。企业中的客户数据经常分散在不同来源的系统中,造成所谓信息孤岛。不仅如此,由于同一客户的信息无法整合在一起,也会造成单一数据来源的客户信息常常缺乏足够用于分析的属性和特征。在日益看重客户资源和客户关系管理的现今时代,拥有大量客户信息,但无法实际分析客户属性的情况难以被接受。通常情况下,用于连接不同表或数据库,将同一个客户或同一个家庭信息整合起来最直接、最方便的属性是地址。
在邮政行业内,一般将未划分过的非结构化地址信息称为行地址。行地址是最常见的原始客户地址数据形式,可以将地址看成非结构化、半结构化的文本数据,即将行地址划分为不同的地址段,分别用于不同处理。通常完整的、标准的地址较长,用户留存的时候往往有缩写、错写情况,地址在录入业务系统时有时也会出现错误。因此,虽然每个地址不完全相同,但可以判断出有些记录对应的是一个客户,有些记录对应的是一个家庭。类似情况在绝大部分企业的客户表中是大量存在的。在此种情况下,使用连接操作、like模糊查询等SQL命令无法完成根据地址属性整合个人或家庭信息的工作。
为了解决这一问题,在处理之前,首先必须对客户地址进行数据清洗,补充缺失的部分,将客户地址整理为标准地址格式,这样才可能实现利用地址连接不同数据表和不同家庭成员的任务。
地址数据清洗在邮政企业内是通过收集行政区划范围内完整的、标准的地址写法,然后对客户地址加以逐段匹配实现的。但是,即使拥有最全面的街道、邮编、小区名,数据库也无法全面处理所有可能出现的缩写、错写情况。在处理整个行地址时,经常出现由于部分地址段无法匹配而造成整条地址无法处理的情况,因此仅依靠标准数据库实现客户地址清洗、标准化的方法难以达到目的。
本文旨在提出一种使用产生式规则定义地址分段的方法,在清理地址前将非结构化的原始客户地址结构化,并在此基础上完成地址清理和标准化工作。
2 地址的结构化方法研究
地址数据由自然地理的不同部分相互结合构成。通常标准地址包括以下部分。
其中部分地址段在日常书写时经常省略,如:省名、区县名、附属道路名、楼层号。其他部分根据用户所在地区的习俗不同也会出现省略和其他写法。正是由于地址段的灵活取舍造成了相同地址千差万别的写法。
通过标准地址段自由组合,可以大致覆盖用户地址的不同写法,但是这个方法在大规模客户地址分析时效率较低,特别是客户地址存在部分错写时,很难实现精确匹配。
国内地址虽然没有类似美国约定俗成的分界符可用于地址段的划分,但是部分地址段存在一些具备典型语义特征的字符可以用来完成划分。例如,大部分城市的街道命名规则均以“路、道、街”为主,辅以“里、弄、条”等关键字。门牌通常是数字或带有“号”字,有时存在“付x号”的特殊写法。根据这些具备特殊语义的字符可以大致划分主要地址段,并对划分出的段进行段含义的定义,即标定此地址段是哪一段信息。
文档评论(0)