一种基于Token匹配的中文数据清洗方法-计算机应用与软件.PDF

一种基于Token匹配的中文数据清洗方法-计算机应用与软件.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于Token匹配的中文数据清洗方法-计算机应用与软件

第26卷第11期    计算机应用与软件 Vol26No.11 09 2009年11月   ComputerApplicationsandSoftware Nov.20 一种基于Token匹配的中文数据清洗方法 刘 嘉 张 瞡 李军怀 (西安理工大学计算机科学与工程学院 陕西西安710048) 摘 要  拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清 洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的“脏数据”。实验表明,提出的方法能够有效 地提高数据的准确度,大大减少了人工工作量。 关键词  中文数据清洗 Token 拼写错误 缩写 ANAPPROACHFORCHINESEDATACLEANINGBASEDONTOKEN LiuJia ZhangJing LiJunhuai (SchoolofComputerScienceandEngineering,Xi’anUniversityofTechnology,Xi’an710048,Shaanxi,China) Abstract  SpellingerrorsandabbreviationsarethecoreissuesinChinesedatacleaning,butatpresenttherelatedresearchisstillmuchto bedesired.ThispaperpresentsanapproachforChinesedatacleaningbasedonTokenmatch.FirstlyitconvertstheChinesecharacterstrings intotheChinesePinyincharacterstrings,andthendetectsanddealswiththe“dirtyones”inChinesedatawithTokenmatchalgorithm.Theex perimentresultsindicatethatthemethodcanimprovetheaccuracyofthedataeffectively,andreducemanualworkloadagreatdeal. Keywords  Chinesedataclean Token Spellingerrors Abbreviation 0 引 言 1 Token匹配算法 随着信息化的不断发展和互联网的广泛应用,政府和企业 文献[5]中介绍了Token匹配算法,在一个字符串中,可以 产生的大量数据需要进行有效管理,另一方面,大量的历史数据 包含多种定界符,如空格、逗号、@等,不同的定界符具有不同的 和新产生的数据中存在很多“脏数据”。如果不能对这些“脏数 优先级。首先按照优先级最高的定界符划分字符串,形成最上 据”进行有效处理,可能造成决策失误、工作效率的降低及其他 层的子串;然后对于划分出的子串,采用优先级次之的定界符来 一些问题。 划分。重复上述过程,直到子字符串无法再划分为止。字符串 目前国外公司开发出一些数据清洗的工具,数据清洗的重 以这种方式划分形成一组子字符串,称这些子字符串为标记 点则是异常数据检测,主要有下列方法[1]:(1)采用统计学的方 (token)。 法来检测数值型属性,计算属性值的均值和标准差,考虑每一个 1.1 基本概念 属性的置信区间来识别异常属性和记录;(2)采用基于距离的 下面给出算法中用到的定义。 聚类的方法来识别异常记

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档