一种基于Token匹配的中文数据清洗方法-计算机应用与软件.PDF

下载文档

3
0
约1.9万字
约 4页
2017-08-26 发布于天津
举报
版权申诉
保障服务

一种基于Token匹配的中文数据清洗方法-计算机应用与软件.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于Token匹配的中文数据清洗方法-计算机应用与软件

第２６卷第１１期　　　计算机应用与软件Ｖｏｌ２６Ｎｏ．１１０９２００９年１１月　　ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＮｏｖ．２０一种基于Ｔｏｋｅｎ匹配的中文数据清洗方法刘　嘉　张　瞡　李军怀（西安理工大学计算机科学与工程学院　陕西西安７１００４８）摘　要　　拼写错误和缩写问题是中文数据清洗的核心问题，目前相关研究还很欠缺。提出了一种基于Ｔｏｋｅｎ匹配的中文数据清洗方法，将中文字符串转换成拼音字符串，采用Ｔｏｋｅｎ匹配算法检测处理中文数据中的“脏数据”。实验表明，提出的方法能够有效地提高数据的准确度，大大减少了人工工作量。关键词　　中文数据清洗　Ｔｏｋｅｎ　拼写错误　缩写ＡＮＡＰＰＲＯＡＣＨＦＯＲＣＨＩＮＥＳＥＤＡＴＡＣＬＥＡＮＩＮＧＢＡＳＥＤＯＮＴＯＫＥＮＬｉｕＪｉａ　ＺｈａｎｇＪｉｎｇ　ＬｉＪｕｎｈｕａｉ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，Ｘｉ’ａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｘｉ’ａｎ７１００４８，Ｓｈａａｎｘｉ，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　ＳｐｅｌｌｉｎｇｅｒｒｏｒｓａｎｄａｂｂｒｅｖｉａｔｉｏｎｓａｒｅｔｈｅｃｏｒｅｉｓｓｕｅｓｉｎＣｈｉｎｅｓｅｄａｔａｃｌｅａｎｉｎｇ，ｂｕｔａｔｐｒｅｓｅｎｔｔｈｅｒｅｌａｔｅｄｒｅｓｅａｒｃｈｉｓｓｔｉｌｌｍｕｃｈｔｏｂｅｄｅｓｉｒｅｄ．ＴｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓａｎａｐｐｒｏａｃｈｆｏｒＣｈｉｎｅｓｅｄａｔａｃｌｅａｎｉｎｇｂａｓｅｄｏｎＴｏｋｅｎｍａｔｃｈ．ＦｉｒｓｔｌｙｉｔｃｏｎｖｅｒｔｓｔｈｅＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｓｔｒｉｎｇｓｉｎｔｏｔｈｅＣｈｉｎｅｓｅＰｉｎｙｉｎｃｈａｒａｃｔｅｒｓｔｒｉｎｇｓ，ａｎｄｔｈｅｎｄｅｔｅｃｔｓａｎｄｄｅａｌｓｗｉｔｈｔｈｅ“ｄｉｒｔｙｏｎｅｓ”ｉｎＣｈｉｎｅｓｅｄａｔａｗｉｔｈＴｏｋｅｎｍａｔｃｈａｌｇｏｒｉｔｈｍ．Ｔｈｅｅｘ ｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｉｎｄｉｃａｔｅｔｈａｔｔｈｅｍｅｔｈｏｄｃａｎｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｄａｔａｅｆｆｅｃｔｉｖｅｌｙ，ａｎｄｒｅｄｕｃｅｍａｎｕａｌｗｏｒｋｌｏａｄａｇｒｅａｔｄｅａｌ．Ｋｅｙｗｏｒｄｓ　　Ｃｈｉｎｅｓｅｄａｔａｃｌｅａｎ　Ｔｏｋｅｎ　Ｓｐｅｌｌｉｎｇｅｒｒｏｒｓ　Ａｂｂｒｅｖｉａｔｉｏｎ０　引　言１　Ｔｏｋｅｎ匹配算法随着信息化的不断发展和互联网的广泛应用，政府和企业文献［５］中介绍了Ｔｏｋｅｎ匹配算法，在一个字符串中，可以产生的大量数据需要进行有效管理，另一方面，大量的历史数据包含多种定界符，如空格、逗号、＠等，不同的定界符具有不同的和新产生的数据中存在很多“脏数据”。如果不能对这些“脏数优先级。首先按照优先级最高的定界符划分字符串，形成最上据”进行有效处理，可能造成决策失误、工作效率的降低及其他层的子串；然后对于划分出的子串，采用优先级次之的定界符来一些问题。划分。重复上述过程，直到子字符串无法再划分为止。字符串目前国外公司开发出一些数据清洗的工具，数据清洗的重以这种方式划分形成一组子字符串，称这些子字符串为标记点则是异常数据检测，主要有下列方法［１］：（１）采用统计学的方（ｔｏｋｅｎ）。法来检测数值型属性，计算属性值的均值和标准差，考虑每一个１．１　基本概念属性的置信区间来识别异常属性和记录；（２）采用基于距离的下面给出算法中用到的定义。聚类的方法来识别异常记