- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个计算机辅助中文校对系统
秦小龙 黄喜祥 王淑彩
解放军电子技术学院基础部,郑州,450004 河南省邮政运输局,郑州,450000
摘要本文通过对中文文本错误的分析,采用语料库语言学的思想和词语的模糊匹配技术,设
计并实现了一个中文计算机辅助校对系统。
关键词校对,语料库,词语模糊匹配
1引言
文字录入后·校对员需要花费较长的时间对输入文字进行人工校对,严重影响了工作效
率。为此,自动文本校对就成了自然语言理解应用领域一个活跃的应用分支。本文叙述的系统
是由计算机完成侦错,由人来纠错,人机配合各施所长,构成一个比较实用、有效的系统。笔者
在Visual
c十+4.0环境下实现了该系统。
2错误分析
在单个字错误中,错字最常见,约占错误出现率的60%左右,主要有以下四种情况;
(1)音同或音近的字例如:“知识份子”中的“份”应该是“分”.“另售行业”中的“另”应该
是“零”。
(2)字形相近的字例如:“人木三分”的“人”应该是“入”,“不田自主”的“田”应该是
‘’由”。
(3)字义相近的字例如:“无耻技俩”中的“技”应该是“伎”,“经济纠分”中的“分,,应该是
“纷”。
(4)输入编码容易混淆或键位相邻的字例如:“他支美国了”中的“支”应该是“去”,“不但
要做,面且要做好”中的“面”应该是“而”。
3侦错原理及其识别错误的手段
本系统首先在大规模词语库的支持下,对汉语句子进行短语和词切分,如果长词或短语中
有错字,则在词语切分过程即可自动被纠错。切分之后剩余的散串成为侦错重点。
3.1短语和词切分
短语及多字词是对字与字之间正确搭配关系的一种枚举式描述,因而校样中字串如能与
?9
某短语或多字词相匹配,或绝大多数相匹配则可视为正确字串。其中的个别错字可立即被自动
纠错。 例如;在党地领导下我们取得了一个又一个胜利。
短语“在党的领导下”与字串“在党地领导下”只有一个字不同,则认为在录入时,将“的”误
为“地”造成错误。所以把“地”自动纠正为“的”。经过短语和词切分之后,查错范围由全文缩小
至约占全文30%的散串集合。当然,切分出的词、短语中也可能存在错误。例如:“我_fI1/喜欢/
足球/运动”误为“人们/喜欢/足球/运动”,这时“我们”和“人们”都被切分成词语.甚至语义也
部通顺,这样的错误极难排除,暂且不去处理。
3.2散串处理
首先对散串进行预处理,主要操作有:
·判断散串是裔属于用户易犯错误丧:系统由用户依据易出错的例子.生成一个勃犯错误
表,用此来记录用户易碰到的错误字段。若散串属于该表,则认为发生错误。如“零售”经常误
为“另售”,则可将“另售”添入易犯错误表。
·查找不能组成词的字(简称不成词字)。因为此类字一般不能单独使用,所斟一旦在散串
中发现这样的字则判其有误。若散串中包括甸首字或句尾字-贝4判断其是否能作句首字或句尾
字。根据有关统计.一级汉字中有1270个字(如峦、虑、肪等)和所有的二级汉字都不能做句首
字。而最常出现于旬首的字(平均至少每一万字文本中做一次句首字)有85个(如并、不、从、而
等)。同样.统计结果也反映了旬尾字类似特征。根据这些统计信息可以对句首字、句尾字的正
误作初步判断。
·查找叠字。汉语中有一部分单字是可以叠字成词的,而大部分单字不是这样。因此系统
对散串中的字对进行检查,若发现叠字,则可认为是由于错误造成的。
·判别是否有不属于一级汉字的字。GB2312—80中的一级汉字覆盖中文文本的
99.87%。因此,系统对散串中的汉字进行判断,若发现不属于一级汉字的汉字.则认为可能发
生错误。
事先由人为机器提供大量的例子——浯料,汁算机便从现有语料中获得有关语言现象的
统计规律,然后再利用这些统计规律反过来分析语言。
在1000万字的语料中.对3755个一级汉字的邻接汉字所作的统计结果如下:
·平均邻接字个数:130 ·邻接字个数最多;Z736
·邻接字个数大于2000的字数:3 ·邻接字个数2000一i000的字数:49
-邻接字仑势1000--
文档评论(0)