一个计算机辅助中文校对系统.pdfVIP

下载本文档

9
0
约3.36千字
约 3页
2017-08-13 发布于安徽
举报
版权申诉

一个计算机辅助中文校对系统.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一个计算机辅助中文校对系统秦小龙黄喜祥王淑彩解放军电子技术学院基础部，郑州，450004 河南省邮政运输局，郑州，450000 摘要本文通过对中文文本错误的分析，采用语料库语言学的思想和词语的模糊匹配技术，设计并实现了一个中文计算机辅助校对系统。关键词校对，语料库，词语模糊匹配 1引言文字录入后·校对员需要花费较长的时间对输入文字进行人工校对，严重影响了工作效率。为此，自动文本校对就成了自然语言理解应用领域一个活跃的应用分支。本文叙述的系统是由计算机完成侦错，由人来纠错，人机配合各施所长，构成一个比较实用、有效的系统。笔者在Visual c十+4．0环境下实现了该系统。 2错误分析在单个字错误中，错字最常见，约占错误出现率的60％左右，主要有以下四种情况； (1)音同或音近的字例如：“知识份子”中的“份”应该是“分”．“另售行业”中的“另”应该是“零”。 (2)字形相近的字例如：“人木三分”的“人”应该是“入”，“不田自主”的“田”应该是 ‘’由”。 (3)字义相近的字例如：“无耻技俩”中的“技”应该是“伎”，“经济纠分”中的“分，，应该是 “纷”。 (4)输入编码容易混淆或键位相邻的字例如：“他支美国了”中的“支”应该是“去”，“不但要做，面且要做好”中的“面”应该是“而”。 3侦错原理及其识别错误的手段本系统首先在大规模词语库的支持下，对汉语句子进行短语和词切分，如果长词或短语中有错字，则在词语切分过程即可自动被纠错。切分之后剩余的散串成为侦错重点。 3．1短语和词切分短语及多字词是对字与字之间正确搭配关系的一种枚举式描述，因而校样中字串如能与 ?9 某短语或多字词相匹配，或绝大多数相匹配则可视为正确字串。其中的个别错字可立即被自动纠错。例如；在党地领导下我们取得了一个又一个胜利。短语“在党的领导下”与字串“在党地领导下”只有一个字不同，则认为在录入时，将“的”误为“地”造成错误。所以把“地”自动纠正为“的”。经过短语和词切分之后，查错范围由全文缩小至约占全文30％的散串集合。当然，切分出的词、短语中也可能存在错误。例如：“我_fI1／喜欢／足球／运动”误为“人们／喜欢／足球／运动”，这时“我们”和“人们”都被切分成词语．甚至语义也部通顺，这样的错误极难排除，暂且不去处理。 3．2散串处理首先对散串进行预处理，主要操作有： ·判断散串是裔属于用户易犯错误丧：系统由用户依据易出错的例子．生成一个勃犯错误表，用此来记录用户易碰到的错误字段。若散串属于该表，则认为发生错误。如“零售”经常误为“另售”，则可将“另售”添入易犯错误表。 ·查找不能组成词的字(简称不成词字)。因为此类字一般不能单独使用，所斟一旦在散串中发现这样的字则判其有误。若散串中包括甸首字或句尾字-贝4判断其是否能作句首字或句尾字。根据有关统计．一级汉字中有1270个字(如峦、虑、肪等)和所有的二级汉字都不能做句首字。而最常出现于旬首的字(平均至少每一万字文本中做一次句首字)有85个(如并、不、从、而等)。同样．统计结果也反映了旬尾字类似特征。根据这些统计信息可以对句首字、句尾字的正误作初步判断。 ·查找叠字。汉语中有一部分单字是可以叠字成词的，而大部分单字不是这样。因此系统对散串中的字对进行检查，若发现叠字，则可认为是由于错误造成的。 ·判别是否有不属于一级汉字的字。GB2312—80中的一级汉字覆盖中文文本的 99．87％。因此，系统对散串中的汉字进行判断，若发现不属于一级汉字的汉字．则认为可能发生错误。事先由人为机器提供大量的例子——浯料，汁算机便从现有语料中获得有关语言现象的统计规律，然后再利用这些统计规律反过来分析语言。在1000万字的语料中．对3755个一级汉字的邻接汉字所作的统计结果如下： ·平均邻接字个数：130 ·邻接字个数最多；Z736 ·邻接字个数大于2000的字数：3 ·邻接字个数2000一i000的字数：49 -邻接字仑势1000--