- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中 文 信 息 学 报
第 12 卷 第 3 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 3
中文文本自动校对技术现状及展望①
张仰森 丁冰青
山西大学计算机科学系
摘要 本文概述了中文文本自动校对技术的产生背景 ,分析了预校对文本常见的错误类
( )
型及文本自动校对 自动查错和确认纠错 的难点 ,探讨了当前商品化的文本校对软件的校对
策略和发展趋势 。
关键词 中文文本自动校对 自动查错 确认纠错
一 、引 言
“信息爆炸”,“数字化生存”是当今社会发展的总趋势 , 电子书 、电子报纸 、电子邮件 、办公
文件等文本电子出版物不断涌现 ,如何保证这些文本的正确性 ,显得越来越重要 。中文文本自
( )
动校对系统 包括文本的自动查错和确认纠错 的研究已成为一项亟待解决的紧迫课题 。
二 、文本自动校对技术的产生背景
随着汉字编码输入技术理论研究和应用开发的不断成熟 , 中文文字处理系统 日益走向实
用化 、商品化 ,计算机作为一种写作 、编辑和排版的工具越来越频繁地出现在机关办分室 、编辑
部和出版印刷行业 ,而使用计算机进行文字录入编辑 ,不可避免地会出现一些文字错误 ,例如
( )
丢字 、多字 、别字 、英文单词拼写错误 、不规范标点等 。校对 p roofread 工作是出版前审核把关
的重要环节 ,而 目前大多采用人工校对的方法 ,校对工作单调 ,劳动强度大 ,效率低 ,人工校对
越来越成为印刷出版自动化的瓶颈 。为改变传统的人工校对模式 ,实现录入文稿的自动校对 ,
提高校对质量 ,把校对员从大量枯燥细致的工作中解放出来 ,提出这样一个课题 :开发实用化
的自动文字校对软件 。
( ) ( ) [3 ] [4 ] [5 ] [6 ] [7 ]
汉字识别 Chinese Character Recognition 和语音识别 Phonetics Recognition
可以使汉字的输入实现 自动高速 , 是具有远大发展前景的输入技术[2 ] 。近年来 ,利用 OCR
(Optical Character Recognize) 技术和语音识别技术解决汉字的计算机 自动录入问题已取得了
很大的成就 。基于统计识别和结构识别相结合等方法 , 国内推出了多套印刷体汉字识别 、联机
手写体汉字识别及脱机手写体汉字识别系统 ,如清华文通 TH - OCR 高性能中英文印刷文本
自动识别输入系统 ;北京中自汉王笔手写体识别系统等 。基于模式匹配法 、隐马尔可夫模型法
和人工神经网络法 ,推出了多套语音识别系统 ,如中科院声学所研制的实时语音识别系统等 。
汉字识别和语音识别的正确率是汉字识别最重要的指标之一 , 目前上述汉字识别系统的正确
识别率可达 85 %~95 %左右 ,这样所得到的文件质量与出版要求相距甚远 ,令人难以满意 。
① 本文 1997 年 9 月 18 日收到
50
这主要是由于汉字的类别数量极为巨大 ,汉字字形变化剧烈 ,汉字识别的实际文本图像随机噪
(
声和干扰 如文字模糊 ,笔划粘连 ,断笔 ,黑白不均 ,纸张噪声 ,油墨反透 ,字形大小 ,书写用笔 ,
)
笔尖粗细 ,写字质量等 严重 ,语音识别受说话环境干扰 ,语调 、语速等影响 , 易造成汉字拒识 、
(
误识 ,降低了汉字识别的正确率 。作为识别后处理的中文文本自动校对系统 利用实际汉字文
文档评论(0)