中文文本自动校对技术现状及展望-中文信息学报.pdf

中文文本自动校对技术现状及展望-中文信息学报.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中 文  信  息  学  报 第 12 卷 第 3 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 3 中文文本自动校对技术现状及展望① 张仰森  丁冰青 山西大学计算机科学系 摘要  本文概述了中文文本自动校对技术的产生背景 ,分析了预校对文本常见的错误类 ( ) 型及文本自动校对 自动查错和确认纠错 的难点 ,探讨了当前商品化的文本校对软件的校对 策略和发展趋势 。 关键词  中文文本自动校对  自动查错  确认纠错 一 、引 言 “信息爆炸”,“数字化生存”是当今社会发展的总趋势 , 电子书 、电子报纸 、电子邮件 、办公 文件等文本电子出版物不断涌现 ,如何保证这些文本的正确性 ,显得越来越重要 。中文文本自 ( ) 动校对系统 包括文本的自动查错和确认纠错 的研究已成为一项亟待解决的紧迫课题 。 二 、文本自动校对技术的产生背景 随着汉字编码输入技术理论研究和应用开发的不断成熟 , 中文文字处理系统 日益走向实 用化 、商品化 ,计算机作为一种写作 、编辑和排版的工具越来越频繁地出现在机关办分室 、编辑 部和出版印刷行业 ,而使用计算机进行文字录入编辑 ,不可避免地会出现一些文字错误 ,例如 ( ) 丢字 、多字 、别字 、英文单词拼写错误 、不规范标点等 。校对 p roofread 工作是出版前审核把关 的重要环节 ,而 目前大多采用人工校对的方法 ,校对工作单调 ,劳动强度大 ,效率低 ,人工校对 越来越成为印刷出版自动化的瓶颈 。为改变传统的人工校对模式 ,实现录入文稿的自动校对 , 提高校对质量 ,把校对员从大量枯燥细致的工作中解放出来 ,提出这样一个课题 :开发实用化 的自动文字校对软件 。 ( ) ( ) [3 ] [4 ] [5 ] [6 ] [7 ] 汉字识别 Chinese Character Recognition 和语音识别 Phonetics Recognition 可以使汉字的输入实现 自动高速 , 是具有远大发展前景的输入技术[2 ] 。近年来 ,利用 OCR (Optical Character Recognize) 技术和语音识别技术解决汉字的计算机 自动录入问题已取得了 很大的成就 。基于统计识别和结构识别相结合等方法 , 国内推出了多套印刷体汉字识别 、联机 手写体汉字识别及脱机手写体汉字识别系统 ,如清华文通 TH - OCR 高性能中英文印刷文本 自动识别输入系统 ;北京中自汉王笔手写体识别系统等 。基于模式匹配法 、隐马尔可夫模型法 和人工神经网络法 ,推出了多套语音识别系统 ,如中科院声学所研制的实时语音识别系统等 。 汉字识别和语音识别的正确率是汉字识别最重要的指标之一 , 目前上述汉字识别系统的正确 识别率可达 85 %~95 %左右 ,这样所得到的文件质量与出版要求相距甚远 ,令人难以满意 。 ① 本文 1997 年 9 月 18 日收到 50 这主要是由于汉字的类别数量极为巨大 ,汉字字形变化剧烈 ,汉字识别的实际文本图像随机噪 ( 声和干扰 如文字模糊 ,笔划粘连 ,断笔 ,黑白不均 ,纸张噪声 ,油墨反透 ,字形大小 ,书写用笔 , ) 笔尖粗细 ,写字质量等 严重 ,语音识别受说话环境干扰 ,语调 、语速等影响 , 易造成汉字拒识 、 ( 误识 ,降低了汉字识别的正确率 。作为识别后处理的中文文本自动校对系统 利用实际汉字文

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档