手写汉字识别自动校对方法研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手写汉字识别自动校对方法的研究 胡家忠 郝海芳 (武汉工业大学信息工程学院430070) 摘要:本文给出了一种综合利用汉字识别及语音识别结果,并利用上下 文字词相关语料库进行自动校对手写文本的方法,在对4万字书写质量 优、申、差的三类样本进行统计分析的基础上,论证了此方法的可行性, 并给出了设计的初步思想. 关冀词: 手写汉字识别 语音识别 自动校对 可行性 概述 在信息化社会里,信息处理的技术水平和每年所处理的信息总量已 成为衡量一个国家现代化水平的重要标志之一.随着信息量的急剧增加, 人们生活节奏的加快。对信息的自动化处理的需求也日益迫切.语言文 字是信息的载体.因此。文字识别技术一直受到人们的关注. 汉字有几千年的历史,从象形字、会意字到形声字,都包含有音、 形、义三个方面的信息.要高速、准确、自动地处理汉字文本,必须充 分利用汉字的这些特点. 对汉字形的研究主要是汉字识别;我国的汉字识别研究始于70年 代,经过20多年的努力,在汉字建模及识别方法上都取得了很多成果, 在手写汉字识别方面,由于汉字结构复杂,书写因人而异,一般识别系 统第一位识别率在80%左右,10位识别率可达90%~965,识别率不高. 使得单靠手写汉字识别来形成正确文本是很困难的. 对汉字音的研究主要是语音识别:语音识别近年来发展很快,以汉 语普通话全音节识别作为主攻方向的大字表语音识别系统已经取得了相当 大的进展,配以拼音…汉字转换形式的汉字语音输入系统正向实用化迈 进.但是语音识别与汉字识别存在同样问题:由于汉字本身存在着多字同 音的特性,同时,语音识别因人的性别、口音及说话方式稳定与否差别很 大.甚至同一个人在不同的时间念同一篇文章也会因环境、情绪的变化识 别结果而不一样,因此。也不可能经过语音识别形成完全正确的文本。 只要对汉字进行简单的分析就可发现,字形相近的汉字中.绝大多 一165— 数音差别很大;同音字中,字形相差甚远:形和音都相近的汉字中,其义 差别很大,因此,综合利用汉字识别结果、语音识别结果及字词相关语料 库.有可能得到一个识别正确率高的文本。 统计分析 文本自动校对是利用计算机,采用各种智能方法对侯选文本进行选 择、匹配、校核的过程.它的目标函数是正确文本(以下用R表示).初 始条件即为上述三种汉字处理结果。我们采用以汉字识别的结果为基础, 以语音识别及字词相关库为辅的方法。 本次统计分析是在实验室进行的,实验材料是包含政治、军事、文 艺、教育、科学等约4万字手写样本:汉字识别软件为武汉工业大学模式 识别与人工智能实验室研制的手写汉字识别软件,利用这一软件分别对优 (样本1)、中(样本2)、差(样本3)手写样本进行了测试。结果如表l所 示: 衰1·手写投字识捌奠计螬果 l 样本1 样本2 样本3 l第一候扑正■搴 85.5% 78.9% 64.3% l 蕾lo位正■搴 96.3% 91.7% 89.6% Voice08语音识别软件:利用这一软件, 语音识别软件为IBg的via 以这4万字为对象,对8个人的口音进行了语音训练及测试,平均正确率 为77.5%。其中,政治、军事内容的识别率比文艺、教育、科学的识别 sn}, 率高.女声的识别率比男声的高.语音识别候补S={s1,s2。s3,…… 其中sl为语音识别结果,即语音第一候补,s2…sn为语音识别结果的 邻音及同音字. 三类样本的汉字识别结果、语音识别结果与正确文本进行对照,分 别得出三类样本的交集C=SnH的正确率如下表2所示: 寰2,SnH的奠计靖秉 l

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档