汉字识别中以词为分类单位的分类器研究-中文信息学报.PDFVIP

汉字识别中以词为分类单位的分类器研究-中文信息学报.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字识别中以词为分类单位的分类器研究-中文信息学报.PDF

中 文  信  息  学  报 第 14 卷 第 2 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 14 No. 2 汉字识别中以词为分类单位的分类器研究 方应谦  王  鲁 郑州电子技术学院 203 教研室  郑州  450004 摘要  汉字识别中, 以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出 总是与待识字结构相似的一个侯选字集合 。这是使后级识别容易产生误识的主要原因。为克 服字分类器的缺点 ,本文给出了以词为单位的词分类器设计的策略与方法 ,并实验验证了词分 类器在分类率及分类速度方面均优于字分类器 。 关键词  汉字识别  分类  词分类器 Study on Phrase Classif ier in Chinese Character Recognition Fang Yingqian  Wang L u Instit ute of Elect ronic Technology  Zhengzhou  450004 Abstract  In Chinese Character Recognition ,t he classifier was designed as wor d classifier who se classification unit is a wor d in t he p ast . The outp ut of wor d classifier is always a set of candidate wor ds t hat are similar wit h awaitrecognised wor ds in st ruct ure of wor d . It is t he p rimary reason t hat make mist akes in po stlevel recognition . To overcome disadvant age of wor d classifier , t he st rategy and met hod of p hrase classifier designing who se classification unit is p hrase are p ropo sed . The experiment s result s p rove t hat p hrase classifier is superior to wor d classifier in rate and speed of classification . Key words  Chinese character recognition  Classification  Phrase classifier 一 、引言 长期以来 ,汉字识别中的分类都是以汉语中的字作为基本单位 ,称作字分类 。字分类的目 的是产生每个待识字的侯选字集合 ,然后将此侯选字集合送识别级进行细识别 。这种识别系 统称为单字识别 ,单字识别是印刷体汉字或手写体汉字识别系统中普遍采用的策略 。由于单 字识别的能力有限[ 1 ,2 ] ,特别是对脱机手写汉字识别 ,其识别率不可能很高 。为了补救识别中 产生的错误 ,通常都在后处理中利用了一些语言知识进行纠错[3~5 ] 。从本质上讲 ,这种利用 语言知识的纠错 ,仍是建立在单字识别基础上的 ,受单字识别 自身缺陷的制约 。归纳起来 ,单 字识别有以下缺点 :从信息论的观点看 ,单字识别中 ,汉字的信息熵大 ,识别算法的信息开销 大 ;从认知心理学角度看 ,单字识别没有利用汉字文本的上下文信息 ,识别速度与识别率较低 ; 从识别系统的关键技术环节看 ,单字识别仅利用了汉字的光学特征 , 因此 ,无论采用哪种分类 26 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. 特征提取及匹配算法 ,待识字的侯选字集合的汉字都是与待识字结

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档