- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字识别中以词为分类单位的分类器研究-中文信息学报.PDF
中 文 信 息 学 报
第 14 卷 第 2 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 14 No. 2
汉字识别中以词为分类单位的分类器研究
方应谦 王 鲁
郑州电子技术学院 203 教研室 郑州 450004
摘要 汉字识别中, 以往的分类器设计都是以字为单位的“字分类器”。字分类器的输出
总是与待识字结构相似的一个侯选字集合 。这是使后级识别容易产生误识的主要原因。为克
服字分类器的缺点 ,本文给出了以词为单位的词分类器设计的策略与方法 ,并实验验证了词分
类器在分类率及分类速度方面均优于字分类器 。
关键词 汉字识别 分类 词分类器
Study on Phrase Classif ier in Chinese Character Recognition
Fang Yingqian Wang L u
Instit ute of Elect ronic Technology Zhengzhou 450004
Abstract In Chinese Character Recognition ,t he classifier was designed as wor d classifier who se
classification unit is a wor d in t he p ast . The outp ut of wor d classifier is always a set of candidate
wor ds t hat are similar wit h awaitrecognised wor ds in st ruct ure of wor d . It is t he p rimary reason
t hat make mist akes in po stlevel recognition . To overcome disadvant age of wor d classifier , t he
st rategy and met hod of p hrase classifier designing who se classification unit is p hrase are p ropo sed .
The experiment s result s p rove t hat p hrase classifier is superior to wor d classifier in rate and speed
of classification .
Key words Chinese character recognition Classification Phrase classifier
一 、引言
长期以来 ,汉字识别中的分类都是以汉语中的字作为基本单位 ,称作字分类 。字分类的目
的是产生每个待识字的侯选字集合 ,然后将此侯选字集合送识别级进行细识别 。这种识别系
统称为单字识别 ,单字识别是印刷体汉字或手写体汉字识别系统中普遍采用的策略 。由于单
字识别的能力有限[ 1 ,2 ] ,特别是对脱机手写汉字识别 ,其识别率不可能很高 。为了补救识别中
产生的错误 ,通常都在后处理中利用了一些语言知识进行纠错[3~5 ] 。从本质上讲 ,这种利用
语言知识的纠错 ,仍是建立在单字识别基础上的 ,受单字识别 自身缺陷的制约 。归纳起来 ,单
字识别有以下缺点 :从信息论的观点看 ,单字识别中 ,汉字的信息熵大 ,识别算法的信息开销
大 ;从认知心理学角度看 ,单字识别没有利用汉字文本的上下文信息 ,识别速度与识别率较低 ;
从识别系统的关键技术环节看 ,单字识别仅利用了汉字的光学特征 , 因此 ,无论采用哪种分类
26
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
特征提取及匹配算法 ,待识字的侯选字集合的汉字都是与待识字结
文档评论(0)