- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大实际上汉字文本可以看成是一个龇v-信息工程大学学报
第1卷第4期 信息工程大学学报 V01.1No.4
ofInfoHllation Dec.2000
2000年12月 Jo啪al En西nee打ngUniveIsity
利用语言知识的汉字识别分类策略
方应谦,曹守建,牛光
(信息工程大学电子技术学院,河南郑州450004)
摘要:本文分析了单字分类的缺点,给出了以多字词及短语为分类的基本单位,利用M斌ov模
型、语言的多种统计知识及距离测度,进行分类的策略与方法。较好地克服了过去以单字为分
类的基本单位造成的识别率较低、识别速度较慢的缺点。
关键词:汉字识别;语言知识
中图分类号:’州911.2 文献标识码:A
1 引言 2利用语言知识进行分类的依据
长期以来,汉字识别中的分类都是以汉语中的 2.1 以词为单位信息开销小
字作为基本单位,称作字分类。字分类的目的是产
生每个待识字的候选字集合,然后将此候选字集合
送识别级进行细识别。这种识别系统称为单宇识 (^i),i∈{1,2,…,n},则汉字熵
别,单字识别是印刷体汉字或手写体汉字识别系统 (1)
,l=一五p(^i)logp(^i)
中普遍采用的策略。由于单字识别的能力有
对于单字识别系统,仅利用了汉字的光学特
限L12J,为了补救识别中产生的错误,通常都在后
征,单字分类及识别时汉字集中每个汉字都是等概
处理中利用了一些语言知识进行纠错L30j,从本质
的,这时汉字熵:
上讲,这种利用语言知识的纠错,仍是建立在单字
如=一lo印(^i) (2)
识别基础上的,受单字识别自身缺陷的制约。归纳
显然,2,】,这说明单字识别算法的信息开销
起来,单字识别有以下缺点:从信息论的观点看,单 最大。实际上,汉字文本可以看成是一个龇v
字识别中,汉字的信息熵大,识别算法的信息开销
信源,设汉字集是一个m重信源,即当前汉字的出
大;从认知心理学角度看,单字识别没有利用汉字
现依赖于前m个汉字,则其发生概率表示为
文本的上下文信息,识别速度与识别率较低;从识
别系统的关键技术环节看,单字识别仅利用了汉字
且^i一^≥0,后∈{1,2,…,m}
的光学特征。因此,无论采用哪种分类特征提取及
匹配算法,待识字的候选字集合的汉字都是与待识
时,信源状态数很大,若取m=1,此时信源有n个
字结构相似的汉字,这使细识别的算法复杂性急
状态,汉字的熵为:
增,但识别率却难以大幅度提高,这是单字识别的
(3)
识别率偏低的内因所在。为了克服单字识别的缺 ,3=一互.夏p(^i,吩)lo
文档评论(0)