最大实际上汉字文本可以看成是一个龇v-信息工程大学学报.PDF

下载文档

6
0
约8.69千字
约 4页
2017-08-27 发布于天津
举报
版权申诉
保障服务

最大实际上汉字文本可以看成是一个龇v-信息工程大学学报.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最大实际上汉字文本可以看成是一个龇v-信息工程大学学报

第1卷第4期信息工程大学学报 V01．1No．4 ofInfoHllation Dec．2000 2000年12月 Jo啪al En西nee打ngUniveIsity 利用语言知识的汉字识别分类策略方应谦，曹守建，牛光 (信息工程大学电子技术学院，河南郑州450004) 摘要：本文分析了单字分类的缺点，给出了以多字词及短语为分类的基本单位，利用M斌ov模型、语言的多种统计知识及距离测度，进行分类的策略与方法。较好地克服了过去以单字为分类的基本单位造成的识别率较低、识别速度较慢的缺点。关键词：汉字识别；语言知识中图分类号：’州911．2 文献标识码：A 1 引言 2利用语言知识进行分类的依据长期以来，汉字识别中的分类都是以汉语中的 2．1 以词为单位信息开销小字作为基本单位，称作字分类。字分类的目的是产生每个待识字的候选字集合，然后将此候选字集合送识别级进行细识别。这种识别系统称为单宇识 (^i)，i∈{1，2，…，n}，则汉字熵别，单字识别是印刷体汉字或手写体汉字识别系统 (1) ，l=一五p(^i)logp(^i) 中普遍采用的策略。由于单字识别的能力有对于单字识别系统，仅利用了汉字的光学特限L12J，为了补救识别中产生的错误，通常都在后征，单字分类及识别时汉字集中每个汉字都是等概处理中利用了一些语言知识进行纠错L30j，从本质的，这时汉字熵：上讲，这种利用语言知识的纠错，仍是建立在单字如=一lo印(^i) (2) 识别基础上的，受单字识别自身缺陷的制约。归纳显然，2，】，这说明单字识别算法的信息开销起来，单字识别有以下缺点：从信息论的观点看，单最大。实际上，汉字文本可以看成是一个龇v 字识别中，汉字的信息熵大，识别算法的信息开销信源，设汉字集是一个m重信源，即当前汉字的出大；从认知心理学角度看，单字识别没有利用汉字现依赖于前m个汉字，则其发生概率表示为文本的上下文信息，识别速度与识别率较低；从识别系统的关键技术环节看，单字识别仅利用了汉字且^i一^≥0，后∈{1，2，…，m} 的光学特征。因此，无论采用哪种分类特征提取及匹配算法，待识字的候选字集合的汉字都是与待识时，信源状态数很大，若取m=1，此时信源有n个字结构相似的汉字，这使细识别的算法复杂性急状态，汉字的熵为：增，但识别率却难以大幅度提高，这是单字识别的 (3) 识别率偏低的内因所在。为了克服单字识别的缺，3=一互．夏p(^i，吩)lo