- 6
- 0
- 约 12页
- 2017-08-10 发布于安徽
- 举报
汉字手写体识别后处理的研究+
徐志明王晓龙张凯关毅孙玉琦
啥尔滨工业大学计算机系160001
llit.cducll
Xuzm@illsun
摘 要 本文提出了一种规则与统计相结合的计算语言模型应用于汉字手写体后处理的技术,把基于统
计的大词表Markov模型与规则量化模型通过词网格技术集成在一个汉字手写体后处理系统。该项技术
已应用于胛c(手持机)手写电脑的联机汉字手写体识别系统中。
关键词Markov模型手写体识别规则量化
A toHandwritten
Post Method ChineseCharacter
Processing Recognition
GuanYi
XuZhimingWangXiaolongZhangkai SunYuqi
Scienceand In蚯tute
DepartmentofComputerTechnology,Harbin
hit.educn
Xuzm@insun
In a
Abstractthis languagemodel Rule-Basodgrammarandstatistical modelfor
paper integrating language
is
handwrittenChinesecharacter task Markov modelbasedon
recognitionproposed language largevocabulary
rulesmodelEffeconslruckdinatmndwtittfmChmcsc
andquantizod recognitionsystem
to Chinese
appliedFIPC(handholdcomputer)handwrittenrecognitionsystem
Keywords
l引言
手写输入是一种良好的人机通讯方式,具有简捷方便的特点。汉字手写体识别技术一
直是智能计算机接口的研究重点。目前联机汉字手写体识别技术已进入实用化阶段,许多
科研机构推出了各自的联机汉字手写体识别系统。汉字手写体识别系统一般由两部分组
成。前端识别和语言理解。前端识别器产生带有可信度的候选汉字矢量序列;后者利用语
言理解模型对前者的候选汉字矢量序列进一步择优解码。通常语言理解模型有基于统计和
基于规则两种主流方法。基于统计的Markov模型适合处理非受限域大规模真实文本,在
语音识别、文字识别和文本校对等领域有广泛的应用【1112]。系统鲁棒性强,由于计算机的
时间和空间的局限性,只能建立低阶Markov模型,这样仅能处理语言的近邻搭配关系。
基于规则的语言模型适合处理受限域文本,能处理特定的远距离搭配关系和语言深度递归
’本课题得到国家863项目支持(863—306-03-02—1)
113·
现象,但系统鲁棒性差,难以反映复杂多变的语言现象。
统计方法和规则方法两者各不相同,同时有存在着很强的互补性,因此把两者结合起
来形成的混合语言模型【3)14Ⅱ”具有两者的优点,语言理解的效果会更好。统计和规则结合
的方式一般有两种,一种方式为把统计信息加入到规则文法中,形成概率文法;另一种方
式为通过规则量化把规则加入到统计模型。许多研究人员对概率文法
原创力文档

文档评论(0)