- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多文种文字识别研究
无处不在、所见即所得的OCR
清华大学 丁晓青 教授
彭良瑞
dingxq@tsinghua.edu.cn
多文种文字识别
藏 文
我国民族文字特点
– 5大体系,约30种 维吾尔文 蒙古文
– 与汉字、英文迥异
国内外研究现状
阿拉伯文
– 统一平台蒙藏维哈柯朝
文字识别系统研制成功
– 国外阿拉伯文研究为热点, 手写体阿拉伯文
但方法较单一,效果不理想
统一多民族文档识别
维吾尔文识别 哈萨克文识别 柯尔克孜文识别
蒙古文识别
阿拉伯文识别 藏文识别 朝鲜(韩)文识
分属不同体系多种民族文字图文对照显示编改支持
蒙古文纵向文本 藏文非等宽字符 维哈柯阿文混排汉英
Unicode显示及编辑 图文对照显示 双向文本显示及编辑
TH-OCR多文种文档识别系统
所支持的文种覆盖范围及国际影响
进一步的研究目标
所见即所得的文字识别
– 无处不在的文字识别
1. 整页的自由手写文档识别
– 手写文字行提取
– 多信息融合的手写文字分割,语言、排列、识别
– 手写字符识别
2. 摄像机获取的文字自动检测识别
复杂背景下的文字检测
变形情况下的文字行提取
畸变校正
低质量字符识别
3. 嵌入式、网络化的应用
目标应用1--Camera OCR
翻译:地面交通手段
目标应用1--Camera OCR
目标应用2--全屏/整页书写文档识别
各种大范围的笔迹采集设备的出现
使书写内容范围扩大
– Tablet PC, Anoto Pen, Cross Pad,
超声定位笔
文字识别,表格识别,公式识别
识别结果通过通用的文档类型重
现,使计算机可以阅读、理解以及
检索
成功的联机手写识别应用
英文+符号+GB18030 汉字,日文,韩文
规则书写识别率: 98-99.5%
自由书写识别率: 95-98%
文通笔,小灵鼠系列PC产品;三星、波导、联想等手机产品
触摸板上的应用
触摸板上的应用
手机上的应用
手机上的应用
目标应用3--脱机手写文档识别
手写档案检索
多民族文字古籍资料识别
信封地址识别
支票识别
手写表格识别
脱机手写识别应用
行业数据录入
目标应用4--综合应用
互联网图片内容检索与监控
智能机器人
盲人阅读机
纸张出版物全信息电子化系统
HTML
文档评论(0)