中文信息处理技术原理与应用4.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理技术原理与应用4

中文信息处理技术原理与应用(四);OCR技术概况 汉字识别种类 汉字识别原理 汉字识别一般方法 汉字识别产品介绍 汉字识别技术的最新进展 汉字识别系统的未来发展;OCR技术概况;文字识别;汉字识别应用领域 ;印刷体文字识别的研究历程;汉字识别种类;汉字识别原理;与其他模式识别一样,汉字识别的基本思想也是匹配判别。抽取代表未知汉字模式本质的表达形式(如各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准汉字模式表达形式的集合中,找出最接近输入字模式表达形式,该表达形式对应的字就是识别结果。 光电扫描纸上文字,产生模拟电信号,经模数转换为带灰度值的数字信号送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行、字切分、二值化、细化或抽取轮廓、平滑、规范化(文字尺寸、位置、笔画粗细等规范)等。经过预处理,汉字模式成为规范化的二值数字点阵信息,其中“1”部分反映了笔画部分, “0”部分是文字的空白背景。对二值化点阵汉字,抽取一定的表达形式后,和存储在字典中已知的标准汉字表达形式匹配判别,就可识别出输入的未知汉字。 识别系统的学习部分是根据多个未知子样(一个文字不同的字模称子样)抽取出来的模式表达形式,自动构造或修改、充实字典,不断提高系统识别率。将文字的识别结果反馈给学习系统,可以对字典库进行修改,进一步提高系统的识准率。 ;图4-3 印刷体文字识别的简单流程图 ;预处理包括对原始图像的去噪、倾斜校正或各种滤波处理。版面分析完成对于文本图像的总体分析,区分出文本段落及排版顺序,图像、表格的区域; 对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。 行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。 特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性,直接决???了识别的性能。 文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程 . 后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。 ;由此可见,印刷汉字识别技术主要包括: (1) 扫描输入文本图像。 (2) 图像的预处理,包括倾斜校正和滤除干扰噪声等。 (3) 图像版面的分析和理解。 (4) 图像的行切分和字切分。 (5) 基于单字图像的特征选择和提取。 (6) 基于单字图像特征的模式分类。 (7) 将被分类的模式赋予识别结果。 (8) 识别结果的编辑修改后处理。;汉字识别一般方法;印刷体文字识别研究方法简介;3 统计识别与结构识别的结合   结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深入,这两种方法正在逐渐融合。网格化特征就是这种结合的产物。字符图像被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找各种特征,特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影响,增强了特征的抗干扰性。这种方法正得到日益广泛的应用。 4 人工神经网络   人工神经网络(Artificial Neural Network,以下称ANN)是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件-神经元相互连接成的自适应非线性动态系统。   ANN可以作为单纯的分类器(不包含特征提取,选择),也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图像点阵直接作为神经网络的输入。 ANN分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。 ;联机手写文字识别研究方法 ; ;图4-4 联机手写汉字识别原理框图 ;联机识别时对图形输入板的要求;联机手写汉字识别的一般方法 ;线段方向值;汉字识别产品介绍 ;网络拓扑结构 ;汉王数字图书馆解决方案 ;?2)?汉字识别之王:国际领先的OCR录入、校对、整理功能 采用汉王先进的OCR识别技术,识别率高、速度快;快捷精确的横校、纵校、对比校对;支持多种电子文档存储格式:PDF、HTML、RTF、TXT、XLS,方便地实现全文检索,并将逐步与国际标准电子文档格式接轨。 ?3)?完善的员工管理功能 ???? ?4)?自动进行各工序环节的监督和调度协调 ???? ??5)?对本套系统的监控、管理及日常维护,并定期生成安全日志。;汉字识别技术的最新进展 ; 实用汉字识别系统的其它关键技术主要包括: 扫描仪自动亮度调节(ABJ-Automatic Brightness

文档评论(0)

gz2018gz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档