印刷体汉字识别技术的研究英文文献翻译.docVIP

印刷体汉字识别技术的研究英文文献翻译.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字识别及其应用程序的特征点法 张炘中,闫昌德,刘秀英 北京信息科技大学中文信息处理研究中心 收于1988年12月3日,修订于1989年3月27日 摘要 一种新的汉字识别技术方法被提议了。它是基于所谓的汉字特征点。我们使用的特征点包括那些在一个字符的笔画,即,端点,转折点,分叉点和交叉点,还有汉字背景上的关键点。这种方法不同以往是因为它结合笔画与那些背景上的特征点一击它利用特征点直接识别汉字。一个汉字识别系统是基于特征点已发展完成的自顶向下动态匹配。这个系统不仅能在5.5×5.5mm2尺寸上以高识别率识别6763个汉字的歌曲印刷体样品,而且,一般的印刷书籍,杂志和文件都能以一个满意的,高速的识别率识别。 介绍 随着中文信息处理技术的发展,手动和自动处理输入中文信息之间的矛盾,中文信息输出开始日益尖锐。事实上,中文的信息输入已经成为整个处理系统的“瓶颈”。这个矛盾可以用基于识别模式和人工智能原理的汉字识别技术来很好地解决。 印刷体汉字的识别已经被广泛的研究,几个实验系统也已经在最近几年内完成。随着中国信息库和办公自动化的发展,我们在一个开发使用的印刷体汉字识别系统的时期,一个可以识别3000-7000个印刷体汉字的高性能的系统。识别率是不需要很高的,但我们必须注重它的实用性。换句话说,通过一个小的硬件来实现微型计算机,该系统通常可以识别具有足够的干扰吸收能力和可简单连接到中文信息处理系统的实用五号宋体字体的汉字。 统计和结构的方法在汉字识别中具有不同的特性(参见图1)。统计方法适用于印刷体汉字识别,因为印刷体汉字字符变形太小。如果我们根据汉字的结构特性来结合结构法来提取高信息密度特征的识别,我们不仅可以减少所需内存,运行在微型计算机的识别系统,而且也增加了多字体的印刷字体货甚至用它来识别手写字体。 基于上述原则,一种基于所谓的汉字特征点的汉字识别方法被提出了。这种方法是基于我们对有限的手写印刷体汉字识别的研究。 一个字符的各种变形 一个字符的各种变形 统计 统计 大量的字符 大量的字符 结构字典生成 结构 字典生成 合适的 不合适的 图1 统计和结构法的性能 汉字特征点 汉字识别的核心是特征选择。特征选择的原则如下。 a..特征应反映汉字结构的基本属性,即,特征与字体的变化,笔画的宽度,位置和书写顺序没有关系。 b..特征应该是简单的,仅需要很少的内存。 c.特征应该易于提取和学习。 d.不同的字符应该有不同的特征。 汉字是一种直线特征,包括最基本的直线笔画。大多数的二值化汉字字模信息都是集中在一个字符的骨架。此外,一个字符的骨架信息集中在一些特征点,如,笔画特征点(见图2)。一旦笔画特征点是肯定的,汉字的壁画和结构可以根据一些连接规则决定。 图2. 汉字骨架和笔画特征点 图3.汉字特征点 一个汉字的背景也有许多可以把一个字符区从另一个字符中国区分出来的信息。所以,如果我们选择背景中的一些点(即后台关键点),我们可以更有效的区分每个字符。事实上,选择一些少笔画字符中的关键背景点是很重要的,因为少笔画字符和另一些字符主要的独特的信息是在于他们的背景。 定义1.汉字的笔画特征点设置Ts是一个包括端点D,转折点Z,分叉点Q和交叉点J的点设置。Ts = { D, Z, Q, J }。端点是笔画中点行程的开始或结束,并不连接其他的点。转折点是笔画中笔画方向变化明显的点。分叉点是一个笔画的开端或终点在另一个笔画中间的两个笔画的交叉点。交叉点是两个比划在中间相交的那个点。 定义2.关键背景特征点B是能区分基于画画特征点Ts的字符的点。 定义3.汉字特征点设置一个包括笔画特征点和背景关键点B的集合T。T= { D, Z, Q, J, B }。 汉字特征点如图3所见。 很据我们在对有限的手写体汉字识别的研究,我们认为汉字笔画的类型和数量,系统组件的相对位置,每个笔画组成的相对位置和连接关系是汉字字形结构的基本特征。这是本研究的继承和发展,我们使用特征点来表示汉字字形。事实上,汉字笔画特征点反映汉字的基本特征以及集中汉字结构的主要信息。端点与转折点确定一个汉字笔画的位置与形状。分叉点和交叉点确定不同笔画间的连接关系。关键背景点能区别不被笔画特征点辨别的的相似笔画字符。 由于特征点是由一个汉字的基本结构决定的,各种字体的印刷字的关键点(仿宋体,楷体,黑体等),甚至是有限的手写体字符都变化的很少。事实上,分叉点,交叉点和关键背景点都不会变化。原则上,我们可以使用特征点来识别多字体的印刷体甚至是有限的手写体汉字,即,使用一种方法来同时识别印刷体和手写体汉字。 特征点所需要的内

文档评论(0)

hmwn621 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档