漢字篆字识别系统文献综述.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
漢字篆字识别系统文献综述

汉字篆字识别系统文献综述机械工程学院 研1201班 吴金明1.1概述汉字识别是用计算机自动辨识写在纸(或介质) 上的汉字, 是智能计算机接口的一个重要组成部分, 也是中文信息处理中汉字自动、高速输人的一种最重要手段.作为模式识别和人工智能学科的一个分支一文字(汉字) 识别技术在我国自70 年代末起步, 至今已有30多 年了, 目前正向实用化大步迈进。在本文中所要解决的问题是对汉字中的篆字进行识别,对于汉字篆字识别系统目前国内还没有成熟的研究,但是其基本原理同其他字体的识别相似。篆字是很古老的一种汉字,在我国汉文字发展史上,篆字是大篆、小篆的统称,亦称篆书。大篆指甲骨文、金文、籀文、六国文字,它们保存着古代象形文字的明显特点。小篆也称“秦篆”,是秦国的通用文字,大篆的简化字体,其特点是形体匀逼齐整、字体较籀文容易书写。它是大篆由隶、楷之间的过渡。所以研究篆字文化具有十分重要的历史意义。掌握了篆字的特征是汉字识别很重要的前提。目前,对于汉字识别系统应用最广泛的就是光学字符识别(Optical Character Recognition),自从1929年Tausheck 取得光学字符识别(Optical Character Recognition)专利以来,经过近一个世纪的发展,OCR已经成为当今模式识别领域中最活跃的研究内容之一。它综合了数字图像处理、计算机图形学和人工智能等多方面的知识,并在计算机及其相关领域中得到了广泛应用。汉字识别过程大体如下:1.2 光学字符识别方法及分类光学字符识别过程首先使识别设备学习、记忆将要辨识字符的特征,使这些特征成为识别系统自身的知识,然后再利用这些先验知识对输入图像进行判决,得到字符的识别结果。字符的特征不仅仅局限于平面上的点阵位置信息,在频率空间、投影空间,甚至语义空间字符都有各自的特征。这些特征在识别字符时又有各自的特点及优势。根据识别字符所采用具体特征的不同便衍生出了不同的识别技术。通常,根据不同的技术策略,识别方法可以分为如下3类:统计特征字符识别技术、结构字符识别技术和基于神经网络的识别技术。1.3 光学字符识别的近期发展1.采用激光作为扫描光源。这是因为激光光束集中, 方向性强, 扫描光点极小, 因而能显著地提高分辨能力。另外, 激光光源的寿命比普通光源长许多倍,光学系统比较简单, 不需要特制的高精度高压电源,因此, 其造价也可大幅度降低。但其缺点是扫描系统大都采用机械式的光点偏转机构, 对激光束控制不够灵活, 扫描速度较慢。除激光扫描法外, 还有用半导体光敏元件组成的二维面板来实现光电转换的。其原理是将照射在纸面上的反射光加以放大, 或用光导纤维投影到光敏元件板上, 从而对文字进行顺序扫描,并产生相应的输出电信号。半导体光敏元件具有寿命长.稳定性高, 结构简单, 扫描速度快等优点。2.OCR与传真扫描技术相结合。这就是用OCR来识别页面上的文字, 用传真扫描技术来扫描图像, 然后再用信息压缩技术将信息进行压缩。在这种情况下,计算机既能接收可识别文字的标准编码, 也能接收传真扫描的图像信息。这种由OCR与传真扫描相结合的机器, 已由美国Burroughs 公司制造出来了, 别的公司也有同类的装置, 用在建立电子文档上。3.在软件设计方面, 使用了识别逻辑,从而改进了文字的特征抽取与判决的方法, 增加了可识别字符的种类, 提高了识别速度,降低了误识率与拒识率, 因此改进了数据输入的质量与灵活性。4.对汉字字符识别的研究, 尤其是对手写体汉字识别技术的研究工作十分活跃。如日本东芝公司在1977年首先研制成功了可识别2000个印刷体汉字的OCR样机, 输入速度为100字符/ 秒, 基本达到了实用水平。接着, 日立公司也相继研制成功了同类的样机。在手写体汉字识别方面, 仅日本发表的特征抽取方式就达数十种, 虽然许多问题尚待解决, 但一般预测在80 年代内会达到实用水平。5.实现OCR的标准化。其中包括OCR可识别的字符字型与字号的标准化,字符编码的标准化,打印质量与打印规格的标准化,打印用纸与油墨的标准化。OCR的标准化工作对于评比各类OCR设备的性能与提供适合OCR用的文件方面都具有重要的意义与作用,并将使这项技术得到进一步的推广与应用。 1.4 光学字符识别技术的展望(1)基于模糊技术的识别方法由于字符本身,特别是手写字符,在字型字体上的变化很大,导致在文字识别中存在着很大的不确定性,因此模糊数学的观念便很自然地被引用到了模式识别领域中。1976年A.Rosenfeld等人提出了一种景物标识松弛算法,1977年, R.Jain等人运用模糊集的理论对复杂图像进行了分析,实现了运动目标的检测,同时开始了模糊数学在图像识别中的应用。朱学芳等通过对文字中直线、折线和圆进行模糊定义,提出了一种无

文档评论(0)

fglgf11gf21gI + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档