文献翻译印刷汉字自动识别系统的性能评估.doc

文献翻译印刷汉字自动识别系统的性能评估.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文献翻译印刷汉字自动识别系统的性能评估

单位代码学 号 分 类 号密 级 文献翻译 印刷汉字自动识别系统的性能评估 院(系)名称 信息工程学院 专业名称 电子信息工程 学生姓名 指导教师 2013年4月7日 印刷体汉字识别系统的自动性能评估 摘要:绩效评估对提高光学字符识别系统的性能是至关重要的。然而,这对手工是琐碎和复杂的工作,因此,我们已经制定了一个中文印刷字符识别(PCCR)系统自动绩效评估制度。我们系统的特点是利用真实的试验数据,并自动获得比较正确的文本和文件的图像识别结果的PCCR系统性能。此外,我们还提供了一些绩效评价系统性能评价的分割模块、分类和后处理模块、PCCR系统的功能模块。为此目的,分割容错字符的字符串匹配算法,提出了以获取正确的文本和信件之间的识别结果。 关键词:中文印刷字,PCCR,2 自动绩效评估体系 一个PCCR系统中最重要的性能是识别率,这是由正确的识别字符定义的。因此,在绩效性能评价体系中只考虑识别率。但是,我们的系统不仅计算所有的识别率,还有每个组件的性能,即分割精度,分类交流,精密度,和后处理的准确性。这些演出的定义将在第4部分详细介绍。 上述性能是识别结果和正确的文本之间基本的差距。因此,我们的主要想法是设计一个字符的字符串匹配算法,该算法可以容忍分割错误之间对应关系,得到正确的文本和识别结果的函件。因此,它可以测量所有类型的性能。 我们的系统框架是由两部分组成:一个测试数据资料库和性能分析机。测试数据资料库由许多文档图像和相应的正确的文本组成。它的功能是提供正确的文档图像和文本的PCCR系统及性能分析机。性能分析机有两个子系统:一个性能计算子系统和一个错误浏览子系统。前者提出了一些比较正确的文字和数字的识别结果统计结果。后者提供了一个可视化的跨面来观察各种错误使用正确的文字,识别结果,和分割结果。 3 测试数据采集 众所周知,估计的识别精度是一个随机变量,它是一个函数的具体学习和测试集。为了获得可靠的估计,测试数据应该是独立学习集,并应足够大。此外,应用是研究的最终目标。多元化的现实的文件难以模拟,因此,我们利用丰富的现实中的文件作为测试集。我们还根据PCCR系统的应用范围收集和选定真实文件,从而估计演出反映实际情况。 如何识别性能的退化文件作为OCR系统仍然是一个问题。因此,我们的测试集还包括退化文件。每个原始文件扫描成二进制图像有三个不同的手动确定阈值,从而破碎,正常,触摸图像文件。因此,3种图像文件具有相同的数量和内容的测试数据资料库,这使得它能够在客观方面表现为调查性能和退化之间的关系。 一般来说,PCCR系统是用来输入办公文件,报纸,杂志和书籍进入计算机。因此,我们的测试数据是由这四种类型的文件组成。在测试数据资料库,他们的比例取决于他们的实际数量。 另外,每一种文件是有不同种类的的内容,字体,和排版。我们通过正常的文件图像的识别结果手册修订得到每个文档正确的文本。我们目前的测试数据资料库的每个文件类型的字符数。我们并不认为这是足够的,需要收集更多。 4 性能分析 该机器的性能分析内核是一个分割容错字符的字符串匹配算法。一旦正确的文本和识别结果确定,有可能确定哪些字符被错误地处理,测量每个组件的性能和浏览各种各样的错误结果。 4.1分割容错字符的字符串匹配算法 正确的文字和识别结果可以被视为两个字符串。在实践中,可能会有一些不相关的字符就在这两个字符串中,如输入,换行符,多余的空白,等等。因此,这两个字符串应规格化,以消除不相关的字符匹配。让Sc和Sr字符串分别对应到正确的文字和识别结果。 在实际的文件中,相应重复字符的困难主要来自分割错误的结果。分割错误造成的匹配搜寻。重复字符的搜索时,可能导致不正确的匹配。除此之外,误差情况是复杂的和随机的,这也可能导致不正确的匹配。因此,我们尽力找到正确的对应的上下文。(i)假设Sc表示第五个字符和Sc(i:j)表示从第i个字符的字符组成的字符串的第j个字符的Sc,Sr也是如此。那么我们的匹配算法是基于以下两个假设: (1)如果Sc(i)相当于Sr(j),Sc(i+1)相当于Sr(j+1),然后Sc(i+1)相当于Sr(j+1)。 (2)如果Sc(i)相当于Sr(j),Sc(i+1)不同于Sr(j+1),但是子Sc(i+k:i+ k + n-1)相同的谐振子Sr(j + h:j + h + n-1),n是够大,是一个自然数,k是最自然数,发现相同,那么Sc(i+k:i + k +n- 1)对应于Sr (j +h:j + h+ n-1)。 在执行过程中,首先是大的自然数n是用来寻找整个字符串的一些通信。然后,一个相对小的n是用来寻找对应匹配的子串。 通过贯彻这一理念递归直到N等于1,我们可以得到字符串之间的Sc和字

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档