基于统计方法的混排文字切分和分类.pdfVIP

基于统计方法的混排文字切分和分类.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于统计方法的混排文字切分与分类’ 徐蔚然于武贵郭军 北京邮电大学摸式识别与智能系统实验室.北京100876 cN XuweiranOpri£bt|Dt.e血i 摘要奉文针对实际的混撵文档图像.提出一种基于贝叶斯分类器的统计学习方法切分文字.并实现文字 类别判断.该方法结构简单、计算篮少.易于扩展功能,而且试验结果表明该方法切分效果好、文字类gIl 麴J断准确. 关键词: 简单贝叶斯分类器文字切分文字类剐判断OCR Character andCharacter Segmentation Language DiscriminationBasedonStatisticalMethod XuWeiranYu GuoJun Wugui 100876 BeringUniverst啦ofPosls&1klecom。Bering edit.cn Xuweiran@pris.bHDti AbstractAimatthedocumentwithbothChineseCharactersandEnglishcharacters.this image paperpresentachaucer and discriminationmeIhodbasedon BayesClassifier. segmentationlanguage Simple Thismethod’sstructureis nomuchcalculationisneededThe resultssh。uthatthis veryeasy,and experiment methodis effective very ClassifierCharacter Character DiscriminationOCR Keyword:SimpleBayes SegmentationLanguage 1引言 字符切分近几年来一直是OCR领域中的关键问题。较高的单字识别正确率与无限帝! 印刷体或手写体文本的识别正确率之问的差距正说明了这一点.而且目前在文字识别领域 所取得的大部分进展都可归功于文字切分水平的提高….同样,汉字识别技术的实用化也 受限丁汉字字符的切分.即使已经提出的OCR产品,也并未完全解决这个问题。实践表 明,汉字识别系统的正确识别率与正确的汉字切分密切相关,错误切分将导致错误识别”l。 fI】总结了1962~】996年的字符切分技术后认为,文字切分需要综合考虑两种信息:一 种是基r局部的,文字的形状和结构等特征的信息(丝1‘结构分析的切分):另一}?是基于 整体的,切分出文字的内容的信息(基于文字内容识别的切分)。目前基于结构分析的切分 方法在确定切分参数时并没有明确的、基于统计学习的方法:一般都是在分析汉字形状和 结构特点之处下一I:夫,而在具体确定切分参数时,根据人的理解.加入一些逻辑判断.这 样的不利之处是:(1)分析汉字形状和结构特点时=I_=作量较大,且比较繁琐,例如【7】从语 规范汉字都进行了分析统计:(2)对汉字的形状、结构的分类没有确切的最优解.属于不 适定闯题.例如目前尚无“部件”概念的明确定义:(3)描述规则比较复杂,甚至需要专 家系统:(4)不易扩展功能.如增加字体或是汉字、英文混排时,原规则需要较大地改变。 文字类别判断对于提高识别率同样非常重要,该问题也是目前OCR领域的热点问题 fjj.本文针对中文、英文、数字和标点混排时的印刷体文字切分

您可能关注的文档

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档