手写印刷混排or系统研究.pdfVIP

  • 7
  • 0
  • 约 73页
  • 2016-03-02 发布于贵州
  • 举报
手写印刷混排or系统研究

中文摘要 摘要 随着计算机技术的飞速发展,文档分析技术也越来越广泛的应用到纸质文档的存储和 检索等日常生活中。数字文档已经由最初的纯文本文档过渡到文本图片混排、手写/印刷混 排、多语言的混排文档,甚至还出现了附带有声音等媒介的多媒体文档。 本文主要关注的是手写/印刷混排文档。现实生活中,大量的应用会用到这类同时含有 印刷体元素和手写体元素的文档。文档中的手写体/印刷体元素也发挥着各自具有的特殊作 用,对这些元素的检测、区分和处理也变得非常有意义。特别的,文档中的手写体元素往 往蕴含着额外的重要信息,将它们区分开也有助于使用不同的更加有针对性的算法进行处 理。 为了更好的处理那些同时包含手写体/印刷体文本的文档,本文提出了一个手写/印刷混 排OCR系统。系统主要包括文档图像的预处理、文档版面拆解、文档理解、手写体/印刷体 文本判别、单oCR系统识别以及文档结构分析模块。其中的手写体/印刷体文本判别模块分 别抽取基于结构的特征和基于小波的特征,并对比使用多种不同的分类器对手写/印刷两种 文本进行区分。实验部分使用IAM手写体Word样本集以及自制的印刷体Word样张集进行 训练和测试,并使用完整的混排文档进行测试。实验数据表明,文本提出的脱机混排OCR 系统的实现了较高的识别精度。 关键字 文档图像,OCR系统,手写/印刷混排,支持向量机分类器 Abstract Withthe of are development rapid computertechnology,documentanalysistechniques intoour as andretrievalof life,such widelyapplied daily storage paperdocuments.Digital documentis fromtheinitial texttothe evolving format, pure text/picturehybrid themultimediadocumentwith handwritten/printedhybridformat,multilingualdocument,even soundandothermedia. the We focuson document.Inreal numberof mainly handwritten/printedhybrid life,alarge usesuchdocuments bothhandwrittenand applications containing printed or elementsindocumenthave their printed always playedspecial and fortheseelementshasbecome separation processing verymeaningful.Inparticular,the documents handwrittenelementsarerichinadditional information. containing important

文档评论(0)

1亿VIP精品文档

相关文档