基于单义域邻接图的工程图纸扫描图象的字符提取_电子机械论文.docVIP

基于单义域邻接图的工程图纸扫描图象的字符提取_电子机械论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于单义域邻接图的工程图纸扫描图象的字符提取_电子机械论文.doc

基于单义域邻接图的工程图纸扫描图象的字符提取_电子机械论文 基于单义域邻接图的工程图纸扫描图象的字符提取_电子机械论文 摘要 工程图纸扫描图象的图文分割是一个重要问题。本文在构建单义域邻接图基础上来提取字符及其特征。图文分离先从单义域中筛选字符笔划域,进行初步分离。然后,以字符笔划域为起点,遍历邻接图来搜索邻接字符笔划域,提取字符域,分析特性作进一步筛选。以字符域邻近与共线为判据来组合字符串域,字符域邻近是用其外接膨胀矩形相交来判定。利用共串字符域外接矩形中心及所附图形对字符域进行定向。对非水平字符域旋转至水平,并构建其单义域邻接图,以表达几何与拓扑特征,为后续识别作准备。实例表明,本算法可以较好地处理字符与图形的粘连问题,提取效果很好,且能够描述字符整体特征。1 引言 工程图纸扫描图象的识别与理解是目前学术界和工程界研究的热点,在机械、电子、建筑及地理信息系统等应用领域中具有重要的实际意义。图样中有两部分信息,一是图形,由几何图素组成,用来表达产品形体;二是文字,用来定义产品尺寸及描述其它信息,有的附于图形,如尺寸数字等,也有独立存在的,如技术要求等。文字是图样中非常重要的信息。因此,工程图纸扫描图象的字符提取与识别是一个重要问题,对进一步的尺寸理解、图像理解等高层次理解都有较大作用。工程图样中的文字包括多种字符,如汉字、数字、字母及符号等。字符情况较为复杂,有自己的一些特点:字符多为手写,具有一定的随意性,不同于印刷体;具有多种方向,不仅有水平书写,而且有的垂直放置,还有其它各种角度的斜向;有直体与斜体;有时字符与字符及图形粘连,增加了图文分割及字符提取的难度;位置分散,大小不一。上述情况在字符的分割及识别时都必须考虑。所以,工程图样字符提取及识别是一个十分困难的问题。 鉴于工程图样字符的特点,其处理方法与光栅文档具有很大差别,一般的处理过程是:先标识连通体,从中选出字符域,再根据字符域邻近和共线来生成字符串域,并判断方向,然后分割字符域,最后进行字符识别及校正。经过多年研究,工程图样字符的分割及识别算法已有多种:一是基于连通体[1];二是基于轮廓跟踪[2],利用同步边缘特性检测进行轮廓跟踪,分离字符轮廓,采用邻域搜索来生成字符串,最后通过分类树进行字符识别,并根据专业知识作校正;三是行程编码匹配法[3],采用图分割集方法来分割与字符及图形粘连的字符。 本文提出一种基于单义域邻接图的图文分割方法,在二值图象水平黑游程编码基础上,以相关游程线宽和拓扑的一致为约束生成条形域,对其中多义域作分裂获得单义域:线段域和圆弧域,并建立其邻接图。字符笔划可以表示为一个或多个单义域。字符笔划的长度较小,线宽一致。根据这些特点,从单义域中筛选字符笔划域,进行初步图文分离。字符笔划多是邻接的,以字符笔划域为起点,通过遍历邻接图搜索邻接的字符笔划域,来提取字符域。字符结构与图元差别较大,根据字符域特性实现字符进一步筛选。采用字符域外接矩形来标识字符的大小和位置。根据字符域外接矩形相交来判定字符邻近,再加上字符共线为判据来生成字符串域。图样中字符串多是附于图形的,单义域可以很容易获取方向,即可得图形方向。利用共串字符外接矩形中心及所附图形对字符进行定向。然后将非水平字符域旋转至水平,并重新进行水平黑游程编码,以单义域邻接图来表达字符的结构特征,为后续识别作准备。下面进行详细介绍。 2 图象的单义域邻接图描述 在工程图形中,既有图元又有字符。图元有多种,如线段、圆弧、圆、箭头等,而且图元多为相交。不同图元需要用一种结构来统一描述,然后通过分析其几何与拓扑特征确定类型来进行矢量化。交点信息对提取同一图元及不同图元之间拓扑关系具有重要指导意义。字符是由笔划组成的,在提取笔划的基础上进行识别是一种很好的方法。但笔划的提取难度较大。现有对图样字符的识别多是处理数字和字母,较少涉及汉字,而我国图纸均有大量汉字信息,还有数字及字母等。因此,需要建立一种模型,既能表达几何数据,还可以描述拓扑关系,便于各种特征提取。 现有图文分离算法多是以象素为单元,进行连通体生成。而连通体对后续识别贡献较小,尤其是对图元的识别。这就要求采用一种模型能够统一描述图形和文字的几何与拓扑信息。基于单义域邻接图的描述模型,可以统一描述图元和文字,不但能提取图元,还为字符识别的笔划特征提取提供启发。下面给出单义域邻接图的建立方法。对图象作水平黑游程编码,这时对图象的分析单元由象素变为游程,游程连通性反映了图形拓扑关系。如图1.b所示。通过分析游程的拓扑关系,可以获取具有转折意义的游程[4]。这些关键游程为图元分割提供线索。相关游程基于宽度和拓扑一致性可以聚合为一个集合,来表达某一几何与拓扑意义,称之为条形域。条形域具有较强的整体性和宏观性[5]。但是,有的条形域具有多义性,即由线段域和

您可能关注的文档

文档评论(0)

wyj199218 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档