基于字符群体特征分离算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于字符群体特征分离算法研究

基于字符群体特征分离算法研究   摘要:为了正确分离图文,提出一种基于字符群体特征的图文分离算法。该方法以直线识别得到的短直线为基础,对连通域进行限制长度的外轮廓提取;通过大小和密度判据捡出候选字符,并以字符串形式出现的群体特征吸收漏识的字符和符号,实现包含标注字符、标题栏及明细栏字符等各类字符与图形位图的分离。结果表明:该算法提高了字符特别是难检字符及符号判定的可靠性,保持了字符串的完整性,具有适应性强、效果好的特点。??   关键词:图文分离; 工程图纸; 矢量化; 群体特征; 轮廓提取   中图分类号:TP391.41文献标志码:A   文章编号:1001-3695(2007)08-0242-04      在工程图纸矢量化中,图文分离是工程图纸智能化输入系统的重要组成部分。由于文字与图形的特征不同,普遍认为需要分别采用各自的方式进行识别。实现文字/图形的分离存在多种策略,分离策略的选择在很大程度上影响着分离算法的复杂性和可靠性。在目前的图文分离算法中,如一种新的字符提取和组合算法[1],工程图标注字符的提取与识别[2]仅利用字符通常较小的特征,设定连通域大小阈值对文字和图形位图进行分离。由于该类算法使用单一判据确定字符,将虚线、点划线及一些小图元等错误地认定为字符。而字符粘连及字线相交的分离与识别方法[3]通过连通域大小阈值对文字初步判定后,又利用某些数字特征如密度、质心、扁度等对连通域进行进一步认定。该类算法会较前类算法的精确度高,但对于一些没有明显字符特征的字符如“1”“i”“l”“I”等,几乎无法判定。针对此类难检字符,文献[4]通过计算字符连通域的某些参数如包围盒的长宽比、线宽、斜率进行判定。这种方法的不足是对线宽、斜率计算的准确度要求较高且敏感,易受噪声影响。文献[5]则将如虚线、点划线及其他小图元等小组件专门划分为一组,根据它们紧密矩形的密度和长宽比等进行再次判定,该方法对参数阈值的要求也比较高。??   通常,文字/图形的分离策略根据先后顺序分为三种,即识别字符留下图形型、识别图形留下文字型和分别识别字符与图形型。上述三种方法割裂了各种图素在识别过程中相互制约,但也相互依赖的关系。本文提出以直线识别得到的短矢量为字符识别的基础,使误识的短直线成为文字识别的前处理过程;通过对短直线所在的连通域使用限制长度的外轮廓提取,识别出候选字符;利用字符的群体特征,将漏识字符和符号吸收进字符串候选集并进一步过滤和完善,实现包含标注字符、标题栏及明细栏字符等各类字符与图形位图的分离。特别指出,本文依据工程图纸字符较纯文本字符具有密度高、集中和字串性等群体特征,对难检字符处理时不需要额外设定参数,且实验证明有高的识别率和可靠性。??      1工程图纸中字符位图的特征分析??      1.1相关概念??   这里,假设工程图纸是黑白二值图,并且背景色是白色,图形及文字等是黑色。??   1)连通域由相互连通的黑像素组成的区域。??   2)包围盒指连通域的最小外接矩形,且矩形的两条边分别与两条坐标轴??x、y??平行。文中字符串候选集的包围盒是指包含字符串候选集中所有候选字符包围盒的包围盒。??   3)轮廓基于连通域边界上相邻像素的连通性,沿区域边界走一圈回到起始点得到的一段封闭曲线。这里的限制长度轮廓指从起始边界点开始沿区域边界跟踪,当连通域总边界长度≤某阈值??T时,得到一个完整边界曲线;否则,得到边界长度等于阈值T??的非完整边界曲线。??   4)轮廓链码对边界点的一种编码表示方法。这里的轮廓链码特指用freeman的四连通链码法进行轮廓跟踪得到的数据表示。??   5)链码长度链码中记录的边界点个数。设??X为一个区域边界的链码,用|X|表示X??的链码长度。??   1.2字符位图与字符群体特征??   工程图纸是机械、建筑或电路等设计意图的有力且清晰的表达方式。其中文字给出了标题性、应用性说明和图形在数量上的精确表示。与纯文本文档的字符相比,工程图纸中的字符较图形具有更为明显的高密度、集中和多字符邻近出现的群体特征。特征表现为:??   a)字符的图线较线条的图线短,文字位图较小。??   b)字符通常是以字符串形式出现的,但字符串方向多样。??   c)不同字符串之间在字体与字号上有较大差异。??   d)一般情况下,一个文字位图连通域对应于一个字符,但也有多个连通域对应一个字符的位图。??   e)字符通常以字符串或多个相邻字符串组成的字符块形式出现,体现了字符群体特征。??      2基于字符群体特征的图文分离算法??      利用工程图纸中字符的连通域小、密度高和字符群体特征,以直线识别出的短直线为起点,对短直线进行限制轮廓长度的边界

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档