基于模糊印刷分析的字符预分类方法.pdfVIP

基于模糊印刷分析的字符预分类方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模删印刷分析的字符预分类方法 基于模糊印刷分析的字符预分类方法 卢达 (常熟高等专科学校物理系 215500) 谢铭培 (复旦大学计算机科学系 200433) 浦炜钱忆平 (常熟高等专科学校物理系 215500) 【摘要】本文提出了一种用于字符预分类的模糊逻辑分析法,对丈本字符作印刷结构分 析,给出了一个带有容差分析的文本行字符基线精确测定算法,其它有效参考线则通过 聚类分析获得。模糊逻辑用于确定各字符类的隶属值以保证字符的正确预分类.实验结 果表明,我们的模糊印刷字符预分类法在suN4/490工作站上每秒可有效处理104以上字 符,并对不同大小的字符有满意的处理结果。 关键词:字符预分类,印刷归类,基线测定,模糊逻辑,模糊分类。 1.引言 自八f年代以来,随着计算机所需处理的文件按指数规律增长和计算机系统功能的 不断增强,计算机文本处理得到迅速发展。我们采用对字符预分类方法的目的,是想通 过字符印刷结构分析对字符在识别之前预处理,以减小字符识别范围,提高字符识别率, 进而提高整个文本处理系统的性能。 如图1所示.一一文本行可分解为E、中、下三个区域,它们分别由顶线、上基线、 基 圈I 一行文本的印刷结构 线、底线所限定。其中中区是文本行的主要部分,其高度为其它区域的一倍,并可由中 线作进一步分离。由于基线出现于每一文本行.所以基线检测定位是必不可少的。此外, 基线用于文本行倾斜角及文本行插入空间的确定方面比用传统的ttough变换和Fouier变 换方法计算效率要高得多”“。 我们的基线测定算法基于一行文本比基于单一字符更可靠更有效”j,而其它有效参考 线则由聚类算法求得【4】;容差分析考虑了计算机文本处理过程中不可避免的噪声和失真; 为保证算法的灵活性和鲁棒性,模糊逻辑方法用于确定模棱两可的字符对各个印刷字符 类的隶属关系”‘6】,而线性变换函数的采用和边界条件的推导则保证其连续性。在下面几 节中,先描述字符印刷结构,接着提出了基线检测算法和容差分析,然后给出模糊印刷 字符归类方法,晟后是实验结果和有关结论。 墨!堡塑里璺坌堑竺量笪塑坌茎查鎏 一 2.字符印刷结构分析 根据字符截取文本行的各区域,可分为基本类字符和辅助类字符“: (1)基本类:该类由包括拉丁字母等在内的绝大多数大字符组成,又可分为: (a)上行字符:字符截取文本行的整个上区和中区,如。A。,“B”和“d”. (b)下行字符:字符截取文本行的整个下区和中区,如。g。,。q”,。Y。和“P”. (c)中行字符:字符仅位于文本行的整个中区,如。e”,“c”,“a”,。m”和。x”. (d)全区域字符:字符跨越文本行的所有三个区,如“j。,“(。,。r,4{4和“f。. (2)辅助类: (e)下标字符:字符位于基线附近.如。.。,。,”,‘?等. (D上标字符:字符位于上基线附近,如…,~”,””等. (g)中行内字符:字符位于中线附近,部分截取中区,如“一”. 我们字符印刷结构分析的目的之一是要将文本中各个字符正确归人上述七个字符类. 3.基线检测算法 文本行基线检测是字符印刷结构分析的关键.实际基线定位、检测有效算法描述如下: (1)设一文本行T由n个在T中自左至右顺序排列的字符单元(曲,)组成,eP: 合.由于文本中大多数字符为上行字符和中行字符,它们都以基线为基准,所以P为寻找 实际基线的基础. (2)设线段瓦鬲斜率一=墨±[:丛的集合y=o啊“:…∥-,}.通常斜率多接近于 X“l—XI 零,也就是相邻字符嘶和曲一t多以基线或底线为基准. (3)设y,为用聚类分析由集合y中获得的最基本斜率集合: 即:y婶-(弘’fI舶可0I8,i=l,2,...一.』) (1) 式中:£为聚类系数. 整条基线的初始斜率近似值m”由下式求得:

文档评论(0)

baihualong001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档