面向电子阅读笔的文字识别算法研究-计算机应用技术专业毕业论文.docx

面向电子阅读笔的文字识别算法研究-计算机应用技术专业毕业论文.docx

:叫 Il l ?学刷 l 学位论主 摘要 摘要 脱机印刷体文字识别技术是模式识别研究领域的 -个豆要分支,是计算机智能接口的重 要织成部分。经过多年的研究,文字识别技术已经取得了很大的发展,并在很多方面开始进 入内川阶段,己 Hλ桂的两业产品面↑哇。例如 TH-OCR ,汉:r OCR,I15 OCR 等等。然而, 门前的川业r t.! ,人多数士在PC 机配合扫描仪使J+J 的 OCR 软件,或者专剧的扫描识别设 ;;例如I i-,); 比以 , j 川一问 H(( 识 );IJ辈辈 A 7I; 也有少数 一坐在 PDA 或者孚机上的嵌入式所 1 1/ ,小J:l主吨以入 A 川iJlli圣 jjl银丁联机识别。 们利 JIJ 低成本侵{I 开发了一种电子阅读笔系 飞 .牛;iZtI对 该 系统 rlil 了 ft 守旧的脱机印刷休 OCR 何法,以中英文多种字体的印刷体 运;-:J-Jf)!);I)A)软, 1I C.在 ilol -f l刘白笔 rt得到了f苛削 。 本文以脱机印刷体文字识别技术中的字符分割、文字识圳和后处理方法为研究内容,对 立字识且1]的研究意义、文字识别的研究现状、文字识别技术的新阶段和新进展作了全面的总 结.旨在通过这些总结米说明本文对文字识别研究的深刻认识.系统阐述了文字识别的理论 足础,从 OCR 系统构成,到相关阁像处理基础知识.对现有的字符识别分类方法做了详细 的hJf 究,简要的讨论了顶处理中的关键步骤一一-一值化,并对目前常用的文字识到 j的特征描 述和特 til:t\l取方法进行了细致的研究、归类,从整体i5t计的角度介纠了电子阅读笔的设计丰巨 型;.包f.i l,虫11系统丰11软{I 系统的设计方案.说明了电子阅读笔的[作原理手 u 流程。详细的阐 述了电子阅读笔使 {I 系统包含的各个子系统的设计原理和 l实现方案。 本文在研究和l分析现有字符分割算法的基础上,提山了-种新的英文字符分割方法一- },tT 词片识圳的字符分剖算法。该方法 j垣过对字母纠合的识圳,降低了传统的基于孤立字符 识,,11m};;对] 亏·符 切分的要求.不需要闯过于复杂的方法切分粘连字符,而辛毛川大最时间. 以i;ìL以对词片的 Ll!到1) 做为前提,以中心生K:法和 l改进的峰谷函数为切分 I:n,简单实用, (1 il,(少f 帖li子 ?!fl)J 分饼识引足的识别错误的同时,降低了i与劈茧,适合在阅读笔等嵌入式 i.t ?再 1-./训IJ , 斗、五:i1J;.JfJ 平f1.L 补性的树种 j ;;) 部特征竹丛J 粗、细分类的材征:具有离放粗分类性能和 l轮 J邱阱);1]能力的峡地组外罔特征和|对于文字内部结构信息敏!璋的平均线密度特征,并在粗外罔 利?止提取时,进行一豆分剖,增加了特征的稳定性.综合本文提出的三级分类识别万法,用 Wit数的粗外伺特征计算绝对值距离实现快速有敛的粗分类:细分类则利用维数较高的线密 IE特征的欧氏距离度量准则.进一步缩小候选字符集; 1量终利用类似度准则对两种特征加权 归l圳.得到识别纣栗 。 本主 1 )在 J.l J 且 Til 典的拼写错误检 F千方法米枪再山识别错误的单词,字符替换实验表明 l)J 实lJJ1 ,计算编辑距离的错误,;j(止方法,由I二要和l 词典中每个单词匹配,而且义是递归 16 f/ ,所以计算域非常大,电子阅读笔的革算能力无法实时实现,冈此我们合理的加以改革 E和l r,W化。.it!í过统 一的替换操作,实现了副司销操作中的替换、描入、删除手 11合并等四种操作.并 Il斗、HJIil 定知j H 操作的字符$集合.而是利时规则表进行变换,有效提高 Tfr亏处理的这度, 1(IJIIJl I!I].t毛 可以附加和 l删减, Xlli/. Ur.Jl丘同性。 关键词: 且 j Ln}llj 1市化 主{:切分 析 ltE提取 t 级))炎 E气处理 ll{1油i主笔 DSP 系统 ,14.IL I 叶t A艺创; I 言:{0:+0:义 ABSTRACT ABSTRACT Offiine machine printed character recognition ,an important branch of pattem recognition ,is one úf the vit

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档