- 1、本文档共96页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
北京邮电大学博士论文 摘要
特定领域OOR系统的精度与速度问题研究
摘要
经过五十多年的艰苦努力,人们在文字识别领域取得了众多成
果,逐渐成熟的文字识别技术使得满足金融、邮电通信、新闻出版、
办公自动化等领域对实用化OCR技术的迫切需求成为可能。虽然最
近几年才开始尝试把OCR技术应用到金融票据和信息检索领域,但
是由于强烈的市场需求的推动,这些研究方向已经逐渐成为文字识
别领域的两大应用热点,大大推动了OCR理论和技术的进一步发展。
在金融领域,OCR主要用于对金融票据上的信息进行识别,进而
完成自动化的结算、后督等功能;在信息检索领域,主要利用OCR将
纸质媒介上的信息转换为可供计算机处理的格式,使用户能够方便
的检索和访问,同时提供进一步信息挖掘的基础。
目前,各国的研究机构和公司都加紧研究面向实用的OCR技术,
各方面对此都非常重视,北京邮电大学模式识别实验室(mRis实验室)
的金融票据OCR技术研究不仅与许多企业和银行部门展开了合作,
也受到了国家863项目的支持。在这种背景下,本文的研究目的就
是参考国内外最新研究进展,在PRIS实验室的技术积累基础之上,
在“金融票据OCR系统中的成套关键技术”的国家863项目的支持
下,对金融票据OCR系统中的关键技术进行研究和改进,并结合最
摘要
新的信息检索领域的应用,提出相应的解决思路。本文进行的主要
工作如下:
1.对于汉字识别这样一个统计模式识别的问题来说,训练样本
的数量和质量对于系统的识别性能是非常关键的。当训练样本的数
量和质量不能满足需要时,我们无法正确估计样本的统计分布,无
法得到最优的识别率。本文提出一种新的基于余弦整形变换的手写
汉字训练样本生成方法,可有效提高现有手写汉字识别系统的识别
性能。通过对原始训练样本进行基于余弦整形变换的样本生成和样
本筛选,一定程度上缓解了某些条件下训练样本不足的问题,增强
了识别器的扩展能力和鲁棒性。
2.手写体汉字变形问题是手写体汉字识别中的关键问题,归一
化处理是直接从汉字点阵图像上矫正手写变形、减小属于同一类别
的不同模式之间差异的主要途径。但是,在对图像进行规整的过程
中,也引进了可能会影响识别精度的锯齿等不利因素。为了更有效
的提取手写汉字的特征,提高识别精度,本文提出了一种利用非线
性归一化过程产生的坐标变换信息来提取手写汉字有效特征的方
法。该方法通过非线性归一化获得各有效像素点在原汉字图像及规
整后汉字图像中的坐标变换关系,在原图像上抽取各点特征,在归
一化图像上进行网格的均匀划分和特征统计并形成用于分类的特征
向量。该方法有效克服了以往先进行归一化预处理方法和动态网格
方法的一些不足,兼顾了与传统结构特征提取方法的有效结合。
北京邮电大学博士论文 摘要
3.研究了基于PCA和LDA的手写汉字特征压缩问题,通过特征
压缩,使原先的高维特征能够高效地用于实际识别过程,在保证汉
字识别率的情况下,特征矢量维数大大降低,使用基于LDA的方法
在一定的压缩比率下,汉字识别率也得到了改善。
4.金融票据中手写体金融汉字的识别这类问题,属于背景和字
形情况都相对复杂的小字符集汉字识别问题,对识别器的区分能力
和鲁棒性都有较强的要求。实验表明,使用马氏距离进行分类,通
过适当选择参数,可以达到较高的精度,但运算量非常大,难以用
于实际系统。本文提出渐进的马氏距离计算方法,并将其应用到金
融汉字的识别系统中,在保证识别精度的同时,大大提高了系统的
处理速度。在针对实际采集的金融票据中汉字的实验表明,该方法
的效果是非常显著的。
5.研究面向图像信息检索与图像信息过滤的OCR技术和系统框
架,探索传统OCR技术如何更加高效应用,如何与信息检索和信息
过滤系统紧密结合,提出基本的解决思路。
关键词
模式识别文字识别训练样本生成加权动态网格特征提取渐
进的马氏距离
北京邮电丈学博士论文 摘要
AlⅧSEARCHONACCURACY
ANDSPEEDoFTHEoCR
您可能关注的文档
- 水压致裂条件下煤层群综放开采矿压显现规律与研究.pdf
- 税收代位权制度问题与研究.pdf
- 睡虎地秦简法律文化与研究.pdf
- 硕士与研究生学习倦怠及专业承诺、学习型组织的关系与研究.pdf
- 丝网板翅式降膜吸收器传热传质性能与研究.pdf
- 思茅松人工林材性及变异和研究.pdf
- 死刑复核程序的诉讼化建构.pdf
- 四倍体小麦“Langdon”低分子量谷蛋白Glu-3位点的BAC序列分析.pdf
- 四川凉山彝族服饰文化与研究.pdf
- 四种雁形目鸟类的线粒体全基因组结构特征及其分子系统学与研究.pdf
- 2025年仿制药一致性评价对医药市场药品质量监管的影响报告.docx
- 盐湖提锂2025年成本控制与产能扩张市场趋势研究报告.docx
- 面向2025年的机械装备制造业智能化解决方案与成本效益评估报告.docx
- 2025年共享出行平台车辆租赁与保养服务优化报告.docx
- 2025年农业产业集群国际合作与交流机制报告.docx
- 互联网医药电商:2025年运营模式与合规监管政策研究报告.docx
- 智慧交通系统2025年交通流量预测技术在智慧社区中的应用报告.docx
- 汽车行业供应链风险管理法规解读与合规报告.docx
- 商业步行街2025年改造项目初步设计评估与城市可持续发展报告.docx
- 2025年城市垃圾填埋场封场治理项目社会稳定风险评估与社区治理创新实践报告.docx
文档评论(0)