基于OCR技术印章识别平台可行性研究.docVIP

下载本文档

223
0
约2.9千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于OCR技术印章识别平台可行性研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于OCR技术印章识别平台可行性研究

基于OCR技术印章识别平台可行性研究　　摘要随着国民经济的不断发展和法治社会的不断完善，对面电力业务量的不断增加，面对规范化要求不断提高，如何甄别客户提交海量的申请材料中各种证书文件的真伪工作成了电力业务流程中的重要环节，一旦使虚假的证件通过审批，将给电力正常工作带来极大的风险和不稳定因素。　　同时由于人工鉴别印章真伪，对人员的要求也十分高，需要有长期的工作经验积累，而这个经验又无法在别人身上复制推广，因此往往只有少数固定的几名乃至一名工作人员能胜任鉴别工作，导致了已经海量的鉴别工作成了整个业务审批工作的瓶颈所在，不但降低了整体的电力服务效率，也大大提高了客户的等待时间，造成了客户的不满和投诉。为了很打破这个瓶颈，提高工作的效率，降低虚假证件通过的风险，必须要从信息化手段入手，设计一种智能化识别平台，支撑大多数的工作人员都能快速、准确的识别证件的印章真伪，最大限度的降低虚假证件通过的风险。　　关键词：OCR；鉴别印章；信息化；风险　　一、前言　　目前电力公司对各种证件的有效性的鉴别仍处于人工鉴别阶段。而传统的人工鉴别真伪，由于工作人员的责任心、主观意识、业务熟练程度、身体疲劳等不确定因素和人眼本身的弱点造成的误判，将给电力企业带来极大的隐患和漏洞。　　通过本项目设计、开发一种面向客户提交的申请材料的真伪识别辅助设备，以帮助用检人员能快速有效的辨别真伪，以提高电力企业的管理水平，减少人员工作量，提高工作效率。　　二、国内外研究水平综述　　目前，ocr（图形识别，为人工智能的一种）技术经过多年的发展，已经取得了很多突破性的发展，例如我们常见的“指纹识别”、“虹膜识别”、“车牌识别”等，虽然本次项目的技术要求要比这些都高，但是基于神经网络方法的基本图像处理技术已经很成熟。再结合目前流行的高斯滤波算法和去噪技术，为本项目研发奠定了技术基础。　　OCR是英文Optical Character Recognition的缩写，即光学字符识别。它通过扫描和摄像等光学输入方式获取图像信息，通过对图像灰度化、灰度图二值化、细化、滤波平滑去噪等图像处理技术和几何形态学、图形模板匹配方法与神经网络学等识别算法进行识别和定位，并按通用格式存储在文本文件中。　　OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。我国研究识别技术的起步比较晚，20世纪70年代末才开始进行OCR的研究工作。　　随着OCR技术的广泛应用，它正逐渐被人们所知晓。国际软件巨头微软在研发 XP系统的时候，就意识到OCR的市场需求，在发布的Office 2003中全面配装了TH-OCR；硬件方面的领袖企业英特尔公司也确定TH-OCR为MMX技术支持项目。近期，一些大公司意识到OCR的好处，开始在自己的产品中捆绑OCR技术。Google已经启动OCR软件的开发工作，随着Google启动OCR开发工作，OCR应用进入了全面爆发时代。　　2011年10月成功研发了“电费卡户号识别系统”，运用OCR技术识别电力公司统一的电费卡号，成功率高达99%，识别时间200ms，设备已经在全省推广使用，运行至今，得到了13个地市公司的一致认可，电费卡识别器的成功研发为印章识别平台的开发提供了技术前提。　　三、项目的理论和实践依据　　3.1理论依据　　OCR系统从输入影像到最后的结果输出，须经过影像输入、影像前处理、特征抽取、比对识别等过程。　　影像输入：透过光学仪器，如影像扫描仪、传真机或摄影器材，将影像转入计算机。影像设备的分辨率越高，输入的影像越清晰，就越能增进OCR软件的处理效率。　　影像前处理：影像前处理是OCR系统中解决问题最多的一个模块，从得到一个不是黑就是白的二值化影像。影像前处理过程包含了影像正规化、去除噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处理。　　特征抽取：特征抽取可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对。　　对比识别：根据不同的特征特性，选用不同的数学距离函数，比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以及类神经网络的数据库建立及比对、HMM（Hidden Markov Model）…等，为了使识别的结果更稳定，也可利用各种特征