基于图像处理的OCR识别技术研究.docxVIP

下载本文档

7
0
约2.86万字
约 25页
2023-11-25 发布于河北
举报
版权申诉

基于图像处理的OCR识别技术研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 3 基于图像处理的OCR识别技术研究　　摘要：OCR识别也就是光学字符识别，主要运用于识别图像中的文字，可具体应用在车牌识别、证件识别以及图像的数字化处理等领域。作为人工智能的一部分，OCR与深度学习相结合能使识别准确率更高，适用范围更大。在 OCR识别过程中有两个关键问题值得探索：文本区域检测、文本区域识别。本文的OCR识别采用基于深度学习的文本检测和文本识别算法模型，具体地使用CTPN算法实现文本区域检测、CRNN算法实现文本识别。关键词：OCR，图像处理，深度学习，文本区域检测，文本识别绪论 1.1 研究背景及意义　　随着计算机技术的发展，人们越来越重视信息的传播。人工智能在近年非常火热，其早已普遍应用于日常生活中，与人工相比较，对于简单重复的工作，计算机具有很大的优势，人工在一定程度上会受情绪和体力的影响，在保存信息时可能会丢失，而计算机则不会出现这些情况。运用计算机拥有的自动高效处理能力帮助各行各业工作人员减轻工作难度、强度，提高工作效率。通过视觉直接读取图像中包含的信息是人类的行为，而计算机不能像人一样这么轻松地完成此工作，因此计算机成功识别并提取图像中的文本内容有着非同一般的意义。在当今这个飞速发展的时代，越来越多的场景中采用了图像识别技术，比如：车牌识别，关于车辆以及车牌号信息等被实时获取；证件识别，在火车站等地方对证件照的识别与信息录入；图像的数字化处理，将图像中的信息以文本形式提取出来；医学图像识别，应用于识别临床病变等。图像识别的辅助运用在很大程度上提高了工作效率，释放大量的人力资源，从而减少人工成本以及因人产生的错误。　　光学字符识别（Optical Character Recognition）通常简称为OCR，其主要是对图像中的文本信息进行判断和识别，进而获取到图像中的文本信息，再将文本信息转换为计算机能够存储的表示形式。　　有些文本具有一定价值，现在我们有很多文档、发票等都可以快捷的转换成图像，而要将图像中的字符识别出来，并将其转换为计算机能够识别的数据是一个难题，仅靠人工会耗费巨大人力资源。因此我们需要一个强大的OCR 识别系统。但在OCR识别中，当处理的图像背景复杂时，有太多的不确定性和多样性，对图像的分割就会变得困难，在自然场景中的字符识别比在单一文本场景中的难度更大，比如在车牌识别中，可能会遇到车牌形变、遮挡、恶劣的光照和分辨率环境等现象，这给OCR识别提出了挑战。　　基于以上背景，选择合适的图像处理算法对文本区域定位、字符识别等至关重要，它将大大影响对文本识别的速率和正确率。本文采用CTPN算法进行文本区域检测、CRNN算法进行文本识别研究。 1.2 研究发展与现状　　OCR的概念最开始被德国科学家Tausheck提出，后来美国科学家Handel也萌生了一个大胆的想法，即借助科学技术识别文字。而第一篇对于汉字识别的论文是由Casey和Nagy发表，采用的模式识别方法是template matching，当年的实验成功识别了1000个印刷体汉字，这是最早对印刷体汉字识别进行的研究。在国内，我国程序员对汉字识别的研究是在1975年以后才开始开展。OCR软件初现时，因为其识别效果低下等因素，没有达到实际使用标准。在当时的社会，工业不发达导致制造硬件成本较高，所以使用的硬件数量不够从而导致运行速度慢。当时只有特殊部门才能使用OCR软件。经过几十年的发展，OCR技术已经取得很大进步，从识别简单的数字到识别成百上千的汉字，不同国家的字符、不同的字体样式等都能顺利完成。一些大公司的OCR技术相对成熟，如：IBM、Microsoft等。OCR软件能被用来运行在任何操作系统上，计算机内存中保存从把各类文档上读取的印刷字符，再根据需要使用数据就是OCR 识别设备的作用。OCR不断在工业界和学术界发展着，GOOGLE公司开发的开源Tesseract能识别多行文本图像，它有操作便捷、效率不错等特点，是目前开源中识别效果好的软件之一；在国内，几大著名互联网公司也拥有自己对应的OCR产品，现在的OCR产品能在线识别各种各样应用场景中的文本。　　在图像识别领域，卷积神经网络起着至关重要的作用，其对图像的处理能力注定它能在图像识别中得到广泛应用，加拿大学者Yann和他的同事提出了LeNets用于手写体数字识别，其基于卷积神经网络，这是第一次将卷积神经网络应用到实际问题的OCR系统中。后来，它们采用卷积层与池化层交替的对图像进行前向传导，通过全连接分类的 LeNets-5[1]成为当时广泛应用的卷积神经网络模型。　　2012年，Alex Krizhvy提出的AlexNet，其包含七层隐藏层，图像特征被一层一层提取。2014年，GoogLeNet网络模型被Szegedy等人创造，并