OCR：不可忽视的智能基础.docVIP

下载本文档

6
0
约 3页
2017-03-17 发布于北京
举报
版权申诉

OCR：不可忽视的智能基础.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

OCR：不可忽视的智能基础.doc

OCR：不可忽视的智能基础　　如今在纷繁复杂的金融领域，利用各种证件的OCR技术结合数据分析，对于提升金融行业尤其是互联网金融整体业务流程的效率，降低客户的人力成本，收效显著。　　什么是OCR？如何利用？等一系列??题随之浮出水面。如今我们不得不正视这样一个事实：人们每天都被文字包围，像办公文件、上课板书、商品介绍等都是由文字组成的，并且这些文字在某一程度上也是语音交互的基础，而这其中关乎一个关键技术――OCR （Optical Character Recognition），光学字符识别。　　什么是OCR 　　OCR是指光学设备（扫描仪、数码相机等）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，其本质就是利用光学设备去捕获图像并识别文字，将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。　　在20世纪50年代，IBM就开始利用OCR技术实现各类文档的数字化；到了80年代，平板扫描仪的诞生更是让OCR进入了商用阶段。但不管是哪个阶段，那时的OCR设备对于文字背景的要求非常之高，也需要很好的成像质量。　　OCR的工作原理　　一般来讲，OCR的工作原理包括四个部分，分别是：影像输入，通过光学设备将图片转入计算机后，系统会对图片进行一些处理，包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等，以提升图片的精确度；对比识别，根据字符的不同特征，将之与数据库进行对比，并利用对比后的识别文字与其可能的相似候选字，根据前后的识别文字找出最合乎逻辑的词，再作出更正，以加强比对的正确性；人工校正，目前为止还没有一款软件的文字识别是百分之百的，所以还需要用户亲自校正，确保输出的准确性；影像输出到txt、doc、exl等格式。　　现实中，OCR的发展其实已经相当完善，不过随着人们需求的变更，此种OCR已经不能满足人们的要求，而在当前自然环境OCR是人们最为关注的新点。　　自然环境OCR进展　　相比于传统的OCR，自然环境OCR最难的部分在于文本检测（将文字从图片中提取出来），因为它具有极大的多样性和明显的不确定性。例如文字中包含多种语言，每种语言含有多种字母，每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等；因拍摄图像的随意性，文字区域还可能会产生变形、模糊断裂等现象。　　另外，背景也是一大干扰因素，例如文字区域附近有非常复杂的纹理；非文字区域有着跟文字区域非常相似的纹理，比如窗户、树叶、栅栏、砖墙等。　　文本检测首先要从图像中切割出可能存在的文字，即候选连通区域，目前被采取最多的方法是MSER（最大平稳极值区域）。　　当然也有团队在此基础上开发出了自己的一套算法，例如微软研究院在传统检测方法ER（极值区域）和MSER基础之上采用了对比极值区域CER（Contrasting Extremal Region），CER是与周围的背景有一定对比度的极值区域，在低对比度的图像上比MSER效果更好，而且获得的候选连通区域数量远小于ER，提高了算法的效率。并且，为了提高所获得连通区域的质量，微软又增加一个算法环节去增强CER。最后采取了一套基于浅层神经网络的文字/非文字分类算法，进一步提高了对于连通区域字符的辨认率。　　OCR的应用前景　　不管是传统OCR，还是自然环境OCR，其参与者还是不少的。在国内，涉足OCR的企业主要有汉王、文通、百度等，国外的像ABBYY、IRIS、Google、微软等。此外，市面上也有不少OCR产品，传统的OCR产品有尚书、汉王等，自然环境OCR的有百度翻译、Google翻译，实用性相当不错。　　论起OCR的应用前景，仅看其隶属于计算机视觉领域的一个分支，再联系到当前人工智能的发展，其前景可想而知。除了翻译、智能购物以外，OCR未来最大的发展潜力在于人机交互。　　众所周知，人机交互一直是研究者追求的东西，但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想，如果机器人能够进行文字识别，那将能够进一步获取知识、学习人类，进而与人类进行更为自然的交互，或是协助人类工作，提高效率。 3