- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR:不可忽视的智能基础.doc
OCR:不可忽视的智能基础
如今在纷繁复杂的金融领域,利用各种证件的OCR技术结合数据分析,对于提升金融行业尤其是互联网金融整体业务流程的效率,降低客户的人力成本,收效显著。
什么是OCR?如何利用?等一系列??题随之浮出水面。如今我们不得不正视这样一个事实:人们每天都被文字包围,像办公文件、上课板书、商品介绍等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键技术――OCR (Optical Character Recognition),光学字符识别。
什么是OCR
OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。
在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化;到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段。但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。
OCR的工作原理
一般来讲,OCR的工作原理包括四个部分,分别是:影像输入,通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等,以提升图片的精确度;对比识别,根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;人工校正,目前为止还没有一款软件的文字识别是百分之百的,所以还需要用户亲自校正,确保输出的准确性;影像输出到txt、doc、exl等格式。
现实中,OCR的发展其实已经相当完善,不过随着人们需求的变更,此种OCR已经不能满足人们的要求,而在当前自然环境OCR是人们最为关注的新点。
自然环境OCR进展
相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。例如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。
另外,背景也是一大干扰因素,例如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。
文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。
当然也有团队在此基础上开发出了自己的一套算法,例如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是与周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率。并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。
OCR的应用前景
不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当不错。
论起OCR的应用前景,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。除了翻译、智能购物以外,OCR未来最大的发展潜力在于人机交互。
众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。
3
您可能关注的文档
- 350个孩子一个妈,见证萨仁高娃的爱心.doc
- 35kV电压互感器误差测试及误差判断.doc
- 36 学习力视野下的“学讲方式”教学实践探索.doc
- 3D动画模拟化学反应的设计与实现.doc
- 3D打印于新产品的研发及模具制造上的应用.doc
- 3D打印技术在跟骨骨折手术治疗中的应用.doc
- 3D显示模组的作用.doc
- 3D高清腹腔镜成像系统在肾癌根治术中的应用研究.doc
- 3年后,俄高考考“汉语”.doc
- 40Cr连杆网带炉热处理技术改进,并节能降耗.doc
- OCT在心血管病中的应用与研究.doc
- OFDM技术发展现状研究.doc
- Old Stays Gold.doc
- ON A SMOOTH TRACK.doc
- On Charlotte Perkins Gilman’s My Poor Aunfrom the Perspective of Feminism.doc
- On Obstacles of English Reading Comprehension to Senior High School Students and Reading Strategies.doc
- On Sister Carrie's Desire for Clothes Using Maslow’s Hierarchy of Needs.doc
- On the Characteristics and Translation Strategies of Medical English Words.doc
- On the Influence of the Negative Transfer of Mother Tongue on English Writing.doc
- On the Negative Transfer of Chinese Single Finals to English Monophthongs Learning.doc
文档评论(0)