- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
中文摘要
摘要
近年来,随着计算机技术的飞速发展和手机拍摄功能的普及,人们开始
经常通过使用手机拍照或截图来存储信息,对于图片中的文字信息,可以利用
OCR(OpticalCharacterRecognition)技术识别图像中的文本信息并转化成可
编辑的计算机文档.对于传统文字信息,OCR技术已非常成熟,具有非常高的
识别率.而对于图片中的数学符号和公式,传统的OCR技术由于不能较好地
处理数学信息复杂的二维结构,因此,识别效果无法令人满意.尤其对于通过
手机拍摄的图片,由于光照、拍摄角度和模糊等因素的影响,很多公式完全无
法识别.因此,设计并实现一个检测与识别手机拍摄图片中数学信息的系统具
有重要的实际意义.
传统公式识别技术使用字符分割和语法重建等方法,识别准确率低
于70%.随着计算机视觉和深度学习理论和算法的快速发展,基于这两项技术
的数学公式检测与识别系统较大幅度地提高了识别准确率.这些系统主要以通
过扫描仪获取的图片为训练数据,识别准确率能达到85%以上.但是实
验表明,它们处理手机拍摄图片的识别准确率通常低于80%.
本文针对手机拍摄图片中数学信息的检测与识别问题展开研究,具体研究
内容如下:
1.通过模拟模糊核路径来估计模糊核,并生成模糊图像,构建了一个用于
文本图像去运动模糊的数据集,基于该数据集使用DeblurGAN-v2算法训练
出一个适用文本图像去模糊的模型,并针对拍摄数字屏幕时产生的摩尔纹提
出改进的MBCNN算法去除摩尔纹.
2.针对YoLo-FastestV2算法中存在的对小目标检测召回率低和数学公
式尺度大小不一的问题,本文对YoLo-FastestV2算法进行改进,并使用改进
后的算法来进行数学公式检测,改进后的模型在保持实时性的情况下,相比原
始的模型,1分数从原来的77.8%提升到了88.2%,召回率从68.8%上升到
了92.2%,并且改进后的YoLo-FastestV2算法模型在小目标检测上有明显优
势.
i
中文摘要
3.针对目标检测截取出的图片分辨率低的问题,本文在公式识别算法中
加入图像增强模块来增强图像分辨率,并对公式识别数据集进行扩充,加入上
一步中目标检测截取的公式图片,基于该数据集重新训练模型,训练出来的公
式识别模型具有较强的泛化性能.
4.本文设计并实现了一套完整的数学公式检测及识别系统,该系统适用
于手机拍摄的图片或截图,同时设计了方便操作的UI界面,选择要识别的图片
后,该系统通过预处理操作后,再进行数学公式目标检测操作,并自动将检测到
的数学公式图片截取后输入到公式识别模块中,最后输出各个公式的LaTeX
序列.
关键词:数学公式识别,目标检测,编码器-解码器模型,系统设计.
ii
Abstract
Abstract
Inrecentyears,withtherapiddevelopmentofcomputertechnologyand
thepopularityofmobilephoneshootingfunction,peopleoftenstarttouse
mobilephonestotakephotosorscreenshotstostore
文档评论(0)