- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于深度迁移学习方法的盲文识别技术研究
中文摘要
盲文识别是盲文信息处理研究中非常关键的一步。不仅对盲文工作者有十分
重要的意义,在实际生活中,也有助于促进盲人和明眼人间的沟通交流,推动我
国信息无障碍事业的发展。由于传统的盲文识别方法受到环境和设备的影响较大,
且人力标注样本成本过高,不能实现盲文的自动识别,因此发展有效的盲文识别
方法对于我国信息无障碍的发展具有重要意义。目前已有深度学习方法应用于盲
文识别的研究,且实现了盲文的自动识别,但是目前深度学习在盲文识别领域的
研究还是基于研究者自己制作的数据集,盲文图片相对规范,尚未有公开的盲文
公共数据集来验证算法的有效性。考虑到采集盲文图片时局限性较多且有一定的
条件限制,因而现实中得到的盲文图像数据集通常规模较小且识别难度较大,进
而需要研发一个盲文识别模块来解决公共盲文图像数据集的制作及现实场景下
的盲文图像数据集识别问题。深度迁移学习,作为目前主流的机器学习算法,已
经在很多实际场景应用中都取得了成功,因此,本文在已有的盲文识别算法的基
础上,从现实场景下盲文图像数据集识别的角度出发,利用现有的规模较大、规
范程度较高的盲文图像数据集,引入深度迁移学习方法,建立了实用性更强的盲
文图像识别模型。本文主要工作内容如下:
首先,对盲文识别现有的研究方法进行了分析整理。并且对深度学习方法和
深度迁移学习方法进行了简单阐述,重点介绍了我们工作中用到的两种卷积神经
网络模型,并从原理上分析了两种卷积神经网络模型及深度迁移学习的优势及其
在图像识别领域的一些实际应用。
然后,针对盲文图像数据集间存在的差异问题,本文提出了一种深度迁移学
习算法DAA(Domain Auto-alignment ,DAA) ,目的是减少两个盲文图像数据集之
间的领域分布差异。首先对源域和目标域的样本嵌入分布进行初步对齐,得到中
间状态的高度批归一化的源域和目标域的嵌入向量,然后再用最大均值差异
MMD(Maximum Mean Discrepency, MMD)进行精细度量继续减少两领域嵌入间
的分布差异。同时在深度学习框架Caffe 下,以GoogleNet 网络模型作为深度迁
移网络的载体,搭建了多种不同结构的迁移网络模型,通过从各网络模型的分类
准确率、网络结构复杂度、度量的选取及网络收敛速度等方面进行对比分析,确
I
定最佳迁移网络模型。并在Office-31 和Office-Caltech 数据集上验证了DAA 算
法的有效性。
最后,针对现实场景下的盲文图像数据集识别问题,进行了基于深度迁移学
习方法的盲文识别研究,以规模较大、规范程度较高的盲文图像数据集 A 模拟
标准盲文图像数据集并作为深度迁移学习的源域输入,规模较小、规范程度欠佳
的盲文图像数据集 B 模拟现实场景下的盲文图像数据集并作为深度迁移学习的
目标域输入。数据集A 主要来源于与中国盲协、中国残联共同成立的“信息无障
碍研究中心” ,通过对每一类盲文点进行收集并人工核对得到;盲文图像数据集
B 则主要是通过手机拍摄和网页截取到的盲文点。在实验数据集的制作过程中,
我们尽可能地选取了多种实际环境下的盲文图像,以提高模型的鲁棒性。实验结
果表明,深度迁移学习方法能够有效地帮助现实场景下盲文图像数据集的识别。
本文用深度迁移学习来处理现实场景下盲文图像的识别问题,充实了深度迁
移学习方法在盲文图像识别领域的研究,拓宽了盲文识别研究的思路,同时,在
后续研究中将该方法与盲文机器翻译方法相结合,对现有盲文数据集的扩充及公
共盲文图像数据集的制作提供了新思路。
关键词:盲文识别,信息无障碍,深度学习,深度迁移学习,域适应
II
The Research of Braille Recognition Based on Deep Transfer
Learning
Abstract
Braille recognition is a very critical step in the research of b
您可能关注的文档
- 基于跨语言迁移学习的实体关系抽取算法研究.pdf
- 基于联合局部扰动学习的3D人体骨架动作识别.pdf
- 基于面部特征的抑郁症识别研究.pdf
- 基于敏捷开发的霍尼韦尔公司安防软件项目团队管理改进策略研究.pdf
- 基于模块度优化的重叠社团检测算法研究与应用.pdf
- 基于模式识别的高密度肌电控制方法研究.pdf
- 基于模型聚合的分布式拜占庭鲁棒优化算法研究.pdf
- 基于偏心椭圆芯旋光纤光栅的多重OAM模式产生与检测.pdf
- 基于强化学习的网络安全协议形式化验证与应用技术研究.pdf
- 基于三级供应链的预售策略研究.pdf
- GB/T 29324-2024架空导线用碳纤维增强复合材料芯.pdf
- 《GB/T 29324-2024架空导线用碳纤维增强复合材料芯》.pdf
- GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 《GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集》.pdf
- 中国国家标准 GB/T 43905.1-2024焊接及相关工艺中烟尘和气体取样的实验室方法 第1部分:电弧焊中烟尘排放速率的测定和分析用烟尘的收集.pdf
- 中国国家标准 GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范.pdf
- 《GB/T 18910.21-2024液晶显示器件 第2-1部分:无源矩阵单色液晶显示模块 空白详细规范》.pdf
- GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
- 中国国家标准 GB/T 43860.1220-2024触摸和交互显示 第12-20部分:触摸显示测试方法 多点触摸性能.pdf
文档评论(0)