一种基于深度学习的异构多模态目标识别方法-中南大学学报.pdf

下载文档 降价啦

30
0
约3.22万字
约 8页
2017-09-02 发布于天津
举报
版权申诉
保障服务

一种基于深度学习的异构多模态目标识别方法-中南大学学报.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于深度学习的异构多模态目标识别方法-中南大学学报

第 47 卷第 5 期中南大学学报( 自然科学版) Vol.47 No.5 2016 年 5 月 Journal of Central South University (Science and Technology) May 2016 DOI: 10.11817/j.issn.1672-7207.2016.05.018 一种基于深度学习的异构多模态目标识别方法 1, 2 3, 4 1 文孟飞，胡超，刘伟荣 (1. 中南大学信息科学与工程学院，湖南长沙，410083； 2. 湖南省教育科学研究院，湖南长沙，410005； 3. 中南大学信息与网络中心，湖南长沙，410083； 4. 中南大学医学信息研究湖南省普通高等学校重点实验室，湖南长沙，410083) 摘要：提出一种基于深度学习的异构多模态目标识别方法。首先针对媒体流中同时存在音频和视频信息的特征，建立一种异构多模态深度学习结构；结合卷积神经网络和限制波尔兹曼机的算法优点，对音频信息和视频信息分别并行处理，生成基于典型关联分析的共享特征表示，并进一步利用时间相关特性进行参数的优化。分别使用标准语音人脸库和截取的实际电影视频对算法进行实验。研究结果表明：对于这 2 种视频来源，所提出方法在目标识别的精度方面都有显著提高。关键词：目标识别；深度学习；卷积神经网络；限制玻尔兹曼机；典型关联分析中图分类号：TP391.4 文献标志码：A 文章编号：1672−7207(2016)05−1580−08 Heterogeneous multimodal object recognition method based on deep learning WEN Mengfei1, 2, HU Chao3, 4, LIU Weirong1 (1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. Hunan Provincial Research Institute of Education, Changsha 410005, China; 3. Information and Network Center, Central South University, Changsha 410083, China 4. Key Laboratory of Medical Information Research of Hunan Province, Central South University, Changsha 410083, China) Abstract: The heterogeneous multimodal object recognition method was proposed based on deep learning. Firstly, based on the video and audio co-exi