- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
视频数据的时间序列模型及其应用研究-JDL联合室
摘 要
计算机视觉中的视频任务都有着很重要的实际应用,对视频数据建模和处理方法
的研究是一个十分重要的方向。视频数据的复杂性,使得合理准确地建模视频数据成
为非常困难的问题。传统的视频数据处理方法关注局部信息提取,而时间序列模型从
整体上来描述视频这种时间序列数据。时间序列模型的优势在于它能够抓住数据前后
之间的相关性或视频整体的动态特性。
基于动力系统和基于深度学习的两大类时间序列模型已经在一些计算机视觉或模
式识别任务上取得了成功。但已有的方法在非线性表示能力上有所不足,或者在视频
领域中的应用比较缺乏。本文的目标是提出针对视频数据的新颖的非线性时间序列模
型。在现有研究工作的基础上,我们仍采用动力系统和非线性神经网络这两大类模型,
或者二者的结合。同时,希望我们提出的模型能够有广泛的应用。
具体来讲,在线性动力系统 (Linear Dynamic System, LDS )的基础上,我们用分
段线性和神经网络的非线性来逼近视频数据的非线性动态特性。同时考虑基于模型的
视频距离定义,从而使得监督学习任务如分类等成为可能。另外,我们也关注基于递
归神经网络的时间序列分类模型,主要用于视频分类。总的来看,本文的研究内容与
贡献如下:
(1)LDS起初被用来建模动态纹理,但真实世界的复杂动态纹理常常由时间上
多个简单动态纹理组成,本文提出使用分段线性动力系统来建模。我们提出了有效的
模型训练算法,能同时学习到对序列的切分,以及切分后描述每个简单动态纹理片段
的LDS。算法基于轮流优化以及贪婪的思想。在复杂动态纹理上的实验验证了算法的
有效性和模型的建模能力。
(2 )我们提出一种新颖的称之为动态编码器的深度学习模型来建模视频动态,用
于弥补LDS在表示能力上的不足。它可以看作是LDS 的深度神经网络版本,可以很好地
逼近视频数据所呈现出的非线性动态特性。因此,在一些视频任务上会有更好的表现,
如动态纹理合成。模型的结构基于自编码器及其变种,通过合适的堆叠技巧可以构造
出深度动态编码器。模型的训练方法类似于其它深度学习模型,也包含逐层预训练与
联合微调。我们也给出了基于模型的视频距离定义,并将其应用到视频分类和分割当
中,取得了不错的实验效果。
(3 )本文使用基于长短时记忆 (Long Short-Term Memory, LSTM )的时间序列分
类模型来进行视频分类。LSTM是一种从整体上对时间序列进行建模的递归神经网络,
适用于时间序列中间隔或延迟较长的相关性的学习。它实现的是一种从序列到序列的
映射,多用于语音、文本等领域的序列监督学习任务。针对LSTM较少应用于视频任务
I
视频数据的时间序列模型及其应用研究:摘要
的情况,为了把LSTM 的优势运用到视频领域,我们构建了适用于视频分类的LSTM分
类模型,并在交通场景分类和动作识别两个任务上证实了它的分类能力。
综上所述,本文针对适用于视频数据的时间序列模型及其应用展开了细致而全面
的讨论,探索和提出了不同类型的新颖时间序列模型,并发掘它们在各种视频任务上
的应用。除了本文中的实验以外,我们提出的模型还可以推广到其它很多视频任务或
数据库上。
关键词:视频数据,时间序列,动力系统,深度学习,动态纹理,分段线性,自编码
器,递归神经网络
II
Time Series Models for Video Data
and Their Applications
Xing Yan (Computer Science)
Directed by Hong Chang
Many video-related tasks in computer vision field have important real-world applications,
so video data modeling and processing is an act
文档评论(0)