视频打标签算法探讨.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
视频打标签算法探讨 2021-03-20 随着内容时代的来临,多媒体信息,特殊是视频信息的分析和理解需求,如图像分类、图像打标签、视频处理等等,变得愈加迫切。目前图像分类已经进展了多年,在肯定条件下已经取得了很好的效果。本文因实际产品需求,次要探讨一下视频打标签的问题。 查阅了部分材料,笔者拙见,打标签问题无论是文本、图像和视频,涉及到较多对内容的“理解”,目前没有处理得很好。次要缘由有以下一些方面,标签具有多样性,有背景内容标签,细节内容标签,内容属性标签,风格标签等等;一些标签的样本的实际表现方式多种多样,样本的规律不明显则不利于模型学习;标签问题没有独一的标准答案,也存在肯定的客观性,不好评估的问题则更不利于模型学习。 照旧笔者拙见,视频打标签问题目前还没有很好的处理方法,也处于探究阶段。方法上次要有以下一些思路:可以从视频角度动身,可以从图像角度动身;可以利用caption生成的思路,可以转化为多分类问题。 直接从视频角度动身,即从视频全体的角度动身,提取图像帧,甚至字幕或者语音信息,进一步处理得出视频标签的结果。Deep Learning YouTube Video Tags,这篇文章提出一个hybrid CNN-RNN结构,将视频的图像特征,以及利用LSTM模型对标签考虑标签相关性和依靠性的word embeddings,联合起来,网络结构如下图。 Large-scale Video Classification with Convolutional Neural Networks提出了几种应用于视频分类的卷积神经网络结构,在网络中体现时空信息。single frame:就是把一帧帧的图像分别输入到CNN中去,和一般的处理图像的CNN没有区分;late fution:把相聚L的两帧图像分别输入到两个CNN中去,然后在最终一层连接到同一个full connect的softmax层上去;early fution:把连续L帧的图像叠在一起输入到一个CNN中去; slow fution:通过在时间和空间维度添加卷积层,从而供应更多的时空全局信息。如下图所示: 另一方面,为了提高训练速度,这篇文章还提出Multiresolution CNNs,分别将截取两头部分的图像和缩放的图像作为网络的输入,如下图所示: 这篇文章次要争辩了卷积神经网络在大规模视频分类中的应用和表现。通过试验,文章总结网络细节对于卷积神经网络的效果并不格外敏感。但总的来说,slow fusion网络结构的效果更好。 从图像角度动身,即从视频中提取一些帧,通过对帧图像的分析,进一步得出视频标签的结果。对图像的分析,也可以转化为图像打标签或者图像描述问题。Visual-Tex: Video Tagging using Frame Captions,先从视频中提取固定数量的帧,用训练好的image to caption模型对图像生成描述。然后将文本描述组合起来,提取文本特征并用分类方法进行分类,得到tag结果。这篇文章对生成的描述,对比了多种不同的特征和多种不同的分类方法。可见,图像打标签对视频打标签有较大的自创意义。另一种思路,CNN-RNN: A Unified Framework for Multi-label Image Classification可以看作将图像打标签问题转化为多分类问题。将卷积神经网络应用到多标签分类问题中的一个常用方法是转化为多个单标签的分类问题,利用ranking loss或者cross-entropy loss进行训练。但这种方法往往忽视了标签之间的联系或者标签之间语义反复的问题。这篇文章设计了CNN-RNN的网络结构里,并利用attention机制,更好地体现标签间的相关性、标签间的冗余信息、图像中的物体细节等。网络结构次要如下图所示,次要包括两个部分:CNN部分提取图像的语义表达,RNN部分次要猎取图像和标签之间的关系和标签之间的依靠信息。 针对空间部分短视频数据,笔者设计了一个简约的视频打标签的方案,并进行了试验。由于预处理和算法细节的很多进一步改进和完善工作还没有进行,在此只是提出一种思路和把试验结果简约地做个共享。 方法引见: 全体思路:图片打标签 = 视频打标签 也就是说,对视频提取帧,得到视频中的图片;然后对图片进行打标签;最终将视频中帧图片的标签进行整合,得到视频标签。 1、从图片描述说起: 图片描述典型框架:利用deep convolutional neural network来encode 输入图像,然后利用Long Short Term Memory(LSTM) RNN decoder来生成输出文本描述。 2、在打标签任务中,我们把标签或类别组合,构形成“描述”: 一级类别+二级类别+标签(反

文档评论(0)

136****7795 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档