基于稀疏自动编码器的近重复视频检索.docVIP

下载本文档

4
0
约6.27千字
约 10页
2017-08-24 发布于北京
举报
版权申诉

基于稀疏自动编码器的近重复视频检索.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于稀疏自动编码器的近重复视频检索　　随着互联网的迅速发展，网络上产生了大量的近重复视频，如何快速精确地检测出这些近重复视频成为研究的热点。本文提出了一种基于稀疏自动编码器的视频特征提取模型，用于近重复视频检索。先用稀疏自动编码器提取视频关键帧的特征，然后根据视频间匹配的关键帧数占视频所有关键帧数的比例来度量视频的相似性。实验结果表明所提出的方法取得了较好的检索精度。　　【关键词】深度学习自编码器网络视频近重复视频检索　　1 引言　　随着视频分享网站（如YouTube、优酷、土豆网等）的出现，互联网上的视频数量和种类爆炸性地增长。用户可以通过手机、摄像机制作视频或者从网上获取视频，在做过一些改动后重新发布到网上。根据YouTube 2009年5月的统计数据显示，每分钟大约有20小时的新视频上传到该网站，日均浏览量超过2亿次。而到2012年，每天每秒就有长达一小时的视频上传到YouTube，并且日均浏览量达到40亿次。但是在这些海量的网络视频中，存在着大量重复的或者近似重复的视频。Wu等人通过24个关键词对YouTube、Google Video和Yahoo！ Video三个常用视频搜索引擎的搜索结果进行分析，发现在搜索结果中平均存在27%的重复或近似重复的视频。对于某些特定的查询，重复率甚至高达93%。这些大量重复的视频不仅浪费了存储空间，也给视频的有效管理带来不便。而且，用户在网络上搜索感兴趣的视频时返回过多的重复结果，大大降低了用户体验。因此为了提高网络视频的管理、搜索及浏览效率，高效的视频重复检测方法就显得十分必要。　　现有的近重复视频检索方法多分为如下3个步骤：首先，从每个视频中提取一系列的关键帧，用这些关键帧代表一个视频；然后，对每一个视频关键帧采用特征提取算法生成一组特征向量；最后，通过关键帧的特征向量计算视频之间的相似度。关键帧的特征表示又分为两类：全局特征和局部特征，分别对应于不同的视频内容表示算法和相似性度量的选取。　　本文提出一?N用稀疏自动编码器提取关键帧特征的方法，并将该方法用于近重复视频的检测，取得了较好的检测准确度。　　2 相关概念　　2.1 深度学习　　深度学习的概念由Hinton等人于2006年提出，它是机器学习研究中的一个新的领域，其动机在于建立和模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像理解，语音识别和自然语言处理等。深度学习中的无监督学习方法，可以通过对深层非线性网络结构的学习，实现对复杂函数的逼近，从而实现对输入数据的分布式表示，具有从少数样本中提取本质特征的强大能力。　　自动编码器（AE）作为深度学习的基本模型之一，可以捕捉输入数据中的重要特征，使训练后的数据可以无限逼近输入数据。为了学习更复杂的非线性函数，在自动编码器的基础上添加稀疏性约束，得到稀疏自动编码器（SAE），它可以通过学习得到更好的特征表示。　　2.2 稀疏自动编码器　　稀疏自动编码器是一种无监督的学习方法，通过前向传播构建网络结构，采用梯度下降的方法调整权重，利用反向传播算法实现目标值逼近输入值，它是用于降维和特征提取的神经网络，可以提取数据中最主要的隐藏特征（特征的个数通过隐藏节点数确定）。稀疏自动编码器（SAE）是以人工神经网络为基础构建而成的网络，因此稀疏自动编码器可以认为是一种双层神经网络，第一层是由输入层和中间隐层节点组成的编码层，第二层是由中间隐层和输出层节点组成的编码层，其中编码层输入节点的个数与解码层输出节点的个数相等。　　稀疏自动编码器（SAE）的神经网络结构包括有m个节点的输入层x={x1，x2，…，xm}，n个节点的中间隐层z={z1，z2，…，zn}，和m个节点的输出层y={y1，y2，…，ym}。y是通过隐层节点z对x进行的重构，其中隐层的维数比输入层小，即nm。其模型如图1所示。　　其中，相邻两层节点之间边的权重用矩阵w（1）={w（1）11，w（1）12，…，w（1）nm}和w（2）={w（2）11，w（2）12，…，w（2）nm}表示，其中w（1）ji表示输入层第i个节点与隐层第j个节点之间的权重。隐层和输出层的偏置项用b（1）={b（1）1，b（1）2，…，b（1）n}和b（2）={b（2）1，b（2）2，…，b（2）m}表示，其中b（1）j是隐层第j个节点的偏置值。隐层第j个节点的输入值定义为公式（1）：　　（1）　　其中，每个隐层节点的输出值aj是通过sigmoid激活函数f（z）的线性表示，即f（z）=1/（1+e-z），aj=f（zj）。输出层的值y，可表示为公式（2）：　　（2）　　3 基于自编码的近重复视频检索　　信息检索的任务，是对用户输入的一个对象，按与输入相关