基于内容的视频检索.docx

下载文档 降价啦

12
0
约1.53万字
约 16页
2017-02-08 发布于重庆
举报
版权申诉
保障服务

基于内容的视频检索.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于内容的视频检索

基于内容的视频检索Content-Based Video Retrieval (CBVR)视频是集图像、声音、文字等为一体的综合性媒体，在众多媒体种类中携带的信息量最大。随着互联网技术的发展和网络带宽的提升，网络视频数据量成爆炸式增长，如何对互联网上的海量视频数据进行检索已成为国内外的研究热点，是新一代搜索引擎的主要研究内容。视频检索是通过对海量的非结构化的视频数据进行结构化分析，提取视频内容的特征（包含语义特征），在此基础上实现从内容上对视频进行检索。原始视频要根据其内容建立索引，需要有一种算法，在无人参与的情况下，能够自动提取并描述视频的特征和内容。与传统文本检索相比，视频检索存在很大的技术难度。首先，视频内容的特征难以提取与处理，特别是语义特征的提取存在很大的困难。其次，视频检索在索引建立、查询处理以及人机交互等方面都与传统的文本搜索存在很大区别，还有一些技术难题有待解决。视频检索的基本流程：结构化分析→特征提取→语义提取→高维索引→检索反馈→浏览应用提取镜头的特征及关键帧的视觉特征存入视频数据库。在建库后，利用相似度的测量实现基于内容的检索。结构化分析对于视频可以按照如下结构进行分层：视频序列→→→→场景→→→→→→→→镜头→→→→→→→→→帧video scene shot frame（不一定时间连续）（时空连续）（静止画面）（最小语义单元）（摄像机的一次拍摄）（胶片的一格）各层都可以用一些属性来描述。视频序列的属性主要包括场景的个数和持续时间；场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等；镜头的属性包括持续时间、开始帧号、结束帧号、代表帧集合、特征空间向量等；帧有大量的属性，包括直方图、轮廓图、DC及AC分量图等。视频结构化分析是指对视频进行镜头分割、关键帧提取和场景分割等处理，从而得到视频的结构化信息，并进一步为视频的检索和浏览提供基本访问单元。结构化分析过程将视频序列分割为镜头。在镜头内选择关键帧。镜头聚类，提取场景。视频镜头检测技术要对视频建立索引，首先要将视频分割为镜头。镜头检测的关键是确定从镜头到镜头的转换处，并利用镜头之间的转换方式找到镜头图像之间的差别。镜头的切换方式有两种：突变和渐变。镜头分割的关键在于确定镜头的边界，其中渐变镜头边界的检测目前仍然是一个具有挑战性的课题。对应像素法将两帧图像对应象素差的绝对值之和作为帧间差，如果前后两帧的帧间差变化超出某个阈值，则认为有镜头的切换。对检测突变镜头很有效，但对摄像机和物体的运动非常敏感，当运动较大时，相邻两帧的差异往往会超过预定的阈值，从而产生误检。直方图法利用帧与帧的直方图比较来检测镜头，是使用得较多的计算帧间差的方法。基本原理是将颜色空间分为一个个离散的颜色小区间，然后计算落入每个小区间的象素数目，得到图像的直方图统计，通过比较两帧图像的直方图统计得到帧间差。不考虑像素的位置信息，抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。基于边缘的方法将两幅图的边缘提取，利用镜头切换时出现的新边缘与消失的旧边缘的像素比例，若两者最大值大于某阈值，则认为有镜头切换。这种方法在图像较暗或边缘不明显时往往会造成误检和漏检。基于模型的方法利用对镜头编辑的先验知识，对各种镜头切换建立一定的数学模型，自顶向下地进行镜头切换的检测，对特定领域视频可通过数学模型加上一定的限制条件来提高方法有效性。因此这种方法对镜头渐变的检测往往能取得好的效果。建立数学模型过程较复杂，适用于专业领域前三种都是利用帧间差自下而上来进行镜头边界的检测，它对于突变检测可以取得较好的效果，但是对于渐变检测则有一定的困难，因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性。关键帧提取技术用关键帧代表镜头，使得对视频镜头可用图像的技术进行检索。关键帧必须能够反映镜头中的主要事件，数据量应尽量小，且计算不宜太复杂。特定帧法一段视频被分割成若干镜头后，将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。简单，但没考虑运动特性，不能反映镜头内视频内容的变化，不适用于变化较多的镜头内。帧平均法和直方图平均法帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值，将镜头中该点位置的像素值等于平均值的帧作为关键帧。直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选择与该平均直方图最接近的帧作为关键帧。能在一定程度上反映视频内容，计算量也不大，所选取的帧具有平均代表意义，但是没考虑运动特性，由于需要记录每一帧每个像素的值或直方图，所以要实现动态选取，所需的存储量较大。无法描述有多个物体运动的镜头。基于光流的运动分析通过光流分析来计算镜头中的运动量，在运动量取局部最小