- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容的视频检索课题报告
视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升,网络视频数据量成爆炸式增长,如何对互联网上的海量视频数据进行搜索已成为国内外的研究热点,是新一代搜索引擎的主要研究内容。视频搜索是通过对海量的非结构化的视频数据进行结构化分析,提取视频内容的特征(包含语义特征),在此基础上实现从内容上对视频进行检索。与传统文本搜索相比,视频搜索存在很大的技术难度。首先,视频内容的特征难以提取与处理,特别是语义特征的提取存在很大的困难。其次,视频搜索在索引建立、查询处理以及人机交互等方面都与传统的文本搜索存在很大区别,还有一些技术难题有待解决CBIR的核心是使用图像的可视特征对图像进行检索。本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性。用户检索的过程一般是提供一个样例图像(Queryby Example) 或描绘一幅草图(Queryby Sketch) ,系统抽取该查询图像的特征,然后与数据库中的特征进行比较,并将与查询特征相似的图像返回给用户。CBIR 的实现依赖于两个关键技术的解决:图像特征提取和匹配。图像特征提取分为两类:低层视觉,其内容主要包括颜色、形状、纹理等;语义内容,它包含高层的概念级反应(如“海上升明月”),需要对物体进行识别和解释,往往要借助人类的知识推理。
由于目前计算机视觉和图像理解的发展水平所限,使得CBIR还无法真正支持基于语义的图像检索,所以目前研究得较多也比较成熟的检索算法大部分是基于图像的低层特征的,即利用图像的颜色、纹理、形状等特征来检索。提取后的图像特征数据需要经过索引、降维等处理。首先,图像由特征向量表示,而这些特征向量一般都是高维向量, 在庞大的图像数据库中,对高维向量进行顺序比较的过程是相当费时的。在实际应用过程中, 为了让基于CBIR的图像检索系统能够真正适合大型的图像数据库, 提高检索效率,尽可能减少查询时的特征矢量比较时间,往往将降维技术和多维索引技术结合起来。
图像相似度是指人类对图像内容认识上(即语义)的差异,导致通过计算查询样图和候选图像之间在视觉特征上存在距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配。当然,如果能将语义特征和视觉特征结合起来, 相似度匹配程度会更高,检索结果会更让人满意,但这是目前研究的一大难题。
1)基于像素的镜头检测方法
A模板匹配法(对应像素法)
将两帧图像对应象素差的绝对值之和作为帧间差,如果前后两帧的帧间差变化超出某个阈值,则认为有镜头的切换。
优缺点:对检测突变镜头很有效,但对摄像机和物体的运动非常敏感,当运动较大时,相邻两帧的差异往往会超过预定的阈值,从而产生误检。
B直方图法 该方法利用帧与帧的直方图比较来检测镜头,是使用得较多的计算帧间差的方法。
基本原理:将颜色空间分为一个个离散的颜色小区间,然后计算落人每个小区间的象素数目,得到图像的直方图统计,通过比较两帧图像的直方图统计得到帧间差。
优缺点:不考虑像素的位置信息,抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。
基于边缘的方法
基于模型的方法
二、在镜头内选择关键帧
关键帧的选取的条件:
1)必须能够反映镜头中的主要事件,因而描述应尽可能准确完全.
2)为便于管理,数据量应尽量小,且计算不宜太复杂。
主要方法有:基于光流运动分析的关键帧提取、基于视频聚类的关键帧提取、基于动态帧的关键帧提取等。
三、提取镜头的特征及关键帧的视觉特征存入视频数据库
视频分割成镜头后就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索依据。这里所提取的特征课分为动态特征及静态特征。
1)颜色特征颜色是彩色图像最底层、最直观的物理特征,通常对噪声,图像质量的退化,尺寸、分辨率和方向等的变化具有很强的鲁棒性,是绝大多数基于内容的图像和视频检索的多媒体数据库中使用的特征之一。颜色特征的描述方法主要有以下四种:颜色直方图(ColorHistogram)
它是最简单也是最常用的颜色特征,描述了图像颜色的统计分布特性,具有平移、尺度、旋转不变性。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一个量化通道在整幅图像中所占的比重。
常用的颜色空间有RGB,CIE,HSI,HSV空间等,主要的量化方法有最重要信息位、颜色空间划分、颜色空间聚类、参考颜色、图像分割等,文献中讨论了对这些方法进行了讨论和总结。由于颜色直方图缺乏颜色的空间分布信息,改进的方法包括在颜色索引时加入空间位置信息和基于区域的颜色查询。最简单的方法是子窗口直方图
文档评论(0)