基于运动目标多模态信息融合视频检索方法.docVIP

下载本文档

6
0
约2.62千字
约 6页
2018-06-25 发布于福建
举报
版权申诉

基于运动目标多模态信息融合视频检索方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于运动目标多模态信息融合视频检索方法

基于运动目标多模态信息融合视频检索方法　　摘要：在视频监控技术不断发展的现今阶段，视频信息量呈现出高速增长的态势。本文提出一种基于运动目标多模态信息融合的视频检索方法对监控视频中的运动目标提取特征，生成相应的视频描述文件，通过匹配查询图片与描述文件中的运动目标特征最终找到相似对象出现的视频片断，极大的提高了搜索效率。　　关键词：多媒体数据运动目标多模态信息融合视频检索　　[基金资助]：2013年全国大学生创新创业训练计划立项项目（2013XKCX209）。广西高校科学技术研究项目：（2013YB092）　　引言　　随着网络和多媒体技术的飞速发展，视频数据呈爆炸式增长。如何在海量视频数据中快速、准确地找到所需信息，变的极其重要。通过对监控视频中的运动目标特征提取（如颜色、纹理、目标类别等特征），建立目标索引模型，生成相应的视频描述文件。这种将运动目标多模态信息融合的检索方法使系统的整体搜索精度大大提高。　　1、相关研究现状　　当今，基于内容的多模态信息融合的视频检索技术正在经历由理论到实际应用的特殊阶段，市场上很难见到非常成熟的产品，随着中国社会的进步，多媒体技术和网络技术逐渐渗透到各个领域。在科技大发展的今天，对各种资源进行智能化的管理尤为重要。各个相关机构都展开了相应的研究，国内基于内容的多模态信息融合的视频检索技术的研究方面具有代表性的是浙江大学研究开发的基于内容的多媒体检索系统，即webscopeCBR。该系统最大的优势在于，这是一个开放的系统，只要是用于检索用途的图像资源都可以放入庞大的数据库中。　　2、检索模块及融合模块　　视频是一种没有结构的流数据，是集图像、声音和文本为一体的综合性媒体信息。本文提出一种基于关系代数的多模态信息融合的视频检索模型。该检索模型把视频检索分成文本、图像、高层语义等若干方面，分别针对视频的不同特征进行检索，然后利用关系代数表达式完成多模态信息融合。整个检索模型的流程如图1所示。　　图1 检索模型流程　　2.1、文本检索模块　　文本检索模块主要针对视频中的文本信息进行查询，它将语音识别得到的脚本信息，字符识别得到的画面文字信息和从视频解码中得到的字幕信息进行综合整理，并对应到相应的镜头，然后利用布尔查询方法针对查询处理得到的关键词在已建立的视频文本特征索引结构上进行查询。　　2.2、图像检索模块　　图像检索模块提取了镜头中关键帧的纹理和颜色方面的若干特征组成特征库，在全局中提供近似查询。此模块可以提取多种全局特征，如：HSV颜色直方图、LAB 颜色直方图、YUV 颜色直方图、GABOR纹理特征等。查询时计算从样例视频中提取的特征与视频特征库中特征的距离，因而得到相似视频。　　2.3、高层语义模块　　高层语义模块是依据给定的高层语义建立分类器。分类器采用多模型融合以及机器学习的方法进行构造。为某一个高层语义概念构造分类器时，首先将训练集中的每一幅图像分割成4×4的小块，并针对每一个小块的纹理特征等低层特征通过降维形成高维特征矢量，然后利用向量机针对不同特征分别进行训练，得出针对不同特征的语义概念分类器，预测时将这些单个分类器的分类结果通过线性融合得到最终结果。　　我们实验中采用的是SVM机器学习的方式来做分类。在实际的学习过程中，面临着一个问题：训练样本分布不均，正样本很少，而绝大多数都是负样本。我们在负样本集上做K-Means聚类，将过量的负样本聚集到较少的类中心去，然后每个类中心代表一个负样本，大大减少负样本的数量但又不会破坏负样本的空间分布性。并且实验中发现当聚类出的个数接近于正样本的个数时，SVM分类会取得更好的效果。　　2.4、融合模块　　整个多模态模型中每个原子模块发挥着不同作用。文本搜索模块在搜索人物事件上具有较好的效果，而图像检索模块在搜索场景时表现更好。因此需要一种合适的策略将各个原子模块的的返回结果融合起来。从实际效果以及算法效率上考虑，我们在研究中创新性地使用了关系型表达式，并结合交互式信息通信的检索策略。对于交互式搜索，通过标注得到各原子搜索引擎的搜索精度，利用平均精度来作为各原子引擎融合时的权重，同时采用了线性融合策略，因此算法效率较高，适合在实际的产品中应用。　　本文采用的算法流程如图2所示，其中获取前景过程为，当前帧图像I，其RGB分量图像分别为由分别获得前景图像Dr、Dg、Db，并分别以下式二值化：　　最终获得的前景图像为：。　　图2 算法流程　　3、结果　　本文实现了一个原型系统。该系统通过道路上架设Honeywell HDC-505PV摄像机采集的监控视频以及通过网络下载获取的监控视频作为实验数据，当监控视频生成描述后，通过检索模型中运动目标的