基于词袋模型微课视频跨媒体检索研究.docVIP

下载本文档

7
0
约5.79千字
约 11页
2018-08-30 发布于福建
举报
版权申诉

基于词袋模型微课视频跨媒体检索研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于词袋模型微课视频跨媒体检索研究

基于词袋模型微课视频跨媒体检索研究　　摘要摘要：针对互联网微课视频检索问题，通过网页标注分析和文字识别提取文本特征，采用SURF特征和Mel倒谱系数分别提取视频关键帧和音频帧特征，再通过特征聚类构建文本、图像和音频词典。结合TFIDF机制构建视频的文本、图像和音频描述向量，再采用两阶段检索实现跨媒体检索。该模型为微课视频的跨模体检索提供了解决思路，具有实用价值。　　关键词关键词：词袋模型；微课；SURF；K-Means聚类；TFIDF；跨媒体　　DOIDOI：10.11907/rjdk.1511378 　　中图分类号：TP319 　　文献标识码：A文章编号文章编号2016）002012303 　　0引言　　在信息技术的推动下，人类社会进入了新媒体时代，微课、慕课和翻转课堂等在线视频教育模式逐步兴起和推广，互联网上的教学视频资源呈爆炸式增长。一方面，海量视频资源为知识传播提供了便利，另一方面急剧膨胀的视频资源规模给视频资源搜索带来了困难。传统的视频资源检索方式主要依赖视频中的手工标注文本或图像内容进行检索。手工标注方式费时费力，标注信息不能完整反映视频内容，并且带有一定的主观性，因此迫切需要一种针对多媒体的检索方式以快速、准确地检索所需要的视频资源。　　基于内容的跨媒体检索方式为多媒体检索提供了解决方案。视频是一种图像、语音和文字等多种模态的媒体以某种特定的规则组成的有序媒体形式[1]。不同媒体形式在底层特征上可能千差万别，而在高层语义特征上却相互联系。不同语言在表现形式上可能完全不同，但在语义上却是相通的。跨媒体分析和检索的主要目的就是发现这种隐含的语义关联。微课视频通常围绕某个知识点展开，时长在10分钟左右，主题比较明确，为检索提供了便利。本文通过词袋模型和TFIDF技术，搭建不同媒体之间的语义桥梁，利用各种媒体存在的相关性找到用户感兴趣的不同类型的媒体对象，学习者可以根据需求通过文字描述、图像或视频片断来检索。　　1系统模型　　词袋模型的思想来源于自然语言处理和检索，在自然语言理解过程中，将文档看成是由词汇构成的无序集合，根据文档中词汇的各类统计信息来完成文档分类。与文本相似，图像是由图像子块构成，图像子块是视觉意义上的词汇，可以将图像理解为由视觉词汇组成的无序集合。比如，人脸图像可理解为装有眼睛、鼻子、嘴巴和耳朵等视觉词汇的袋子[2]。　　基于词袋模型的跨媒体的检索系统分为视频索引库构建和在线检索两个部分。视频索引库构建包括数据采集、特征提取、词典构建、描述向量生成等模块，系统流程如图1所示。　　词袋模型用于视频检索的具体实现过程如下：　　（1）多模态数据局部化。通过关键帧识别提取关键帧数据，通过音频数据分帧得到音频帧，采用网页标注抓取和文字自动识别技术获取文本信息。　　（2）特征提取和描述。对视频关键帧和音频分别采用SURF算法和Mel倒谱系数提取相应的图像和音频特征。　　（3）采用聚类算法生成音视频词汇和词典。采用K-Means算法对音视频特征进行聚类，并构建词汇和词典。文本信息采用分词技术形成文本词典。　　（4）采用TFIDF算法生成各模态的描述向量。针对3种模态的词汇，采用TFIDF算法计算各词汇的重要程度，并构建3种模态下的描述向量（即词袋）。一个视频文件由3种模态的词袋来表示。　　（5）跨媒体检索。通过视频文件与3个描述向量之间的关联关系构建视频索引库，比较用户查询与描述向量的相似性，向用户提供跨媒体检索服务。　　2局部化与特征提取　　一个微课视频主要由文本、视频和音频3种模态的数据组成。微课视频文本包括视频所在网页上的标注文本、黑/白板或PPT上的文字以及字幕等。网页上的标注文本通过爬虫自动抓取，而黑/白板和PPT上的文字通过OCR技术识别。通过采集这些文本，然后进行分词处理，得到视频文本词汇。　　从视频结构化角度分析，采用不同的粒度可以将视频分为帧、镜头、场景。同一镜头的视频帧之间存在时间和空间冗余，镜头可以用其中的关键帧来表示，因此词袋模型场景的关键帧为单位提取视觉词汇。采用帧间差法、颜色直方图或矩不变量等方法可以检测镜头的边缘，并用边界镜头、颜色特征或聚类分析等方法提取关键帧。SIFT是经典的图像特征点检测和提取算法，SIFT算法提取的图像局部特征具有很强的独特性，对图像平移、缩放、旋转和噪声都具有较强的鲁棒性，但计算复杂度较高。SURF特征提取算法是SIFT的改进算法，SURF算法采用积分图和箱式滤波器建立金字塔尺度空间，然后在尺度空间上进行特征点筛选，提高特征点检测速度，并采用Harr小波响应的和作为生成特征描述子的要素。SURF特征不仅满足尺度、平移和旋转的不变性，而且对仿射、透视和光照变化具有部分不