多模态内容分析的短视频推荐技术研究.docVIP

多模态内容分析的短视频推荐技术研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档,助力人生,欢迎关注小编! 多模态内容分析的短视频推荐技术研究 摘要:当前信息媒体时代涌动着大量的短视频信息,如何从大量的短视频资源库中快速准确选择合适的视频是目前短视频推荐技术关键。基于多模态的特征分析、结果分析、混合分析技术,本文提出了一种端到端的短视频三元素信息综合处理框架,从文字、图像、语音三元素实现特征提取,并完成三元素的语义表征。这种短视频推荐技术更加灵活、透明,视频处理及推荐效率更高,能够满足当前媒体时代的发展需求。 关键词:视频处理;多模态;推荐;文字;图像;语音 一、引言 当前,短视频推荐技术是人工智能及大数据分析研究领域重要的组成部分。而短视频总时长短,但所表达的内容十分丰富,表达形式也多种多样。为了实现短视频多元素的准确解析,需要实现以文字、图像、语音为三元素的多模态短视频处理[1]。具体来说,文字信息是短视频所呈现的外部标记数据,目前可通过爬虫抓取技术实现文本信息检索[2]。图像信息是通过帧处理手段从短视频中按一定时间间隔抽取帧图像数据,目前图像的格式文件类型较多,如jpg、png、bmp、gif等,不同类型的图像文件帧结构和像素组成完全不同[3]。语音信息是短视频中存在的立体声背景音乐,这种音乐语音同样具有不同的格式,有:rmvb、avi、mkv、flv等,不同的语音格式也需要进行不同的技术处理[4]。因此,对于短视频推荐技术,需要充分理解上述三个文字、图像、语音信息的处理结果,并进行综合分析,才能得出最佳的推荐结果。本文基于多模态内容分析技术,提出了短视频的三元素信息综合处理框架,形成統一的信息表征,并在语义层面实现多模态短视频的三元素的要素处理。 二、短视频中的多模态内容分析 多模态内容分析在短视频推荐应用中具有重要作用。一般而言,这里的多模态中的“模态”可以理解为短视频元素特征,泛指媒体信息特征,因此,多模态也就是短视频的多种元素特征集合或媒体类型。在本文的短视频推荐技术中,多模态特指短视频的多种元素特征集合。为了实现短视频的多模态数据分析,需要对多模态短视频进行分类、聚类、推荐和检索操作,完成短视频的多个模态内容分析。当前,短视频的多个模态内容分析可以划分为3种,分别为:特征分析、结果分析、混合分析。 (一)特征分析 特征分析也叫预先分析,是指在进行短视频推荐之前需要预先把文字、图像、语音元素模态的特征进行整合。特征分析的模态推荐过程如图1所示。 特征分析主要有两种实现方式,分别为特征衔接和特征变换。特征衔接是将不同的文字、图像、语音元素特征向量组合成统一特征向量。这种实现方式十分简单,不需要对元素进行特殊处理。但是,组合后的多模态特征并不能完全反映出短视频的数据表征形式。此外,特征衔接获得的统一特征向量维度大,计算复杂度高,需要采用相关向量降维手段进行降维处理。大部分维度低的多模态特征分析通常采用这种特征衔接方法。 另一个实现方法是特征变换,特征变换基于模态特征之间的内在关系进行分析,并将内在关系映射在一个统一维度空间中。但特征变换需要假设全部的模态特征具有相同的共享特征单元。特征变换常用的特征分析方法有:神经网络、矩阵分解等。这些特征分析方法可以学习不同模态之间的联系,因此特征变换可以很好地应对高维度、跨模态的特征分析。取得成果有:跨模态数据检索,高维图像标记。 可见,特征分析可以在短视频内容分析的初始阶段采用文字、图像、语音特征来解决推荐问题,同时只需要一个训练过程,操作简单实用。但是,该方法特征分析无法控制不同模态特征之间的同步性。 (二)结果分析 结果分析也叫滞后分析,将各个模态单独处理结果进行一定方式的信息整合,从而得到最终结果,结果分析的模态推荐过程如图2所示。 结果分析相比于特征分析存在如下优势:第一,元素模态特征不需要以相同的格式进行表示。同时,结果分析得到模态特征表示方法近似,因此结果分析更加便于后续处理;第二,结果分析的扩展性更高,针对不同的模态应用场景可以适当增减模态数量,而特征分析则难以实现;第三,每个模态可以选择不同的方法进行特征处理,处理手段更加灵活,针对性更高,适应性更强。 结果分析最常用的实现方式是线性加权。为了把握说话人的信息,对说话人信息的音频和视觉进行特征提取,然后通过信息训练来计算模态特征的可靠性,进而得出模态特征权重,这就是线性加权表征的模态结果。线性加权加可以对文字、图像、语音等多模态结果进行动态分析,从而确定适合线性加权的数据集。除此之外,线性加权可以实现语音与图像的同索引表示,更加提高了语音与图像的检索效率。线性加权经过多年的演化目前已经得出一个新的结果分析函数,也就是“注意力分析函数”,这个函数通常应用于图像分析与

文档评论(0)

s64851 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6120215050000015

1亿VIP精品文档

相关文档