基于CNN的QTBT划分模式快速预测研究.docxVIP

基于CNN的QTBT划分模式快速预测研究.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于CNN的QTBT划分模式快速预测研究

?

?

吴海燕金智鹏

摘要为了降低编码复杂度,提升编码速度,快速编码算法成为当下研究热点,以此为背景提出基于CNN的编码单元快速选择算法框架,将QTBT编码单元选择问题转化为多分类问题,直接从编码单元中学习和提取分类特征,而不需要手动去设计和提取特征;也不需要时域和空域的相关性信息,有助于提高帧内编码的并行运算和独立解码性能。本方法还设计了一个目标函数,包括Hingeloss和类别惩罚项,能有效提高分类准确。

关键词快速编码;分类特征;帧内编码;目标函数

1研究背景

视频编码技术是有效存储和传输多媒体信息的关键技术之一,是现代信息技术中不可或缺的重要组成部分。视频编码技术已有30多年的发展历史,视频编码标准的发展历程如图1所示。当前,视频技术的发展趋势之一是追求更高的分辨率和清晰度[1],以实现对自然景物更加真实、清晰的表征。例如,日本放送协会(NHK)一直致力于4K(3840×2160像素)甚至8K(7680×4320像素)超高清视频节目的压缩和传输技术研究。但是,超高分辨率带来了视频数据的急剧增加,使得视频数据的储存和传输变得十分困难[2]。当前最新的视频编码国际标准HEVC主要面向高清(720P,1080i,1080P)视频编码[3],对于当前超高清、高动态范围、360°VR等新兴视频编码需求已经有些力不从心。因此,下一代超高清视频编码技术的研究与标准制定已显得十分迫切。

为此,2015年10月,联合视频探索工作组(JointVideoExplorationTeam,JVET)[4]在日内瓦召开了第一次会议,确定探索面向超高清视频的编码技术和下一代视频编码标准的制作工作;并成立了AdHoc小组,分领域搜集和审阅技术提案。JVET沿用了传统的预测+变换的混合编码框架[5],同时又创新性地引入了多项关键技术,如:四叉树+二叉树(Quadtreeplusbinarytree,QTBT)编码单元结构65种帧内角度预测模式,位置相关的帧内预测组合(Positiondependentintrapredictioncombination,PDPC),4抽头插值滤波,交叉分量线性预测(Cross-componentlinearmodel,CCLM),改進的环路滤波等,显著提高了压缩效率。

图2展示了JVET相对于HEVC的率失真性能和编码复杂度对比情况。但是,当前JVET的编码效率距离BD-Rate降低50%的预期目标还有较大差距,且当前JVET编码效率的提升是以极高的计算复杂度为代价的。因此,JVET工作组当前的工作重点在于提高编码质量和降低编码复杂度等两大领域。

编码质量和计算复杂度之间的平衡是视频编码领域的核心技术。本研究将借鉴当前在计算视觉领域获得广泛成功的深度学习技术,重点研究提高JVET帧内预测编码效率,具有重要的学术价值、应用价值和社会效益。

2国内外研究现状

从视频编码技术的发展历程来看,如何在复杂度和时延受限的条件下,获得最优率失真性能,是视频编码技术的核心问题。传统的快速编码研究主要是基于统计特征建模和基于机器学习特征分析的方法。例如,Shen等人探索了编码单元的RDCost与空间相邻块的相关性,据此跳过使用概率低的划分模式的RDCost计算。JVET-F0063提出跳过第二个BT子块的RDCost计算,如果父块和第一个BT子块的RDCost符合特定的约束条件。Zhang等人依据编码单元尺寸设计了三类SVM分类器,逐层判断是否需要把编码单元划分为子块。实验显示,这些算法都大幅降低了编码复杂度且保持了较好的率失真性能。但是这些算法的性能都依赖于手工设计的特征,对于复杂情况的处理能力相对较弱。

目前,基于深度学习的快速视频编码技术是快速编码领域的新兴研究方向之一。Liu等人首次将CNN引入到编码模式快速判决算法中,提出了一种基于深度学习的端到端的快速编码算法框架。该算法把每个编码单元下采样到统一尺寸的8*8矩阵,再送入CNN网络进行特征提取和分类判决,以确定当前编码单元是否需要进一步分割为子块。但是由于下采样和网络较浅等原因,该算法的BD-Rate损失高达4.79%。Li等人则为各个尺寸的编码单元都训练不同的CNN网络,各个QP下的网络模型也分开训练;再加上该算法采用了较深较宽的CNN网络,分类准确率有了提升,BD-Rate损失平均为2.12%。虽然该类基于深度学习的算法为视频快速编码研究打开新的视角,但是现有算法的应用灵活性较差,尤其是率失真性能损失太大。

3基于CNN多分类的帧内编码单元快速选择方法研究

JVET采用了许多新技术用以提高帧内编码质量,其中影响最大的技术就是四叉树+二叉树(quad-treeplus

文档评论(0)

177****2554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档