第10章数字视频的编码原理与标准.pdfVIP

下载本文档

24
0
约2.71万字
约 18页
2018-02-19 发布于浙江
举报
版权申诉

第10章数字视频的编码原理与标准.pdf

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第10章数字视频的编码原理与标准

第十章数字视频编码原理与标准在第八章给出的显示YUV 视频文件的程序里，读者看到，一个仅仅包含了300 帧，且采用了4:2:0 采样格式（数据量较之4:4:4 格式已经减少了一半）、图像大小仅为352x288 的视频文件，就占用了43.5MB 的存储空间。假设我们以每秒30 帧的速度播放它，这段视频只能能够维持10 秒钟。以此推算，播放1 分钟同样格式的视频，需要1800 帧，占用261MB ，如果播放1 小时，则需要108000 帧，占用15660MB，也就是15GB 多。这个例子说明，未经压缩的视频文件是非常庞大的。所以，必须研究高效的视频压缩算法，这也是多媒体技术的重要课题之一。本章首先分析视频压缩的一般原理，然后介绍当前流行的H.26x 和MPEG 系列的视频编码标准。 10.1 视频编码算法 10.1.1 编码原理我们知道，视频就是图像序列，要压缩视频，当然可以对每一帧图像均采用前面介绍的静态图像压缩技术的JPEG 方法进行编码。但是，这样做并不高明，因为它没有利用相邻帧之间的相似性。其实，视频序列的相邻图像之间存在很大的相关性，也就是相似性，由于这种相关性是在时间上前后帧之间发生的，所以被称为时间冗余（Temporal Redundancy ）。图 10-1 是Forman 视频中的第59、60、61 和62 帧，可以看到，同一个场景中的相邻图像差异很小（注意观察嘴部，可以看出一点变化），这就是说，后一帧图像有很大一部分重复了前一帧的内容。所以，如果能够设法减少时间冗余，则可以大幅度提高视频压缩编码的效率。图10-1 Forman 视频中第59、60、61 和62 帧（依从左到右、从上到下顺序）基于上述观察，人们提出了视频压缩编码的基本原理。核心思想是，对于相关的视频图像，发送端不一定必须把每帧图像上所有的像素都传给接收端，而只要将图像内容（或摄像机）的运动信息告知接收端，接收端就可以根据运动信息和前一帧图像的内容来更新当前帧图像，这就比全部传送每帧图像的具体细节所需的数据量要小得多。 10.1.2 编码算法的基本框架要实现上述思想，需要建立一个完整的视频压缩框架，其中核心问题是如何从视频中提取图像的运动信息。编码器首先需要将视频图像分成三种类型。第一种是帧内编码图像，也就是以静态图像编码方法压缩的图像。这种帧内编码图像又称I 帧（Intra pictures ），其中I 即取自英文Intra 一词的首字母，意思是“内部的”。可见，I 帧就是利用图像内部的相关性进行压缩的图像，它没有利用相邻图像的时间冗余特性。典型的帧内编码算法就是JPEG 。第二种图像被称为 P 帧（Predicted pictures ），其中P 取自英文的Predicted 一词，意思是“预测的”。技术上，P 帧就是指对其施加预测编码的图像。这里的预测编码是通过首先为待编码图像（也就是 P 帧）确定一个预测图像（又称参考图像），例如I 帧，再计算编码图像与预测图像之间的差值，并进一步压缩差值的一种编码方法。显然，这里的预测编码与我们熟悉的差分PCM 技术类似。第三种图像被称为B 帧（Bidirectional prediction ），其中B 取自英文Bidirectional 一词的首字母，意思是“双向的”。技术上，B 帧就是指对其施加双向预测编码的图像。双向预测编码是通过为待编码图像（也就是B 帧）确定两个预测图像（这就是双向之意的来源），例如相邻的I 帧和P 帧，再计算编码图像与这两个预测图像之间的差值，进而计算两个差值的平均值，最后压缩平均差值的一种编码方法。图 10-2 给出了视频序列中 I 帧、P 帧和B 帧的一种排列方式，其中箭头代表预测图像（即参考图像）与待编码图像之间的作用关系，例如I 帧是P 帧的参考图像。图10-2 视频序列中I 帧、P 帧和B 帧的一种排列方式在对视频图像进行分类的基础上，编码器依次对不同类型的帧施加帧内编码、预测编码和双向预测编码即可完成整个视频的编码。这就是视频压缩编码的基本原理。帧内编码无需再介绍，因为实际上就是JPEG 算法。下面分别介绍预测编码和双向预测编码。图10-3 是预测编码的基本过程。实际上，计算编码图像与预测图像之间的差值并不是直接对两幅图像进行相减运算，而是将待编码图像分割成