中国工程院院士高文多媒体大数据分析与搜索.docx

下载文档

3
0
约 4页
2017-08-07 发布于重庆
举报
版权申诉
保障服务

中国工程院院士高文多媒体大数据分析与搜索.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国工程院院士高文多媒体大数据分析与搜索

现代社会中，大数据来源丰富，更直接让交通、医疗卫生、教育、安全等发生变化，而在智慧城体系中，监控视频是体量最大的大数据。基于此，今天，我主要分享媒体大数据的三个挑战问题。第一，存不下，24小时产生的数据量积累得很大。第二，看不清，用眼睛看，横看竖看，还是看不清楚，可能有时候都要猜来猜去，还需要很有经验的人才能看出来大概。为什么？存的时候做了压缩，压缩时不知将来作何用，为了节省存储量，压得太狠了，再把它解开时基本看不清。第三，找不到。现在摄像头到处都是，摄像头拍到了，但是不是想要找的？不知道，即使看清楚了，一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。一、存不下：视频压缩率增长数据量增长，超高效视频编码解决压缩问题。第一个挑战，我们想办法找到最高效的编码来应对这个挑战。视频流是图像序列，在每个单独的图像里是有冗余的，通常这个冗余我们把它叫作“空间冗余”。相邻的像素或相邻的图像块会有一些相关性，这些相关性即是“冗余”，这种冗余可以通过滤波器的算法进行估算。如果参数对了，就可以用它去做预测，继而找到一些更简洁的表达方式，使得你表达信息不需要那么多比特就可以压缩了，这就是空间冗余。其次是时间冗余，即一个图像序列，第一帧和第二帧有很多是连续的，背景几乎是一样的，它有很多东西是重复的，这个重复的就是冗余，我们管它叫“时间冗余”。第三种是感知冗余，这个是为了大众化一点才这么讲，行业里的人把它叫“编码冗余”，比如26个字母要表达，怎么表达？给出8个bit或7bit，每个字母给的bit是一样的，学计算机的人都知道这种分法是不科学的，应该怎么分？按照它的信息熵来分，图像也是一样，每个像素表达的亮度、颜色在每类里分布不均匀，最好把出现概率高的那些单体给它比较短的码，把出现概率低的给长码，统计上面就会比较合理，对此我们称之为“熵编码”。如果这三种用好了，就有办法把图像或视频完美地压缩下去。现在图像压缩实际达到的现状和理论上到底有多大差别？很大，但同时空间也很大。到现在为止，不管是多好的编码技术，离理论上限大概还有百分之八九十的空间可以改进，因为我们数学上很容易证明理论上限，若干个上限中我可以取最低的上限，就很容易计算出有多大空间可以继续改进。这就是为什么视频编码领域这些年还在不停地发展，并且，每十年编码效率就会提高1倍。视频压缩效率“倍增定律”在这样每十年翻一番的情况下，到底什么东西改变了？其实是算法更复杂了，很多靠计算的复杂度换取了编码的效率。当然，这里有很多新的算法，以前因为硬件比较贵，不能让编码的器件成本太高，所以有些算法还行，只要算法太复杂就基本不用。现在不在乎这个，因为集成电路发展以后，复杂点就复杂点吧，只要你想得出来，时限上不会在给定时间内完不成，算法愈来愈多，编码放进去后视频效果会越来越好。针对监控视频我们会有更好的方法，使得它的效率可以做得更高。刚才说的是从编码的角度，我们有去空间冗余、去时间冗余和去编码冗余三种技术，来把视频流里的冗余去掉，这三种技术包含了许多算法，有变换、滤波、运动补偿、熵编码等等。分类就是像刚才说的，去空间冗余最主要的工具是变化，把时域变到频域上再进行处理，对于空间的冗余主要是采用预测编码的方式去除，对于感知主要是通过熵编码去除。压缩性能来源估计（倍数）再细分一下，这三代到底是哪个工具做了多大的贡献？上图左边两列，色彩空间和这几代大概贡献度是6倍，第三类是预测与运动估计。这一块每一代是不一样的，比如第一代贡献3左右，第二代贡献6左右，第三代贡献10左右。熵编码这三代有点变化，但是没有构成成倍的变化，基本大约是3倍左右。所以乘起来，针对高清视频，第一代是75倍，二代是150倍，三代是300倍，我们正在做第四代，希望做600倍。刚才我们说第一代、第二代、第三代，它的应用场景是什么？应用场景是电视、电影，因为我们什么东西都是需求拉动的，它最大的需求是什么？过去30年一直是广播电视和电影，广播电视和电影有个假定，即场景要经常换。为什么？场景不换，人的注意力就会失散掉，很有可能就打瞌睡睡着了。所以，它有一个假定是最长30秒就必须换掉场景，这样人脑能被抓住，随着情节的演化，人能够深入进去。这个假定已经被视频编码界广泛接受，也就是说背景是要经常换的。并且，经过反复实验，认为0.5-2秒为最合适的间隔。但是如果应用于监控，故事就不一样了，这是为什么？因为一个场景长时间不变，这时候假定是错误的。现在监控里面用的算法和广播电视一模一样，只不过有的厂商比较聪明一点，说咱们能不能别2秒钟就切换，能不能再长一点，比如弄1分钟、2分钟，有这样的案例，效果也确实提高了一些。但是又有一个问题，尽管场景是不换的，但镜头拉得近的时候，场景里面公交车站分之一画面，你也不知道它什么时候进来，刚好你切换时公交车在里面，切换完公交车走了