- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国工程院院士高文多媒体大数据分析与搜索
现代社会中,大数据来源丰富,更直接让交通、医疗卫生、教育、安全等发生变化,而在智慧城体系中,监控视频是体量最大的大数据。基于此,今天,我主要分享媒体大数据的三个挑战问题。第一,存不下,24小时产生的数据量积累得很大。第二,看不清,用眼睛看,横看竖看,还是看不清楚,可能有时候都要猜来猜去,还需要很有经验的人才能看出来大概。为什么?存的时候做了压缩,压缩时不知将来作何用,为了节省存储量,压得太狠了,再把它解开时基本看不清。第三,找不到。现在摄像头到处都是,摄像头拍到了,但是不是想要找的?不知道,即使看清楚了,一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。一、存不下:视频压缩率增长数据量增长,超高效视频编码解决压缩问题。第一个挑战,我们想办法找到最高效的编码来应对这个挑战。视频流是图像序列,在每个单独的图像里是有冗余的,通常这个冗余我们把它叫作“空间冗余”。相邻的像素或相邻的图像块会有一些相关性,这些相关性即是“冗余”,这种冗余可以通过滤波器的算法进行估算。如果参数对了,就可以用它去做预测,继而找到一些更简洁的表达方式,使得你表达信息不需要那么多比特就可以压缩了,这就是空间冗余。其次是时间冗余,即一个图像序列,第一帧和第二帧有很多是连续的,背景几乎是一样的,它有很多东西是重复的,这个重复的就是冗余,我们管它叫“时间冗余”。第三种是感知冗余,这个是为了大众化一点才这么讲,行业里的人把它叫“编码冗余”,比如26个字母要表达,怎么表达?给出8个bit或7bit,每个字母给的bit是一样的,学计算机的人都知道这种分法是不科学的,应该怎么分?按照它的信息熵来分,图像也是一样,每个像素表达的亮度、颜色在每类里分布不均匀,最好把出现概率高的那些单体给它比较短的码,把出现概率低的给长码,统计上面就会比较合理,对此我们称之为“熵编码”。如果这三种用好了,就有办法把图像或视频完美地压缩下去。现在图像压缩实际达到的现状和理论上到底有多大差别?很大,但同时空间也很大。到现在为止,不管是多好的编码技术,离理论上限大概还有百分之八九十的空间可以改进,因为我们数学上很容易证明理论上限,若干个上限中我可以取最低的上限,就很容易计算出有多大空间可以继续改进。这就是为什么视频编码领域这些年还在不停地发展,并且,每十年编码效率就会提高1倍。视频压缩效率“倍增定律”在这样每十年翻一番的情况下,到底什么东西改变了?其实是算法更复杂了,很多靠计算的复杂度换取了编码的效率。当然,这里有很多新的算法,以前因为硬件比较贵,不能让编码的器件成本太高,所以有些算法还行,只要算法太复杂就基本不用。现在不在乎这个,因为集成电路发展以后,复杂点就复杂点吧,只要你想得出来,时限上不会在给定时间内完不成,算法愈来愈多,编码放进去后视频效果会越来越好。针对监控视频我们会有更好的方法,使得它的效率可以做得更高。刚才说的是从编码的角度,我们有去空间冗余、去时间冗余和去编码冗余三种技术,来把视频流里的冗余去掉,这三种技术包含了许多算法,有变换、滤波、运动补偿、熵编码等等。分类就是像刚才说的,去空间冗余最主要的工具是变化,把时域变到频域上再进行处理,对于空间的冗余主要是采用预测编码的方式去除,对于感知主要是通过熵编码去除。压缩性能来源估计(倍数)再细分一下,这三代到底是哪个工具做了多大的贡献?上图左边两列,色彩空间和这几代大概贡献度是6倍,第三类是预测与运动估计。这一块每一代是不一样的,比如第一代贡献3左右,第二代贡献6左右,第三代贡献10左右。熵编码这三代有点变化,但是没有构成成倍的变化,基本大约是3倍左右。所以乘起来,针对高清视频,第一代是75倍,二代是150倍,三代是300倍,我们正在做第四代,希望做600倍。刚才我们说第一代、第二代、第三代,它的应用场景是什么?应用场景是电视、电影,因为我们什么东西都是需求拉动的,它最大的需求是什么?过去30年一直是广播电视和电影,广播电视和电影有个假定,即场景要经常换。为什么?场景不换,人的注意力就会失散掉,很有可能就打瞌睡睡着了。所以,它有一个假定是最长30秒就必须换掉场景,这样人脑能被抓住,随着情节的演化,人能够深入进去。这个假定已经被视频编码界广泛接受,也就是说背景是要经常换的。并且,经过反复实验,认为0.5-2秒为最合适的间隔。但是如果应用于监控,故事就不一样了,这是为什么?因为一个场景长时间不变,这时候假定是错误的。现在监控里面用的算法和广播电视一模一样,只不过有的厂商比较聪明一点,说咱们能不能别2秒钟就切换,能不能再长一点,比如弄1分钟、2分钟,有这样的案例,效果也确实提高了一些。但是又有一个问题,尽管场景是不换的,但镜头拉得近的时候,场景里面公交车站分之一画面,你也不知道它什么时候进来,刚好你切换时公交车在里面,切换完公交车走了
您可能关注的文档
最近下载
- 墙面软包施工的方案.doc VIP
- 中国古典舞身韵-云肩转腰、云手 教案-2021-2022学年舞蹈美育七年级上册.doc
- YBT 153-2015 优质结构钢连铸坯低倍组织缺陷评级图.docx
- 湖北省武汉市部分重点中学2023-2024学年高二下学期期末联考数学试题含答案.pdf VIP
- 从生物视觉到机器之眼:生物启发式视觉识别模型与算法的深度探索.docx
- Airport English 机场英语 (详细精美图文对话单词介绍解说).ppt
- 土地整理施工方案及技术措施.docx VIP
- 19S306 居住建筑卫生间同层排水系统安装(高清版).pdf
- 工程材料力学性能第3版束德林习题答案.docx
- 2024年河南省中考语文真题(附答案解析).docx
文档评论(0)