腾讯音视频实验室杰出科学家刘杉演讲全文我

来源:塘沽互联网平台 2019-06-20 13:49

腾讯音视频实验室杰出科学家刘杉演讲全文:我们处于视频编解码标准制定的起点

(公众号:) AI 科技评论消息,12 月 28 日,腾讯社交络事业群(SNG)主办的 TSAIC 大会于深圳举行,据了解,这次旨在连接学术与工业界的会议,采取定向邀请的方式,吸引了 150 名海内外的学者前来交流。

本次会议上,腾讯集团高级执行副总裁、SNG 总裁汤道生与量子实验室杰出科学家张胜誉、优图实验室杰出科学家贾佳亚、音视频实验室杰出科学家刘杉出席了本次大会。

作为腾讯 SNG 布局 AI 的「三驾马车」之一,音视频实验室于今年 5 月推出了自研的图片格式 TPG,这一技术的文件大小在同等质量的前提下,所产生的文件大小明显小于主流图片格式。

而于今年 11 月刚刚加入腾讯音视频实验室的刘杉博士,在会上做了题为《视频编解码国际标准》的主题演讲。通过分享视频编解码领域的核心技术和历史变迁,刘杉分享了她作为多次担任标准组织技术分组与专家小组的主席和联席主席的心得体会与技术探讨。与此同时,刘杉认为,目前所处的阶段应该被视为下一代视频编解码标准制定的一个起点,而非终点。她也表示,在视频编解码方面,腾讯会持续进行技术研究和标准布局,为用户带来更好的体验。

在圆桌讨论环节中,刘杉用「开放/自由」这两个词表达了她在加入腾讯后的初印象,认为腾讯给予了实验室团队非常多的研究空间,而平时长驻硅谷、如今是第三次来到深圳的她,也坦言深圳的天气给她留下了非常良好的印象,并欢迎有志之士加入腾讯,与她一同在位于硅谷的研究中心开拓创新。

刘杉,本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系,现任音视频实验室杰出科学家。刘杉加入腾讯之前,曾任华为美国多媒体实验室主任兼视频标准首席科学家和全球项目负责人;在此之前担任联发科美国视频和视觉技术开发部主任。

在联发科任职期间,组建联发科美国多媒体标准团队并帮助公司实现了在视频编解码和系统等标准领域从零到一的突破。作为主要发明人和联合发明人的 50 余篇技术提案被 ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等国际标准采纳。于 2013 年荣获联发科最高荣誉研发金奖以表彰在标准领域对公司的贡献。

在此之前还曾担任 MERL 主任研究员、IBM 客座研究员、索尼资深算法工程师等职。她曾多次担任标准组织技术分组与专家小组的主席和联席主席,并多次在国际顶级学术会议担任领域主席、论文评审委员或做邀请报告。发表了超过 30 篇专业期刊和会议论文,是超过 200 个美国和全球专利申请的发明人,其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中。是 ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主编之一。

以下是刘杉演讲全文, AI 科技评论做了不改动原意的整理与。

非常高兴也非常荣幸来到这里跟大家做一个分享。我今天分享的主题是「视频编解码国际标准」。

在分享之前,我简单介绍一下我自己。跟刚才两位嘉宾的背景稍稍不一样,我是来自工业界的博士,之前在一些公司工作过,做过研究、也做过产品。如果在座有同学想了解博士在工业界的心路历程,欢迎大家找我分享。

这些年我的工作的内容主要在视频编解码和传输,也包括前处理,后处理和一些比较宽泛的多媒体相关项目。近几年我们聚焦在视频编解码的标准制定,也是今天我要跟大家分享的一个内容。我是刚刚加入腾讯的音视频实验室。

言归正传,今天分享的主题主要包括两个部分,一个部分是视频编解码,另外一部分是其标准化。最后我想花一点时间介绍一下音视频实验室现有的一些研究成果和场景。

我认为知道为什么要做一件事对任何一个项目来说都是至关重要的。之所以要做视频压缩这件事,因为视频的数据量是非常非常大的,大到什么程度呢?举个简单的例子,有一部两个小时的电影,HD 格式,每秒 60 帧,现场有没有视频编解码背景的同学可以告诉大家,这个电影如果不压缩文件会是多大?

(某位现场嘉宾:「50G。」)

我们大家一起来做一个快速算术,1980×1080 像素每帧,60 帧每秒, 2 小时就是 120 分钟,如果不压缩是大约 2.7TB。那就是说你花大概一百美金买一个移动硬盘可以装这样一部 HD 电影。那如果我们说价格低要求用 SD 格式, 30fps, 如果不压缩也需要大约 224GB。你的手提电脑大概可以装两部这样不压缩的电影。同样,如果不压缩,我们需要传输的带宽是很大的,HD 60fps 的视频内容如果不压缩需要大约 3Gbps 的带宽传输。SD 30fps 的视频内容也需要大约 250Mbps 的带宽。

我花了一分钟的时间来做这个数学,是要说明,视频压缩这件事情不是重要的,而是必要的。一件事情如果是必要的,我们就要去做。

什么是视频?为了做视频压缩,我们首先要了解什么是视频。简单讲,视频是一组图片,但是它不是一组随机的图片,而是有运动关系的图片,我们做视频就要抓住两个点:运动关系和图片。

基于这两个基本点,视频压缩技术可以大体分为两类:一类是针对图片压缩的,比如 chroma sub-sampling、 transform、quantization、 熵编码等;另外一类是针对运动关系的,比如运动估计、运动补偿和一些相关技术。

下面我们一起对这些基本技术做一个快速简单回顾。第一个是 chroma sub-sampling。我们把图片从 RGB 转换到 YUV 然后对色度做一个 sub-sampling,从 YUV444 到 YUV420. 这件事对博士来说完全没有什么技术含量,但是我们立刻可以节省一半的数据带宽。

下面这个有一点技术含量了,是 transform。Transform 是把信息从空域转移到频域,以达到 decorrelation, energy compaction 的目的。我们在视频编解码里面最常用的是 DCT,最近的标准里面也开始引入了 DST。还有其他的一些还在探讨之中。

Transform 之后是 quantization。(PPT)右上角是一个举例的 quantization matrix,左下角是一个举例的 coefficient matrix,我们用 coefficients 除以 quantization 系数就得到右下角这个 quantized coefficient matrix。我们做压缩的看到这个会很兴奋,因为我们看到很多很多的 0,然后我们会用一个遍历,比如 zig-zag, 来调整这些数字的顺序。看到调整后的数据我们会更加高兴了,因为有更多连续的 0,这是为下一步做准备。下一步是 Entropy Coding,是一种无损压缩方式,可以把文件压缩的更小。

刚才快速分享了几种针对图像压缩的技术。

我们再回到刚才讲的什么是视频,视频就是运动关系和图片。图片方面我们已经讲了,下面我们要看一下运动关系这部分。这里有一个简单的例子。这是一个视频里面的三帧,我们可以看到它们之间有很明显的相关性。视频时域压缩技术就是要找到相邻或相近图片的相关性从而去除时域上的冗余度。为了更好的利用图片之间的时域相关性,我们引入运动补偿。而我们真正在做视频编解码的时候,不像很多领域那样做的会去做 object detection、segmentation 等等,在主流的视频编解码解决方案或标准里面我们还是用块状的方式,所以对于运动补偿方面有很多相关技术,比如说预测单元的划分,运动矢量本身的预测和编解码等等。我们真正在标准制定的时候,关于运动补偿的这一大块,通常都是划分成很多个技术分组来具体讨论它相关的各个技术子级和细节。

有了这些主要的图片压缩和处理运动关系的技术模块,我们就可以得到一个简单的视频编码器示意图和一个简单的视频解码器的示意图。

刚才给大家看的是最简单的 video codec block diagram,大概是 MPEG-2 之前的编解码器状态。经过这二三十年的演变和进化,现在 video codec 已经变得复杂了很多,有更多模块,也有更多技术细节。这是近期 HEVC/H.265 的 Video Encoder,待会儿我会再详细讲这个标准。

花了几分钟时间,在座各位已经是视频编解码的专家了,我们可以进入下一个内容,视频压缩标准。

视频压缩标准在讨论视频压缩标准的一开始,我们仍然要问 Why? 为什么要做这件事。道理也很简单,压缩过的视频是不可读的 binarized bitstream, 从某种角度讲,压缩如同加密,如果没有一个大家都公认的协议或者密码本这样的东西,Apple 压缩的视频内容就没有办法被 Orange 解压缩。所以为了让世界上任何以某个厂家、产品或 App 压缩的视频内容可以被任何其他人解压缩和播放,我们就需要全世界人民都接受的标准。

标准,尤其是国际标准,就不是一个人、两个人都说了算的东西,它需要有标准组织根据严格的流程来制定。有两个历史比较悠久的国际标准组织,其中第一个是 ITU,在它下面有一个工作组是 VCEG,负责研究视频编解码的技术和制定标准;第二个标准组织是 ISO/IEC JTC 1, 在他下面有一个工作组是 MPEG,负责是在 ISO/IEC 下面研发视频编解码的技术和制定相关标准。

大约两年前一些公司联合发起了一个新的标准组织 AOM,致力于制定不收费的视频编解码标准。还有一个标准组织,我觉得也是非常重要的:AVS,是我们国内的标准组织。近些年 AVS 做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

我们来梳理一下时间线。早在 1984 年 ITU 已经制定了第一个标准 H.120,因为比较早,可能现在周围熟悉它的人不多;到 1990 年推出了 H.261,这个已经是被大家广泛使用的;1993 年 ISO/IEC 推出了 MPEG-1 Part2,VCD 用的就是这个格式;1995 年出了 H.262/MPEG-2 Part 2,这个标准是 ISO/IEC 和 ITU 两个组织共同制定的。

我不知道在座多少同学用过 DVD?DVD 这个格式我们小时候用了很久,DVD 这个格式就是用了 MPEG-2,数字电视广播在很长时间里也是用的 MPEG-2 Part2,直到今天很多数字电视广播还在用 MPEG-2。到 2003 年有了 H.264/AVC,像 Blu-ray、HD-DVD 这些格式都是用这个标准,很多新的电视节目也都是开使用 H.264,还有 OTT。又过了大概十来年,我们推出了 H.265/HEVC 标准。

无论是从 MPGE-2 到 H.264 还是从 H.264 到 H.265,我们通常认为的每两代重要标准都做到了压缩率翻倍。

HEVC,怎么在前一代标准的基础上做到加倍压缩?下面花一点时间讲一下 HEVC。HEVC 在 2007 年左右开始预研,到 2010 年初 CfP, 之后经历了两三年全世界的公司、大学、研究机构一起努力,在 2013 年出台了 Version1,包括 main、main10、main still picture profiles。2014 年出版了 Version2, 包括 RExt, SHVC, Multiview

腾讯音视频实验室杰出科学家刘杉演讲全文我

。2015 年出版了 Version,加入 3D。2016 年出了 Version4,也是 HEVC 的最后一个版本,包括之前的所有内容并加入 Screen Content Coding。

制定标准是一个蛮艰苦的过程,不过努力的工作一般来说回报都是不错的,HEVC 今年获得了第 69 届的艾美工程奖,我也非常荣幸受邀参加了这个盛会。必须指出的是,虽然参加艾美奖活动的人只有十几个,但是这套标准的制定积累了上千个工程师和科学家、研发人员的努力。

那我们一起来看一下 HEVC 是怎么在前一代标准的基础上做到加倍压缩的。这里是一个 H.264 的 Block Diagram,H.265 在此基础上对每个模块都做了很多改进,引入了新的技术甚至是新的模块。由于今天时间有限不太会讲的很具体,因为每一个技术又是一个新的讲座。

首先关于编码和预测单元的划分。做过 264 的同学都知道,H.264 里面用的是 macroblock 的单元结构。在 265 里面我们用了更大、更多种、更灵活的单元划分方式,并且它是递归的。在 Inter Prediction 方面,我们也做了不少新技术,包括更多形状和大小的预测单元、Merge mode、AMVP, 新的 DCT based 插值滤波器,等等。在帧内预测方面,对比 264 里面 9 个 luma intra modes, 4 个 chroma intra modes, 265 用了 35 个预测模式对 luma, 其中包含 33 个方向性预测模式和 DC mode、 Planar mode。为了更有效的压缩,35 个预测模式的压缩方法也比 264 做了更新。在 transform 方面,除了变换模块可以更大,变换模式也在 DCT 之上引入 DST,并且是根据预测模式进行切换。同时扫描方式也更灵活, 引入水平扫描、垂直扫描, 并根据预测模式进行切换。在环路滤波器方面,除了对 deblocking filter 进行改进还引入了一个新的环路滤波器 SAO。还有很多技术,今天因为时间关系只能浮光掠影地讲一下。有兴趣的同学欢迎线下找我讨论技术细节。

我们来做一个 265 和 264 压缩效率的比较。我们可以看到在所有的测试序列和测试条件下,平均来说 265 比 264 的压缩效率提升了 %, BD-rate。如果单单把 HD 测试序列拿出来看,265 比 264 的压缩效率提升可以到 %。我们做视频、视觉或者图像的同学都知道,数据是一回事,主观感受也是非常重要的。我们也请了专门的人做主观测试,结果是对于 HD 测试序列 265 比 264 可以提升 67%,对于 SD 测试序列 265 比 264 仍然可以提升 49%。这些数据都显示 265 对比 264 达到了一个压缩翻倍的目标。

做标准的人是永远不会停下来的,标准这个事情是一代一代可以一直做下去的。对于下一代标准(还没有正式名字,暂时称「266」)的预研大概在 2013 年、2014 年很多公司就开始了,2015 年 10 月的时候,ISO/IEC、ITU 这两个相爱相杀这么多年的组织决定一起来做下一代标准,成立了 JVET。又经过了两年时间的共同研究,在今年十月标准组织发了正式的 CfP,明年初全球的公司、学校、科研人员又会带着他们的解决方案来一起讨论,在未来两三年时间里面我们又会很努力的工作,争取在 2020 年底完成下一代标准的制定。

刚才讲我们对「H.266」已经做了很多预言,这张图展示的是现在已经公开的一些编解码工具,把这些工具放在一起,我们看到对于 4K 和 2K 的情况,我们已经有 35% 的 coding gain。这给了我们一定的信心可以努力去做出下一个压缩翻倍的标准。需要指出的是,这是一个起点,不是一个终点,在未来两三年里面,我们会进一步把 coding gain 的数值增大,把编解码复杂度降低,带给大家更好的体验。

这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。

腾讯音视频实验室现有成果和场景下面我用简单一两分钟时间介绍一下我们音视频实验室的一些其他成果和场景,也让大家感受一下我们实验室除了做充满数据的编解码之外还有一些可能更有趣的工作。

比如降噪,比如低照度处理,比如视频超分,等等。因为我们要落地产品,所以我们的算法实质性要求很高。比如说这个任意目标跟踪组件,它可以跟踪一个移动很快的物体,当物体旋转、颜色有改变,或者是被部分遮挡住的时候也不会丢失。在 iPhone 7+ 上测试是每秒一百帧的速度。我们的 TPG 组件提供了一套完整的图像压缩解决方案,被用于 空间, 浏览器,腾讯管家,腾讯,腾讯体育,天天快报等多款公司产品。

另外我们实验室在语音方面也有很强的技术积累,一些成果比如语回声抵消、降噪、变声、3D 音效等等,欢迎同学们下午到我们音视频实验室分论坛进行深度技术交流和体验 demo.

我们也在探索跟 AI 相关的课题,AI 语音降噪和分离,包括 AI 的语音美化。我们不仅只美化样子,还要美化声音,这是全方位的美化。还有 AI 辅助的音视频的质量评估,流控,DL 辅助视频编解码等等。

以上是今天一个简单的分享,非常感谢大家。

更多精彩资讯敬请关注 AI 科技评论。

版权文章,未经授权禁止转载。详情见转载须知。