MSU2020年度世界视频编码大赛 金山云斩获UGC赛道冠军

(原标题:MSU2020年度世界视频编码大赛 金山云斩获UGC赛道冠军

近日,莫斯科国立大学(Moscow State University)举办的世界视频编码器大赛传来好消息,金山云自主研发的KAV1编码器在UGC赛道中拔得头筹

MSU视频编码大赛是全球盛宴,在视频编码领域具有极大的影响力,迄今已连续举办了15届,每年都会吸引众多国内外重量级企业和组织参加。

本次,金山云KAV1在UGC赛道中斩获冠军,不仅证明了金山云在视频编码领域的团队实力与创新潜力,也让业界看到了AV1未来的广泛应用前景。

在UGC赛道中排名问鼎

目前,UGC(User Generated Content,用户原创内容)和PGC(Professionally Generated Content,专业生产内容)是互联网视频的两大主要来源。作为一种泛众化的传播范式,UGC拍摄的低门槛能满足普通人自我表达的诉求,因为每一个人都可以用短视频这种最为简要、直观的形式与他人和社会分享自己的观点与生活。事实上,在抖音、快手、B站等视频类社交平台,无论是长视频还是短视频,用户参与(UGC)都是更大的比重。

除了内容来源不同,PGC视频和UGC视频的区别更在于整体质量的差异。PGC视频在拍摄时就会选择更佳的光照对比度和合理的动静场景比例,在制作初期也会采用专业的编码手段来确保压制质量。与之相比,UGC的拍摄制作、压制和后期效果都是由非专业人员完成,缺少对拍摄环境的把关,制作初期会存在对焦失真、模糊和噪声大等问题,在处理过程中也会经历多次视频转码,其难度也会随着转码次数的变多而增大。

尽管如此,鉴于全球视频云服务中的主要流量是UGC,因此关注UGC编码能够更贴合实际业务场景,这也是MSU大赛UGC赛道的初衷。本次UGC赛道视频取自数个互联网头部高自由度原创视频平台,通过沿用MSU一贯使用的时空复杂度聚类方法获得,它们覆盖了多种场景。

本次UGC赛道结果显示,金山云KAV1在人工评测压缩率较Reference(X265)提升41%(去年主观赛道冠军相较于X265的提升是33%),相对于svt-av1、VP9和x264分别提升45%、71%和73%,这足以展示金山云KAV1在UGC赛道中相较于其他编码器的优势

MSU大赛现有的主观、客观、4K等赛道主要集中在AV1、VVC中,这些编码器均是为了4K、8K等高清视频而生,在一些低清场景下,其优势可能不如目前流行的x265等编码器明显。金山云KAV1作为AV1标准的自研编码器,虽然是以“一切为了高清”为目标,却也能在UGC场景中优势明显。据悉,为了本次MSU赛事,金山云专业的视频编码器研发团队在编码器和AI两个方向上取长补短,研制出了贴合人眼感知模型的KAV1。

金山云KAV1第一次参加编码器领域盛宴就能取得不俗的成绩,这表明,近年来金山云在AI和编解码方面的研发持续收获成效。

KAV1的背后功臣:感知评价指标KPA

对焦失真、模糊、噪声、场景区分巨大等因素,导致UGC视频的主观优化成为较PGC视频更有挑战性的一环。为了更好地优化UGC场景的编码效果,金山云自主研发并且发布了图像视频感知评价指标Kingsoft Cloud Perceptual Assessment(KPA)。

本次MSU大赛中,利用KPA强大的能力,金山云KAV1在继承经典视频混合框架的基础上,基于KPA重新设计了RDO目标函数,同时利用JND+KPA两者大幅度去除了人眼不感知的区域所占用的码率,包括时域空域的采集噪声、压缩带来的压缩噪声、暗场和高频集中等不敏感区域。同时,全面提升了预测、变换、量化、熵编码等各个流程的压缩效率,如采取 Warp Motion 技术提升对局部仿射运动的估计;增加 DCT-8/DST-7等变换提升残差的变换效率;精细调整每一个编码单元的QP以获得更为优良的码率分配;革新熵编码机制超越经典 CABAC 算数码。通过这些手段,金山云KAV1在确保压缩率的基础上大大提升了图像画质

(左侧) x265编码后的图像 (右侧)金山云KAV1编码后的图像

目前,能够达到商用级的评价指标非常少,学术界的评价指标主要都是针对有非常明确边界条件约束的场景。商用级的全参考评价指标目前除了PSNR和SSIM之外,就是Netflix在2016年发布的VMAF,然而VMAF是主要针对Netflix的PGC场景进行设计的,无法直接用在UGC视频当中。KPA主要针对UGC视频,并且除了通用的整体质量评价外,还包括子维度质量、局部质量等细分评价指标。

在KPA的研发过程中,通过收集各种场景下UGC及PGC视频,并保证至少50以上的专业评测人员对每个视频进行主观评测,从源头上避免数据主观评测波动和精度问题。同时,对收集到的数据,从内容、场景、质量等多个维度进行平衡筛选,在确保数据规模远超业界开源数据的基础上,提升数据的多样性。在模型层面,通过攻防设计、协同学习、困难样本挖掘等方法,提升模型的鲁棒性和精度,在UGC场景中SROCC和gMAD分数均优于业界知名的有参考算法VMAF。

在视频高清化的趋势下,用户对视频的要求在不断提升,这就会对视频编解码技术提出越来越高的要求。基于在视频编解码方面的优势,金山云始终坚持技术立业,一直在不断探索核心技术,寻求持续突破。