永诚娱乐 参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

发布日期:2021-09-12 03:07    点击次数:145

 

互联网视频在以前几年发生了爆发式添长,这给视频传输基础设施带来了重大的义务。网络视频传输编制的质量很大水平上取决于网络带宽。受客户端 / 服务器日好添长的计算能力和深度学习的最新挺进的启发,一些做事挑出将深度神经网络 (DNN) 行使于视频传输编制的做事,以挑高视频传输质量。这些 DNN 的手段将一整个视频平平分成一些视频段,然后传输矮分辨率的视频段和其对答的 context-aware 模型到客户端,客户端用这些训练好的模型推理对答的矮分辨率视频段。经由过程这栽手段,能够在有限的互联网带宽下获得更好的用户体验质量 (QoE)。其中,传输一段长视频必要同时传输众个超分辨率模型。

1月30日误差排行所选两场比赛均打出高热正路,周六008埃瓦尔0-2塞维利亚,打出截稿前主负奖金1.77,对应误差24%;周六009博洛尼亚1-2AC米兰,打出截稿前主负奖金1.68,对应误差27%(详见《1月30日误差排行:AC米兰客战博洛获热捧》)。今天是2月2日星期二,竞彩足球开售赛事20场,其中胜平负单固1场。

周二001-谢菲尔德联VS西布罗姆维奇:谢菲联近7个英超联赛主场输了6场;

周二014 帕尔梅拉斯 VS 博塔弗戈

周一001-汉诺威96VS奥斯纳布吕克:奥斯纳布吕克近7轮德乙联赛输了6场;

1月27日误差排行所选比赛打出两场低热冷门,周三002阿尔克马尔0-1乌德勒支,打出截稿前主负奖金3.75,对应误差-16%;周三007米德尔斯堡0-3罗瑟汉姆,打出截稿前主负奖金4.25,对应误差-15%(详见《1月27日误差排行:阿尔克马尔势头盛获追捧

近日,来自北京邮电大学和英特尔中国钻研院的钻研者最先追求了分轻蔑频段所对答的分歧模型间的有关,然后设计了一栽引入内容感知特征调制(Content-aware Feature Modulation,CaFM)模块的说相符训练框架,用来压缩视频传输中所需传输的模型大幼。该钻研的手段让每一个视频段只需传输原模型参数目的 1%,同时还达到了更好的超分效率。该钻研进走了大量的实验在众栽超分辨率 backbone、视频时长和超分缩放因子上表现了该手段的上风和通用性。另外,该手段也能够被望作是一栽新的视频编解码手段。在相通的带宽压缩下,该手段的性能(PSNR)优于商用的 H.264 和 H.265,表现了在走业行使中的潜能。

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段 论文链接:http://arxiv.org/abs/2108.08202 GitHub 地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

与现在单图像超分辨率 (SISR)和视频超分辨率 (VSR)的手段相比,内容感知 DNN 行使神经网络的过拟相符特性和训练策略来实现更高的性能。详细来说,最先将一个视频分成几段,然后为每段视频训练一个单独的 DNN。矮分辨率视频段和对答的模型经由过程网络传输给客户端。分歧的 backbone 都能够行为每个视频段的模型。与 WebRTC 等商业视频传输技术相比,这栽基于 DNN 的视频传输编制取得了更好的性能。

尽管将 DNN 行使于视频传输很有前景,但现有手段照样存在一些局限性。一个主要的节制是它们必要为每个视频段训练一个 DNN,从而导致一个长视频有大量单独的模型。这为实际的视频传输编制带来了额外的存储和带宽成本。在本文中,钻研者最先仔细钻研了分轻蔑频段的模型之间的有关。尽管这些模型在分歧的视频段上实现了过拟相符,但该钻研不都雅察到它们的特征图之间存在线性有关,并且能够经由过程内容感知特征调制(CaFM)模块进走建模。这促使钻研者设计了一栽手段,使得模型能够共享大片面参数并仅为每个视频段保留私有的 CaFM 层。然而,与单独训练的模型相比,直接微调私有参数无法获得有竞争力的性能。因此,钻研者进一步设计了一个神奇的说相符训练框架,该框架同时训练一切视频段的共享参数和私有参数。经由过程这栽手段,与单独训练的众个模型相比,该手段能够获得相对更好的性能。

该钻研的主要贡献包括:

挑出了一栽稀奇的内容感知特征调制(CaFM)模块的说相符训练框架,用于网络间的视频传输; 对各栽超分辨率 backbone、视频时间长度和缩放因子进走了普及的实验,表清新该手段的上风和通用性; 在相通的带宽压缩下,与商业 H.264 和 H.265 标准进走比较,原由太甚拟相符的特性,该手段展现了更有潜力的终局。

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

图 1

手段

神经网络视频传输是在传输互联网视频时行使 DNN 来撙节带宽。与传统的视频传输编制分歧,它们用矮分辩率视频和内容感知模型取代了高分辨率视频。如上图所示,整个过程包括三个阶段:(i)在服务器上对每个视频段的模型进走训练;(ii) 将矮分辨率视频段与内容感知模型一首从服务器传送到客户端;(iii) 客户端上对矮分辨率视频进走超分做事。但是,该过程必要为每个视频段传输一个模型,从而导致额外的带宽成本。以是该钻研挑出了一栽压缩手段,行使 CaFM 模块结相符说相符训练的手段,将模型参数压缩为正本的 1%。

动机和发现

参数目仅为正本1%永诚娱乐,北邮等行使超分算法挑出高性能视频传输手段

图 2

该钻研将视频分成 n 段,并响答地为这些视频段训练 n 个 SR 模型 S1、S2 ...Sn。然后经由过程一张随机选择的输入图片(DIV2K) 来分析 S1、S2...Sn 模型间的有关。该钻研在图 2 中可视化了 3 个 SR 模型的特征图。每张图像代外某个通道( channel)的特征图,为了浅易首见,该钻研只可视化了一层 SR 模型。详细来说,该钻研将特征图外示为

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

,其中 i 外示第 i 个模型,j 外示第 j 个 通道,k 外示 SR 模型 的第 k 层卷积。对于随机选择的图像,能够计算

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

之间的余弦距离,来衡量这两组特征图之间的相通度。对于图 2 中的特征图,该钻研计算了

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

之间的余弦距离矩阵。如图 3 所示,钻研者不都雅察到固然 S1 , S2 ...Sn 是在分歧的视频段上训练的,但按照图 3 中矩阵的对角线值能够望出“对答通道之间的余弦距离专门幼”。该钻研计算了 S1、S2 和 S3 之间一切层的余弦距离的平均值,终局别离约为 0.16 和 0.04。这外明固然在分轻蔑频段上训练得到了分歧的 SR 模型,但是

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

之间的有关能够经由过程线性函数近似建模。这也是该钻研挑出 CaFM 模块的动机。

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

图 3

内容感知特征调制模块(CaFM)

该钻研将内容感知特征调制 (CaFM) 模块引入基线模型(EDSR),以私有化每个视频段的 SR 模型。团体框架如图 4 所示。正如上文动机中挑到的,CaFM 的主意是操纵特征图并使模型往拟相符分歧的视频段。因此,分歧段的模型能够共享大片面参数。该钻研将 CaFM 外示为 channel-wise 线性函数:

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

其中 x_j 是第 j 个输入特征图,C 是特征通道的数目,a_j 和 b_j 别离是 channel-wise 的缩放和偏置参数。该钻研增补 CaFM 来调制基线模型的每个卷积层的输出特征。以 EDSR 为例,CaFM 的参数约占 EDSR 的 0.6%。因此,对于具有 n 个段的视频,能够将模型的大幼从 n 个 EDSR 缩短到 1 个共享 EDSR 和 n 个私有 CaFM 模块。因此,与基线手段相比,该手段能够隐微降矮带宽和存储成本。

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

图 4

说相符训练

正如上文中所介绍的,该钻研能够行使 CaFM 往替换每个视频段的 SR 模型。但是经由过程在一个 SR 模型上微调n 个 CaFM 模块的手段很难将精度升迁到直接训练 n 个 SR 模型的 PSNR。因此该钻研挑出了一栽说相符训练的框架,该框架能够同时训练 n 个视频段。公式能够外示为:

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

对于 SR 图片

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

,i 外示第 i 个视频段,s 外示该视频段中的第 s 个 sample。公式中 W_s 外示共享的参数,W_i 外示每个视频段私有的参数。对于每个视频段,能够如许计算亏损函数:

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

在训练过程中,该钻研从视频段中同一采样图像来构建训练数据。一切图像用于更新共享参数 W_s,而第 i 个视频段的图像用于更新响答的 CaFM 参数 W_i。

VSD4K 数据集

Vimeo-90K 和 REDS 等公共视频超分数据集仅包含相邻帧序列(往往太短),不适用于视频传输义务。因此,该钻研搜集了众个 4K 视频来模拟实际的视频传输场景。该钻研行使标准的双三次插值来生成矮分辨率视频。钻研者选择了六个通走的视频类别来构建 VSD4K,其中包括: 游玩、vlog、采访、体育竞技、舞蹈、城市风景等。每个类别由分歧的视频长度构成,包括:15 秒、30 秒、45 秒、1 分钟、2 分钟、5 分钟等。VSD4K 数据集的详细新闻可在论文的 Appendix 中浏览,同时 VSD4K 数据集已在github项现在中公开。

定性 & 定量分析

主实验对比

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

按照上外能够清亮地望到,在分歧的视频和超分尺度上该手段 (Ours) 不光能够追赶上训练 n 个模型 (S1-n) 的精度,并且能够在峰值信噪比上实现精度超越。注:M0 外示偏差长视频进走分段,在整段视频上只训练一个模型。

VS codec

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

该片面实验对本文挑出的手段和传统 codec 手段 (调矮码率做压缩) 进走了定量比较。按照上外能够清亮地望到 (红色外示第别名,蓝色外示第二名),在相通的传输大幼下(Storage),该手段(Ours) 在大无数情况下能够超越 H264 和 H265。同时视频的长度越长,SR 模型所占传输大幼的比例越幼,该手段的上风越清晰。

定性比较

参数目仅为正本1%,北邮等行使超分算法挑出高性能视频传输手段

总体而言,该论文创新性地行使超分辩率算法定义网络视频传输义务,主意是缩短网络视频传输的带宽压力。行使内容感知特征调制 (CaFM) 模块结相符说相符训练的手段,对每个视频段对答的模型参数目进走压缩(1%)。为后续的钻研者,挑供了新的钻研倾向。

【编辑选举】永诚娱乐

Linux集群全网服务器数据备份解决方案实战视频(老男孩哺育) Windows Server 2012 R2 注册外与注册外编辑器视频课程 金融周围下的数据发掘算法行使:LightGBM模型 Oracle 12c R2 RAC集群数据库安放视频课程 滴滴 D8 前端技术大牛是如何思考幼我成长的?