沉浸式交互视频的演进及对CDN的技术要求

发布时间:2024-03-06 作者:中兴通讯 刘耀东 阅读量:

沉浸式交互视频是视频发展的趋势

 

        视频技术的演进历程可谓人类感官需求的不断满足之旅。从最早的低分辨率黑白视频呈现,逐步演进到高色度高帧率的高清、超高清甚至虚拟现实的呈现,图像的清晰度和真实感不断升级,为人们带来更为沉浸式的体验,视频呈现在不断满足近似人类真实世界感受的体验要求。

        随着近年来虚拟现实(VR)、增强现实(AR)、自由视角、8K、裸眼3D、元宇宙等技术和业务的发展,沉浸式交互视频成为人们关注的焦点。这种结合了VR、AR和360度视频以及良好交互的技术,为用户带来了前所未有的感官冲击,是视频技术演进的必然趋势。

        2022年,中国移动研究院发布《超视频化技术白皮书》,明确当前已逐步进入超视频化时代,视频已经成为承载信息和交流的主要形式,视频服务将支持超高清、沉浸式、个性化的体验以及以人为中心的交互模式,为人们提供多维感官,甚至超越时空的体验。

 

沉浸式交互视频的技术特点

 

        沉浸感,是人对计算机系统创造和显示出来的虚拟环境的感觉和认识,是虚拟现实技术的核心概念之一。人对虚拟环境的沉浸感是可以度量的。一个虚拟环境的视域(field of view,FoV)越大,则沉浸感越高。进一步,如果一个虚拟环境允许参与者转动头部从任何方向接收视觉信息,而另一个虚拟环境却只允许参与者从某个固定方向观察信息,例如在小屏幕上注视画面,那么前者有更强的沉浸感。创造具有强烈沉浸感的虚拟环境有赖于各种技术的综合运用,包括图形图像技术、人机交互技术、人工智能与模式识别技术、网络传输技术、并行与协同计算技术、大规模显示技术等。

        沉浸式交互视频,需要同时满足用户视觉上近乎真实的视觉感受和体感上全自由度的交互,是一种身临其境的体验。沉浸感的相关技术和体验分成初级沉浸、部分沉浸、深度沉浸、完全沉浸四个层级,各沉浸等级的关键技术特征和指标要求如表1所示。

        体感上的自由度分3-DoF(three degrees of freedom,三自由度)和6-DoF(six degrees of freedom,六自由度)两种,如图1所示。理想的沉浸式交互式视频需要满足6-DoF的全自由度的交互体验,6-DoF分别包括3个平移自由度(沿x、y、z轴方向)和3个旋转自由度(绕x、y、z轴旋转)。例如,自由视角视频的沉浸感是3-DoF的体验(满足沿水平方向x轴和y轴的有限范围平移,以及绕垂直方向z轴的有限范围转动),VR视频的沉浸式体验达到了3-DoF的标准(满足绕x、y、z轴任意旋转),而元宇宙虚拟空间中的体验则达到了6-DoF的标准(满足沿x、y、z轴方向自由平移和绕x、y、z轴任意旋转)。

        我们有理由相信,基于高沉浸度视频技术和高自由度交互技术,视频的发展将带领人类缔造一个近乎具有真实世界体验的感官世界。

 

沉浸式交互视频对CDN的技术要求

 

        内容分发网络(content delivery network,CDN)是一种提高网络内容访问速度、降低时延和成本、优化用户体验的技术,在视频爆发的时代充当着极其重要的角色。参考Web1.0(单向信息传递)到Web2.0(用户参与信息生成及双向信息传递)的演进,面对沉浸式交互视频的产生及不断演进,传统CDN需要演进到新一代CDN。

        传统CDN通过在用户所在地附近部署多个节点,将用户请求的内容提前缓存在节点上,缩短了数据传输距离,降低了时延和数据传输成本。其最大的特点是缓存点直播内容,经过动态负载后,单向对用户进行无差别分发。

        有别于传统的点直播内容,面对沉浸式交互视频,由于用户视角的切换具有随意性,终端用户看到的内容需要实时计算生成,而为了降低终端设备的硬件能力要求,这些实时计算需要新一代CDN实现。以自由视角视频为例,同一时刻多达上百路的高清视频不可能全部分发到客户端侧,而需要CDN根据用户在观看时发起的滑动操作实时计算出正确的视角参数,然后定位到用户请求的画面后快速分发给用户。再以元宇宙应用为例,多个终端用户在同一个元宇宙虚拟空间中访问时,每个用户都有自己的视角,观看到的画面各不相同,这些画面需要通过云端接收用户视角信息后,实时渲染生成视频后再分发给终端用户。因此可见,沉浸式交互视频需要双向个性化分发的能力,这是新一代CDN的重要特点。

 

CDN与边缘计算融合满足个性化视频先计算再分发的要求

 

        由于交互及个性化内容的实时生成需要高算力支持,CDN必须与边缘计算融合。融合的方式可以是由CDN调用边缘计算能力,也可以由CDN本身集成GPU算力能力。通过边缘化的算力和分发能力部署,CDN将请求调度至最近的节点,根据用户的个性化内容的请求快速计算生成内容并返回给用户,最大化提升反馈速度,满足用户的高体验要求。

        当CDN集成GPU算力能力时,CDN需要支持通用的视频渲染和流化分发功能,以支持元宇宙等6-DoF的全自由度场景下的视频应用的云端码流实时生成。

 

CDN与RTN融合实现超低延迟能力

 

        CDN融合RTN(real time network)的目的是提供超低延迟音视频双向互动和超低延迟网络服务的能力,满足沉浸式交互视频场景下超低延迟的要求,尤其是用户头戴VR/AR眼镜等场景下,端到端的延迟必须小于80ms才能降低戴头显引起的眩晕问题。

        CDN与RTN有个共同的特点就是网状部署,两者有结合的天然优势。RTN可以根据网络状况,智能调整网络分发路径和策略,实现互动音视频消息分发的动态优化,以便更好地降低网络延迟。

 

CDN与IP网络层融合以实现更高质量的服务

 

        沉浸式交互视频要想达到较好的体验,在云端渲染的情况下对端到端延迟和传输质量有着苛刻的要求,需要尽可能高地保障网络QoS质量。CDN融合IP网络层是一个有效途径,可根据业务状态(overlay层)和物理网络状态(underlay层)选择最优传输路径,降低网络延迟和丢包率。

 

        沉浸式交互视频的演进趋势表明,我们正迈向一个高度个性化、超高清、沉浸式的视频时代。新一代CDN需要满足内容的实时生成、更高的传输速度、更低延迟的分发,以应对沉浸式交互视频带来的挑战。