算力基础设施技术演进方向分析
发布时间:2022-09-19 作者:中兴通讯 朱堃 阅读量:

 

 

5G、IoT、AI、大数据、低制程工艺芯片等新技术的日益成熟,以及实时控制、元宇宙等新兴业务的推动,大大促进了网络从尽力而为向确定性保障演进,同时算力本身也从单一到多样性,从集中到泛在的方向演进。政策方面,节能减排、东数西算、自主创新也成为大方向和趋势。这些驱动因素使得算网一体的算力网络成为当前业界最大的技术热点。

 

总体看来,在算力网络场景下,绿色安全的泛在算力部署、异构硬件解耦的抽象高效平台、智能化的统一调度,是当前算力基础设施发展的趋势,目标是为应用提供高效、实时、灵活的服务化算力供给。

 

-泛在算力部署

 

为降低算力成本、绿色节能而实施的“东数西算”国家战略,为保障实时控制、元宇宙等实时性应用落地的边缘计算,都在促使算力从集中供给向东西枢纽、边缘甚至端侧的泛在布局演进。

 

-算力多样化

 

摩尔定律的失效、冯诺依曼架构“内存墙”等问题,推动新型计算架构落地;一体机、内嵌算力保障了边缘计算场景下对算力的高集成、低功耗、环境宽适的要求;信创国产化,也导致ARM、RISC-V等架构的引入;这些都带来了算力多样化的趋势。

 

-智能化统一调度

 

算力的泛在布局及形态异构多样,除了导致应用开发部署的复杂之外,也带来了资源利用率低下的问题。智能化统一调度屏蔽了多样化算力的复杂性,保障了多云算力供给的流动性,为应用以及运维呈现可提供抽象算力服务的逻辑“一朵云”,大大提升了资源的利用率,同时为应用的敏捷开发及部署提供了保障。

 

 

泛在算力

 

 

东数西算工程,通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。典型的应用场景主要包括东数西存、东数西训、东视西渲等。东数西算工程为算力体系集约化顶层设计带来了难得的契机,在运营商领域主要关注的是网络云、IT云和公有云三朵云以及云边端的整体规划。

 

从纵向维度来分析,三朵云为应用提供的资源规格及要求各不相同。其中网络云为各类网元提供IaaS资源,以系统可靠性、高性能为主;公有云为第三方应用提供IaaS、PaaS等服务化能力,以成本优势、支撑应用敏捷开发为主;IT云为内部BSS/OSS应用提供IaaS、PaaS支撑,支撑内部应用的敏捷开发为主。

 

从横向维度来分析,各层面部署的应用也有所不同。其中大区层面主要部署网络云控制面网元,公有云主要满足无属地化的互联网业务;省级/地市层面主要部署专U等媒体面网元,公有云满足2B客户专属云需求;边缘层面的网络边缘云为轻量一体机形态,聚焦局域应用,侧重广连接、数据不出场为主的场景,移动边缘云为云化形态,聚焦广域应用,侧重大带宽、云边协同等。

 

考虑到规划的复杂性,需要将算力基础设施横向细分为L0~L3,并且针对中心云和边缘云场景分别制定协同策略(见图1)。

 

Network diagram

      图1   算力基础设施分层架构

 

 

在中心云场景下,三朵云的规划重点在站址层面的融合,主要体现为DC配套设施以及硬件层面的一体化,在虚机/容器/裸金属供给及网络等基础能力方面统一规划。三朵云的场景化能力各自规划,三朵云资源池分离部署。

 

在边缘云场景下,网络边缘云、移动边缘云强调多维度的协同,主要表现为:东西向CT域和IT域在编排、能力及业务流程的协同,打造以运营商为中心的边缘应用合作生态;南北向提供云边一体集中运维编排环境,满足边缘零运维要求。在保障ICT域安全隔离的前提下,也可以积极尝试融合边缘云的试点,真正实现ICT域资源融合以及编排的一体化。

 

 

多样性算力

 

 

应用场景的驱动,带来了多样性算力的部署落地。具体包括:应用高性能的要求带来DPU、GPU、NPU等加速异构算力;泛在部署的环境因素,有了边缘一体化设备以及在接入设备中内生的算力;由于安全可信的要求,国产化硬件也需要加速落地。

 

以数据为中心构造的专用处理器DPU,通过灵活卸载虚拟化、网络、存储、安全等基础服务负荷以及业务负荷,充分满足算力网络多场景要求,广泛应用于高性能存储、AI训练、视频处理、网络安全等高性能、高集成、低成本场景中。同时以计算为中心的CPU由于充分适配流动性、灵活性场景,也将长期存在。

 

软硬协同技术,最早可以追溯到2018年的智能网卡,通过卸载OVS流表,可以减少CPU占用同时大大提升网络转发的性能,目前在各大运营商已经开始落地商用。而智能云卡,可以进一步将虚层Hypervisor卸载到卡上,同时提供网络、存储加速以及安全加密能力,实现可提供云化服务的高性能裸机资源,成为当前的技术热点。DPU的加入则进一步提升了智能云卡的性能及集成度,同时基于自研DPU的智能云卡也提供了国产可信保障。后续,随着DPU的逻辑开放灵活可定制,以数据为中心的架构可以广泛应用于多种业务场景中。

 

目前5G基站基本已经实现了县级区域全覆盖,总量超过150万。在BBU设备中内置即插即用的算力单板,可以快速补齐接入边缘这个关键环节,提供贴近终端用户的超低时延算力资源,同时由于算力可以与BBU共网管运维,可以快速提供算力的集中运维管理。接入设备的内生算力,打造了运营商在边缘的差异化竞争力。目前比较典型的应用场景,包括通过内生智能,支撑无线网络功能的AI化,实现无线性能AI增强、确定性能力保障、多维感知预测、业务跨层协同等。另外一个典型场景是提供云网业一体化的极简专网,实现工业互联网场景下的AGV小车、电子围栏、数据采集、机器视觉质检等业务。

 

 

智能化统一调度

 

 

算力形态的多样、部署的泛在化,必然带来应用开发及部署的复杂性,这对于数字化转型背景下,应用的敏捷部署、快速迭代而言是一个很大的挑战。因此,基于SLO(Service Level Objectives)智能感知的统一调度平台的价值就更加凸显。

 

从应用角度来看,对算力的需求描述是业务层面的,比如时延、帧处理能力,与FLOPS、IOPS等算力服务度量值,需要有一个映射。同时,算力网络的复杂性也导致了资源碎片化。具体包括由于异构因素,应用与多样性异构算力的匹配问题;由于空间因素,应用部署适配云边端泛在算力的问题;由于时间因素,业务潮汐效应导致资源浪费的问题。

 

针对以上问题,智能调度平台的算力映射实现了业务需求到算力服务的映射转换,算力抽象实现算力服务与异构硬件的充分解耦,泛在调度实现南北向中心与边缘、东西向枢纽间/边边间的全局调度、不同潮汐时间的应用混合部署,满足资源供给削峰平谷的要求,从而使得复杂泛在的算力成为应用可以敏捷调用的抽象服务算力,实现业务敏捷部署,同时提升了资源利用率(见图2)。

 

Network diagram

     图2   统一调度平台架构

 

随着千行百业数字化转型的逐步深入,以及技术的成熟、政策的引领,使得以网强算,以算促网,通过泛在算力提效降耗、实时算力保障服务体验、新型算力服务拉动网络流量,从算网解耦演进到算网一体的算力网络成为运营商建立差异化竞争力的利器。中兴通讯拥有从IDC、芯片、服务器、数通等基础设施到云平台的全系列产品,结合在电信、IT领域的丰富经验,将全方位助力运营商算力网络建设。