加快云原生部署,为网络智能化演进铺平道路

发布时间:2026-06-24 作者:中兴通讯核心网产品规划总工 杨林

        过去十年,随着NFV技术的引入,云计算成为推动电信网络架构演进和变革的关键力量。尤其是云原生相关技术的潜在优势(轻量化、组件解耦、快速交付等),让云原生不仅成为新部署5G SA核心网的优选技术,更成为存量网络改造的目标。根据2025年Omdia的研究报告,全球商用网络容器化网元(CNF)占比已达24%,预计2030年超过35%,高于所有其他技术产品(PNF/VNF)。

        另一方面,随着AI变革成为全球共识,电信行业也在思考如何引入AI:根据GSMA智库报告,自2024年起AI已经连续两年成为运营商最关注的技术领域。然而,云已经成为电信网络运行的基石,若不能厘清云及云原生与智能化演进的关系,不仅可能延缓网络演进进程,还可能导致当前投资的低效和资源浪费。

 

智能化,网络演进的焦点和共识

 

        网络智能化已经成为全球多个电信网络标准持续演进的关键驱动力,包括3GPP、TMF和ETSI等。

        3GPP从5G SA网络的第一个标准(R15)开始,就把引入智能化作为关键需求,并成为后续标准增强的核心技术路线之一:从最初基于NWDAF单网元集中式架构提供网络数据采集、分析、反馈能力,逐步发展到数据收集存储、AI训练、推理分析等功能解耦的分布式优化架构,并支持网络数据和管理数据跨域协同以及跨网络联邦学习,从而满足更多的业务场景和各种灵活部署要求。6G更是把AI原生架构(支持多AI系统协同工作)和原生AI服务(拓展连接,服务智能系统)作为设计目标。3GPP智能化演进路线图如图1所示。

 

        TMF自2019年以来就把自治网络(AN)作为推动通信行业数字化转型的最高优先级战略引擎。通过定义L0—L5六级自智评级体系(ANL),首次为网络自动化建立了可量化、可认证的全球统一标尺,并成为全球运营商网络和设备商产品的演进目标。

        2024年,AN白皮书6.0开始明确引入GenAI(基础大模型TelcoGPT)和Agentic AI用于实现L4高阶自治。其中TelcoGPT不仅用于重要的网络数据分析,帮助网络运营人员快速进行故障定界定位并给出处理建议,同时基于多维数据如网络设备硬件告警、性能指标和用户投诉的分析,还能够提供潜在故障预警。而两种类型的Agent应用(包括面向运营角色的copilots和面向运营场景的Agents)更成为增强每层自主能力的关键。

        除标准技术演进的清晰路线外,AI之所以成为近期所有运营商的关注热点,更来自于运营商经营的直接压力,包括长期存在的降成本需求,以及通过AI带来新收入(体验货币化)的渴望。主流运营商已把2030年前实现AN L4作为关键战略目标。

        面对智能化的强烈发展诉求,通信行业设备商不仅已在现有产品上集成越来越多的AI能力,更将AI能力视为产品规划的核心方向。如何构建云平台,满足网络智能化从数据、训练到推理端到端AI服务,成为支撑网络演进的关键。

 

Kubernetes,AI软件编排部署生态的事实标准

 

        伴随着企业数字化转型和CNCF开源项目成为云原生的事实标准,云原生技术和Kubernetes (K8s)已成为企业构建现代化应用架构的核心选择。根据行业数据,98%的组织已采用云原生技术,其中82%的容器用户在生产环境中使用K8s进行部署。K8s正逐渐成为部署新的AI软件的默认选择。

        同时,各AI加速硬件(GPU/TPU)厂家也把K8s作为其AI硬件集群的主流管理平台。K8s管理的AI硬件集群为AI应用提供强大的资源管理和优化能力,并通过其Scheduler和Extender机制,高效分配和管理GPU/TPU资源,并允许AI应用根据业务需求自动调整资源,避免资源浪费。为更好地支持AI专用硬件的管理和集成,K8s提供完整的机制,包括Driver、Device plugin和GPU Monitoring等。而业界所有GPU/TPU厂家都把支持K8s集群管理,作为融入AI软件生态的首要工作。

        K8s的可扩展性,可以极大地支持AI应用的大规模部署,允许开发者通过自定义CRD和Operator,扩展K8s以管理复杂的AI工作流。同时,K8s内置的可观测性工具(如OpenLLMetry)为AI应用提供了全面的监控和日志记录能力,帮助开发者快速识别和解决性能瓶颈,确保推理服务的稳定性和可靠性。面向AI任务(大模型和AI应用),新的CNCF开源项目(Fluid、Kubeflow、KServe等)更是覆盖LLM全生命周期服务需要——从数据预处理、模型训练到推理部署。

        即使是流行的高性能大模型推理框架,如SGLang,虽然其技术栈独立于CNCF生态,但也与CNCF云原生技术栈深度集成,尤其在K8s环境下,已形成一套成熟、可落地的生产级部署与监控实践方案。其设计天然契合云原生理念,无需改造即可无缝融入现有K8s平台环境。

        由此可见,K8s已经成为从管理底层AI加速硬件(GPU/TPU)到服务上层模型/AI应用软件平台的事实标准。不仅如此,K8s已使用AI(如K8sGPT项目)来优化管理和维护,帮助运维人员提升效率。K8s与AI的双向奔赴,让K8s成为事实上的AI Native平台。

 

以云原生构建网络云成为智能化演进的必然选择

 

        为满足网络智能化应用的部署以及云平台自身的智能化演进,基于K8s构建电信云原生平台(如图2),已经成为智能化演进的前提和必然选择,尤其是基于裸机容器架构构建的K8s平台优势明显。

 

平滑演进

        采用裸机容器模式建设的K8s平台,直接在已有服务器集群增加GPU/TPU,即可以满足网络智能化应用资源需要,不仅避免已有云平台层推倒重建,而且软硬对接简单快捷。K8s原生具有的多集群服务发放能力,还可以更加灵活地满足电信网络不同领域智能化复杂的隔离需要。同时,作为最受企业欢迎的云原生平台,K8s也可以更好地满足运营商未来面向6G提供超越连接的智算服务诉求。

 

融合高效

        基于K8s构建的云原生平台,天然实现通算、智算融合和混合调度。K8s调度可自动感知AI任务,分配其所需的GPU/TPU资源,其他任务分配通算资源。同时,KubeVirt(进入生产就绪阶段)允许K8s像管理容器Pod一样管理虚拟机,真正实现一个平台管理所有资源,提供所有服务。

 

端到端自治保证

        电信网络要实现高阶自治,云平台实现高阶自治是前提,比如网络故障自修复能力也必然依赖于云平台的能力。作为AI Native平台,K8s与AI融合进一步提升云平台运维和意图服务的能力和规划能力,是电信云网络实现端到端高阶自治的坚实基础。

 

开放解耦

        作为云原生平台的事实标准,K8s已经实现了从公有云到私有云所有云原生平台的统一,几乎所有厂商的云原生平台产品和方案都是基于K8s构建,同时也具有最开放的GPU/TPU硬件生态。这不仅保证硬件厂家可灵活选择,同时保证网络应用的跨平台的迁移性,真正实现电信云开放解耦,避免厂家锁定风险。

 

        当前,网络智能化演进已经成为业界共识和主线,所有智能化的场景和用例都离不开AI的加持,K8s作为云原生平台的事实标准,成为AI加速硬件厂商和开源AI软件栈的第一选择。建设基于K8s云原生平台已经成为电信网络演进的必经之路,建议运营商利用任何网络扩容或新建机会尽快部署基于裸机容器模式的K8s平台,为网络智能化演进铺平道路。