网元内生智能架构及关键技术

发布时间:2026-03-27 作者:中兴通讯 武利明,段威

        全球通信网络正经历从“管道化”到“智能化”的范式变革。据IDC预测,全球AI算力已经正式迈入ZFLOPS时代,驱动网络流量呈现显著特征异变——智算中心间模型训练流量突发量可达日常流量的300%。AI推理请求的时延敏感度低于5ms,这种新型业务特征要求网络架构具备高实时性响应以及弹性调度的能力。

        网络安全态势同样面临严峻挑战,DDoS攻击向高频、短时、分布方向发展,APT攻击的平均潜伏期已从2018年的107天缩短至现在的23天,迫切需要网元具备自主攻击检测与防御能力。

        网络运维领域,Gartner研究指出,78%的网络故障修复仍依赖人工经验,平均故障定位时间超过4小时,这与5G-A网络要求的99.999%可用性形成尖锐矛盾,难以满足“零接触、零故障”的自治目标。

        在此背景下,网络智能化正从边缘创新转向架构重构。3GPP R18标准首次将“内生智能”纳入网络切片管理框架,ETSI的ISG ZSM工作组已制定智能闭环控制的接口规范,这些进展标志着网络智能化已进入“算网智”深度融合的新阶段,需要将智能能力下沉至网元层级,才能突破传统架构的性能天花板。

 

网元内生智能架构

 

        网元内生智能是实现网络智能化新范式的重要基础,需要具备弹性可扩展的智能化架构,包括统一的数据感知平台、分布式异构算力引擎、动态可分配的算力资源管理等,满足网络流量调优、安全运维、故障运维等不同领域的智能化演进需求。

        中兴通讯路由器产品在网元传统架构上引入智能面,集成数据感知与智能化模型服务,并与网元业务协同实现“感知、规划、仿真、行动”智能化应用闭环流程,对不同的智能化应用提供公共基础设施,具备智能化应用快速开发与部署的能力。整体架构如图1所示。

  • 数据感知:构建统一的数据感知平台,实现KPI指标、告警信息及异构日志的统一采集与管理,在线卡、主控与AI算力单板之间设立独立高速通道,借助硬件机制实现毫秒级遥测数据采集与传输,通过数据订阅与推送服务,满足不同智能化应用对数据的差异化需求。

  • 模型服务:智能面通过在主控与线卡集成AI芯片,实现高效本地计算,同时支持专用AI算力单板,满足高吞吐、高并发、高算力的智能化应用需求;支持轻量化AI模型的统一部署与算力分配,具备本地推理能力,并可开展在线增量训练与持续学习。

 

网元智能化应用

 

        基于于网元内生智能化架构,通过AI赋能,网络可实现智能安全、智能调优、智能运维等网元智能化应用,提升网元的自主分析与决策能力。

 

智能安全

        当前安全架构正向“纵深防御”与“零信任”方向演进,其中将安全能力下沉至网元层级成为关键环节。中兴通讯路由器产品基于网元内生智能架构实现了智能安全应用,基于AI驱动的异常检测与攻击模式分类模型,采用“应用会话行为异常检测+EDR(终端检测与响应)”协同机制,实现对APT与DDoS攻击的纵深防御,具备主动感知、自主学习、实时响应的全面安全防御能力。

  • 应用会话行为异常检测系统:部署于主控板,对用户访问网元的会话行为进行实时监控,基于历史数据构建正常行为基线,识别异常登录、越权操作等可疑行为,并与EDR系统联动,实现APT攻击检测与防御。

  • EDR系统:部署于专用AI算力单板,支持容器化灵活部署,持续采集操作系统层的进程、网络连接、日志等多维行为数据。通过AI/ML模型构建行为基线,精准识别异常执行路径、隐蔽信道通信、横向移动探测等攻击特征,实现对无签名攻击和LoL(Living-off-the-Land)类攻击的高检出率。

 

智能调优

        当前跨数据中心智算业务具备典型的高突发、大带宽、低时延等特性,对广域网数据传输提出新的挑战,传统的QoS静态策略无法应对复杂多变的流量场景,需要网元设备具备智能化的流量识别以及自主流量调优能力。中兴通讯路由器产品在智能化架构基础上集成一系列智能调优技术,相互协同,实现智算场景的无损转发(见图2)。

 

  • 端网协同弹性带宽:通过端侧与入算/算间网关协同,基于业务带宽需求(如SLA合约请求),动态建立满足业务需求的弹性带宽转发路径,实现带宽资源按需分配。

  • 自适应缓存调整:基于微突发流量监控,实时动态调整本地缓存策略,吸收突发流量,避免丢包,本地局部优化实现无损,减少对PF流控的依赖。

  • ECN联动源端降速:网元内嵌智能QoS技术,对应用流量进行建模分析,结合时序预测算法(如ARIMA、LSTM)预测网络流量趋势,并利用强化学习等方法自适应优化ECN阈值;当网络出现拥塞时,由网元标记ECN并通知源端主动降速,实现拥塞前导式调控。

  • 域内PFC流控:在ECN机制未能及时缓解突发流量的情况下,启动域内PFC实现流量控制机制,防止拥塞扩散,保障关键业务不丢包。

  • 智能负荷分担:基于流量生命周期、大小分布等动态特征,优化多路径负载均衡策略,实现更精细化、更均衡的流量调度。

 

智能运维

        网元自动化故障诊断能力是实现网络分钟级故障自愈闭环的核心。中兴通讯路由器产品基于网元智能架构,在智能面融合时间序列异常检测、故障知识图谱、故障分类模型与故障诊断思维链等多种故障诊断算法模型,实现故障的精准感知、快速定界与智能处置。

  • 时间序列异常检测:实时监控网元KPI、流量等时序数据,基于无监督算法模型建立KPI与流量的基线模型,实现对异常突变的快速检测与预测。

  • 网元故障知识图谱:基于业务逻辑与故障传播关系构建网元内部故障依赖图谱,结合故障分类模型,提升故障定界定位的准确性与可解释性。

  • 故障分类模型:利用历史标注的故障数据,通过机器学习与深度学习方法训练分类模型,实现对典型故障类型的自动识别。

  • 故障诊断思维链:将专家经验与标准化排障流程结构化,构建可执行的诊断推理链,实现从告警到根因的自动化定位闭环。

 

        网元内生智能作为高性能智算网络演进的核心范式,通过将轻量化AI能力深度集成于网络单元,实现了网络架构从被动响应向自主感知、自适应优化与自治运维的跨越式升级。本研究基于中兴通讯在智能安全、流量动态调优及智能运维领域的技术实践,初步构建了“感知-决策-执行”闭环体系:在智能安全方面,通过应用会话行为分析与EDR协同机制,实现对APT攻击的毫秒级检测与闭环处置;在动态调优领域,创新性地融合端网协同弹性带宽、自适应缓存调整与ECN联动源端降速等技术,有效保障高动态业务场景下的确定性传输;在智能运维层面,通过时间序列异常检测、故障知识图谱与思维链诊断的多技术融合,将故障定位效率提升至亚秒级。实验结果表明,该架构可使网络控制时延降低60%以上,故障自愈覆盖率突破85%,为构建高可靠、自适应的通信基础设施提供可落地的技术路径。