通信网络向智能化方向快速演进,AI与IP网络演进将深度共生、相互赋能。AI为IP网络高阶智能化演进提供了关键技术基础,而AI智算互联对IP网络能力提出了更高要求,驱动IP网络向如下几个方向发展:
具备内生智能的新型路由器成为实现网络全面智能化的重要元素。网元内生智能与网络智能协同,实现网络智能的整体闭环,在如下几个方向实现高阶网元智能化:
智能化IP网络整体由三层架构组成,包括基础设施(网元智能)、管控系统(网络智能)和能力开放,与上层系统及应用生态进行业务协同(跨域智能)。网元智能与网络智能协同进行,网元智能主要负责高实时性和域内AI应用,网络智能主要负责网络层面大规模数据的AI应用。
网元(路由器)高阶智能化架构包括算力服务、数据服务、知识服务、模型服务,以及AI应用等,如图1所示。
网元内集成AI智能硬件,包括智能SA卡、智能主控、线卡等,支持智能光模块和边缘算力,满足网元AI应用的算力需求。
其中转发面NP芯片集成AI引擎,提供深度神经网络、机器学习等推理算法,减少推理的时延,从而提升转发面实时流特征分析能力。
部署集中式AI高算力单板(GPU/AI芯片),实现网元内高实时性以及高吞吐的AI推理任务,可以为区域内其他路由器提集中的AI推理与训练任务。
数据服务构建统一的数据感知平台,是内生智能路由器的基础功能,实现网元内KPI、告警、日志以及状态数据采集、压缩、治理与存储。
数据服务通过网元内高速数据采集通道,提升数据采集的精度和规模,同时向不同AI应用提供统一的数据服务接口,包括数据订阅、融合以及推送服务等,满足智能运维、流量调优、网络安全等不同AI应用对数据的定制化需求。
网元运行过程中日志类型与格式众多,存在结构化与非结构化日志,难以进行自动化的识别、解析与异常检测,给自动运维带来困难。数据服务基于网元和管控的AI算法模型增强对异构日志的解析与分析能力。
建设基于大模型的故障知识图谱规范以及自动构建技术,网元通过部署统一的资源知识图谱、故障知识图谱、异常事件库,与云端协同实现端到端的故障定界与定位。
实现统一的网元AI算法模型服务,在AI算力服务的基础上实现推理服务、增量训练、轻量化部署、模型微调、模型评估、离线训练、模型加载与版本管理等功能。
在内生智能路由器中,通过容器化部署实现模型的跨硬件、跨平台部署。
基于网元智能化服务力,实现AI智能应用的部署,实现智能运维、流量调优、网络安全等多个AI应用的研发与部署。智能运维,以知识图谱作为粘合剂,联动思维链以及大模型,实现对转发面流量丢包以及协议断链等IP网络典型故障的分钟级的故障定界定位。流量调优,实现智能QoS功能,对队列流量进行建模分析,基于强化学习算法,自适应优化Wred参数模型,实现吞吐与时延最优,优化FCT时间。网络安全,动态学习流量基线数据,对转发面流量进行DDOS攻击流量建模,并基于转发面AI算法快速检测与分类,分实现5秒内检测、10秒内清洗。
网元内生智能已经成为自智网络的重要组成部分,其中网络和算力向算网异构演进,终端、接入、承载等网络设备需要全面内置AI算力,支持分布式智能体部署,实现快速、精确、准确的业务感知与分析、决策能力。
对于内生智能路由器,AI算力异构系统架构设计是基础,需要在高速的数据采集通道、AI推理数据通道,以及AI算力硬件之间的部署与协作上进一步研究,实现均衡的算力集成,满足不同AI应用的算力需求。