SPN网络作为现代通信业务的关键基础设施,随着5G业务的高速发展,其规模和复杂性不断增加。面对海量业务告警和性能数据,依靠专家经验的传统运维模式在效率和成本方面的问题日益凸显,亟需创新解决方案来提升整体运维水平。大模型技术的问世,为AI应用的商业化提供了理论支撑。为了降低网络运维成本,应用大模型等技术重构网络运维的新范式,已成为SPN网络运维领域的重点攻关方向。
为了有效提升整体故障处理效率,中兴通讯深度剖析工单生成、故障诊断与修复各环节的痛点与堵点,针对性地制定提升方案:利用小模型AI算法提升故障识别准确率,降低一线派单10%以上;利用大模型的编排与调度能力提升故障诊断效率80%;利用数字孪生及手机APP等技术提升线上/线下修复效率;通过大模型精准识别运维意图,提升网管操作效率90%以上,端到端助力网络运维降本增效。
基于神经网络的根告警识别,降低故障派单量
系统对海量告警进行预处理与聚合后,利用小模型AI算法分析根告警,实现告警查全率100%,根告警识别准确率达到90%以上,显著提升派单准确率,实现降低工单量的目标。
在中等规模的地市中,每周告警量可达百万级别。现有的派单系统依赖固定规则关联告警,无法进行全面分析,导致“一障多单”现象频发。系统首先针对原始告警进行高频及工程过滤规则处理,再基于时空关联聚类算法,实现海量告警的专业级自动聚合。最后,通过故障传播图及图神经网络算法分析关联告警,识别出根告警。工单从原来的平均每周500单下降至450单,工单量减少 10%。
大模型编排故障诊断方案与修复方案,降低诊断时长
在故障诊断阶段,方案进一步利用大模型技术,使诊断方案智能生成并自动调度,故障诊断不再依赖运维人员的经验,诊断效率提升近80%。
传统的故障诊断主要通过人工借助工具完成,平均单个故障诊断耗时30分钟甚至更长,复杂故障场景更是高度依赖运维人员的经验,故障修复及时率难以保障。基于中兴通讯的星云通信大模型强大的自然语言处理和知识推理能力,系统能够精准识别自然语言输入或故障工单描述的故障现象,并生成针对性的诊断方案(见图1)。利用大模型的编排调度能力,系统根据生成的方案形成内部API的调度流程,并根据诊断过程返回的结果生成故障根因,同时推荐修复建议。这种能力使得故障诊断平均时间降低到5分钟以内。同时,基于大模型的持续学习能力,方案能够更好地适应不同的网络环境和故障场景,进一步提升故障诊断的效率和准确性。
手机APP+数字孪生技术实现故障修复全方位提效
方案将故障修复分为网管修复和上站修复两类。
对于可通过OMC操作修复的故障,修复智能体通过解析修复建议,自动转换为对应的网络配置。通过数字孪生系统对这些配置进行仿真分析,根据仿真结果评估故障是否修复以及是否存在其他波及影响。修复智能体根据评估结果决策是否下发配置。全流程无需人工参与,实现从故障识别到修复的端到端闭环运维,大幅降低修复时长。未来,针对这类故障甚至可以不产生工单,OMC直接将故障处置详细报告上报入库即可。
对于需要上站修复的故障,以前上站修复人员需要通过电话等手段与网管代维人员点对点沟通,确定故障位置、修复方法等问题,修复效率受沟通效率影响。本方案将网管部分查询能力移植到手机APP中,使上站人员通过手机APP实时查询相关信息,使得沟通和等待时间从每单至少6次电话沟通耗时1小时左右缩减到15分钟以内。
基于自然语言交互,提升网管操作效率
中兴通讯星云通信大模型能够准确理解用户意图,并将其转换为网管内部对应的原子API进行自动调度。大模型技术使网管操作方式从图形用户界面(GUI)向人工智能用户界面(AUI)演进。在日常运维过程中,用户只需通过自然语言输入的方式,快速实现网络信息及配置的增、删、改、查操作,无需学习和记忆网管的具体使用方法与功能入口,从而将网管运维效率提升90%以上。
本方案的第一阶段已在嘉兴移动完成试点。试点期间,SPN网络故障工单量下降近10%,整体MTTR(mean time to repair,平均修复时间)下降近15%。试点数据表明,该方案在工单压降、MTTR优化等方面已产生显著经济效益,其“算法-平台-流程”三位一体的设计理念为电信网络智能化演进提供了可复用的方法论。本实践验证了AI原生架构在网络运维中的巨大潜力,为实现L4级高级自智网络奠定了重要技术基础。
未来,随着大模型持续进化与多模态技术的深度融合,建议进一步拓展技术在网络变更、质量优化等场景的应用,同时加强跨厂商设备的数据治理与能力共享,推动形成行业级智能运维新生态。