随着互联网+、4G/5G、VR、算力等新业务和新技术的蓬勃发展,OTN光网络规模快速增长,组网形式日趋复杂。新兴的动态随选、多样化KPI的各类网络服务对光网络运维提出更高要求,迫切需要通过智能化技术,解决网络运维中面临的预测预防类、复杂类、重复性等操作带来的成本和效率问题,实现运维提质增效,牵引网络技术变革。为适应光网络运维数智化转型升级需求,引入AI大模型技术,构建“规、建、维、优、营”全生命周期的智能化能力,已成为加速光网络高阶自智演进的业界共识。
针对AI大模型赋能光网络的智能运维新范式,本文重点介绍中兴通讯基于AI大模型的网络故障诊断和流量分析预测两个典型应用方案。
网络智能故障诊断
光网络组网越来越复杂,故障现象繁杂,告警量大,难以快速定位故障根因;对于设备、线路故障定界定位困难,光纤线路故障需要额外设备定位故障点。依靠传统人工分析方式步骤多、耗时长,且定位准确度低。
针对上述网络运维问题,中兴通讯推出基于AI大模型的网络故障诊断系统方案(见图1),实现基于AI的网络告警根因分析、基于大模型的故障诊断流程自动化,并引入知识图谱技术增强故障诊断精准度,基于自然语言交互,提升网管操作效率。
基于AI的网络告警根因分析
对于OTN光网络,系统能够全面针对设备单板、光模块等硬件故障,以及网络光纤的中断/劣化/同缆同路由等故障隐患进行根因分析。相比传统的人工专家分析方式,新一代智能化系统对海量告警进行预处理,利用小模型AI算法快速准确地实现告警根因分析。主要实现步骤为:系统首先针对原始告警进行高频及专家过滤规则处理,再基于时空关联聚类算法,实现海量告警的专业级自动聚合,最后通过故障传播图及图神经网络算法分析关联告警,识别出根告警。引入AI分析的智能化系统可实现根告警识别准确率达到90%以上,显著提升用户派单准确率,实现降低工单量的提效目标。
基于大模型的故障诊断流程自动化
传统的故障诊断主要通过人工借助工具完成,单个故障诊断耗时较长,复杂故障场景更是高度依赖运维人员的经验,故障修复及时率难以保障。利用大模型技术智能生成诊断方案并自动调度,故障诊断不再依赖运维人员的经验,大幅提升运维效率。
基于中兴通讯星云通信大模型强大的自然语言处理和知识推理能力,系统能够精准识别自然语言输入或故障工单描述的故障现象,并生成针对性的诊断方案;利用大模型的编排调度能力,系统根据生成的诊断方案通过内部API调用完成告警分析、故障定位、方案生成、修复执行的处理流程自动化。这种能力使得故障诊断平均时间从小时级降低到5分钟以内。同时基于大模型的持续学习能力,方案能够更好地适应不同的网络环境和故障场景,进一步提升故障诊断的效率和准确性。
引入知识图谱技术增强故障诊断精准度
在故障诊断系统中引入知识图谱技术,主要是将故障运维相关的信息和知识(包括资源信息和故障排查相关知识)构建成对应的知识图谱,如资源信息构建成资源知识图谱、故障排查相关知识构建成故障知识图谱,然后依据所构建的资源知识图谱,结合故障知识图谱所提供的故障排查相关知识,结合原有的规则库进行推理,得到故障诊断结果。
大模型和知识图谱都是用来知识表示和推理的手段,二者之间存在较强的技术互补性。大模型补足了理解语言的能力,而知识图谱则丰富了表示知识的方式。目前大模型与知识图谱的结合已成为业界共识,可以实现技术互补,提升推理能力,进一步提升故障诊断的精准度。
基于自然语言交互,提升网管操作效率
大模型技术使网管操作方式从图形用户界面(GUI)向人工智能用户界面(AUI)演进。在日常运维过程中,用户只需通过自然语言输入的方式,快速实现网络信息及配置的增、删、改、查操作,无需学习和记忆网管的具体使用方法与功能入口,从而将网管操作效率提升90%以上。
网络流量分析预测
光网络各个光通道承载的业务流量会随时间变化,用户在网络运维过程中难以及时准确识别流量瓶颈等异常情况;用户在网络运维过程中,不能对网络未来阶段的各个通道流量的趋势进行分析预测,无法预先规划带宽资源。
针对上述网络运维问题,中兴通讯推出网络流量分析预测系统(见图2),实现精细化网络运维保障和智能化业务运营指导,并支持数字地图可视化呈现。
精细化网络运维保障
方案基于网络流量AI建模和预测算法,突破传统OTN网络流量感知盲区,结合传统运维和流量管理优势,为网络扩容提供参考,避免扩容不及时带来的用户体验下降或盲目扩容带来的投资浪费。相较于传统OTN网络,实现流量管理从“无”到“有”,从“0”到“1”的创新发展,改变了OTN硬管道运维的思想,通过识别端口流量相关指标,实现硬通道软分析,从而完成网络运维的精细化管理和预测分析功能。
方案提供多维度流量分析能力,达到一定门限时,触发越限预警,指导业务分流,避免业务受损;提供分钟/小时/天/月粒度端口流量分析,当带宽利用率峰值达到90%触发预警,实现业务流量越限预警,指导维护人员及时分流业务,避免用户质量下降;同时基于对当前流量的分析发现网络瓶颈,扩容有的放矢。
利用线性回归、时间序列等AI算法,结合长时间大数据分析预测,实现流量预测曲线评估,发现未来一段时间的网络瓶颈及业务超限可能,提前发现带宽需求,指导网络全局流量优化和扩容规划。
智能业务运营指导
基于OTN网络业务流量数据,实现网络业务的使用习惯建模,通过“零”流量、流量下降、流量上升、流量波动等行为分析,结合传统OTN端口、用户状态分析,实现业务的智能运维能力。
通过分时段流量分析,建立用户业务使用习惯数据模型,结合传统OTN性能分析(端口状态、光功率、误码)等信息,分析业务安全性;零流量用户故障快速识别,快速响应中断,降低业务影响面。
结合用户业务使用习惯,分析一定时期内流量变化,预警客户转网风险;长期“零”流量用户行为预警,防止客户流失和网络资源无效占用。
超套餐业务质量下降分析,及时为客户提供动态带宽调整,避免影响业务质量;及时发现客户业务增长变化曲线,为前端提供客户套餐扩容提醒。
数字地图可视化呈现
通过网络数字地图可视化呈现网络端口、业务的流量实时监测信息,实现可视可管控:
中兴通讯OTN网络故障智能诊断和流量分析预测系统已在国内运营商网络试点应用,网络故障智能诊断系统可实现分钟级诊断效率,准确率达到90%以上;网络流量分析预测系统基于流量实时分析对流量瓶颈及时预警,运维效率提升30%以上,基于AI大数据分析预测未来流量趋势,助力运维方式由“被动式维护”向“主动式预防”转型升级。