智能精准排障,掌握运维主动权

发布时间:2023-09-25 作者:中兴通讯 高育辉 阅读量:

        随着网络技术的持续演进,无线网络规模不断扩大且组网日益复杂。传统设备维护流程中每个节点的拉通都需要人为干预,导致运营商需要庞大的硬件维护团队,维护效率低下,运营成本高。当前以人工为主的运维模式已经无法满足网络运营效率提升的要求,需要引入更高效、更智能的硬件维护方法和工具来提升设备维护效率。在此需求的驱动下,中兴通讯智能排障方案应运而生。

 

中兴通讯智能排障解决方案

 

        通过对无线单域自智进行深入探索和模型细化,中兴通讯无线网络自智平台RNIA实现了无线单域自智领域的自动化和智能化。其中,智能排障模块结合知识图谱和机器学习算法,形成无线产品智能排障解决方案。中兴通讯智能排障解决方案涵盖AAX(alarm automation expert)告警自动化专家模块和EFP(equipment failure prediction)设备失效预测两个模块,实现基站设备智能排障,AI赋能根因分析和隐患发掘,增强隐患识别、故障定位能力,实现主动运维。

        在日常运维过程中,一旦发现硬件故障,可以从海量告警中完成告警根因的快速挖掘和故障根因的快速定位,提升故障处理效率。同时主动对设备问题进行预测和预防,提前发现故障,从而减少设备故障对网络带来的影响。中兴通讯智能运维模块采用轻量化智能引擎,可独立部署,也可和网管融合部署(见图1)。

 

 

AAX告警处理专家:化繁为简,直击根因

        随着网络规模及网络制式的不断增加,设备告警中大量告警上报是由于相同原因导致,逐单定位处理会导致大量的重复工作,增加派单数量,从而增加运维成本。同时,告警的处理建议复杂臃肿,难以指导用户排查问题,高度依赖运维人员的经验,导致故障排查效率低下,运维成本增加,影响网络运营质量。AAX提供关联分析和告警诊断两个特性来解决上述问题。

        - 关联分析:化繁为简—以智动双擎为核心

        AI引擎通过引用机器学习、大数据技术等AI算法对历史数据进行智能化的挖掘规则制定、知识图谱展示、规则有效性验证等操作,专家标记后发布到AAX规则库,从而实现对告警的智能化处理。通过对根源告警和衍生告警进行智能挖掘及关联分析,提高了运维人员定位故障的效率。

        推理引擎通过引用业界先进的drools引擎,对现网告警进行实时监控、规则匹配、智能推理、告警根因分析、告警压减等操作,从而实现对告警的自动化处理。通过告警压减消除大量根因相同的告警,极大减少派单数量,节约运维成本。

        - 告警诊断:诊断根因直达一线

        针对网元的当前告警,告警诊断功能可实现一键自动化告警诊断,输出该告警产生的根因结论和解决告警的处理建议,帮助用户快速、精准地定位当前告警信息的根源,故障处理建议简单明确,直击根因,可直接用于现网排障。

        根因诊断结果可通过OPEN API接口与运营商派单系统对接,把根因和定界信息直接推送到工单中,从而实现精准派单,指导维护人员快速排障(见图2)。

 

EFP设备失效预测:精准评估,防患于未然

        在常规网络运维中,由于缺少提前发现设备隐患的手段,难以预测设备潜在风险。此外,工程安装不规范导致的设备性能下降等问题更是难以排查,排查过程耗时耗力。

        EFP通过大数据监控,提前识别器件存在的风险,发现硬件故障或潜在问题,识别硬件老化和失效趋势,在器件发生故障之前提示用户实施预防性维护,减少故障发生并降低故障影响,节约成本,解决了设备隐患难识别和工程问题难排查两大难题。

        EFP光模块/光链路品质监控通过对全网光模块进行健康度评估以及对基站光链路数据诊断,从而发现风险光模块,评估光链路状态,提前排除VIP站点及重保场景站点的风险,解决设备隐患难识别的问题,保障网络健康运行。

        EFP中的RRU/BBU环境温度评估功能可对全网温度异常的RRU/AAU/BBU进行精准识别,发现工程安装不规范等导致设备温度异常的问题。RRU输入电压评估功能通过分析设备数据,识别出供电端输出电压异常的站点,发掘可能导致RRU/AAU欠压的隐患,真正做到未雨绸缪,解决工程问题难排查的难题。

 

应用成果

 

        在马来西亚某网络改造项目中,由于站点数量大,设备种类多,网络操作频繁,设备告警监控分析费时费力,运维难度大。在AAX部署开通后,运维工程师通过AAX直接获取告警根因,精准定位故障,省去人工分析步骤,告警故障解决效率提升30%以上,获得客户高度认可。

        在泰国某大型无线项目中,客户日常运维团队在上站处理RRU断链告警时发现90%的断链告警是由于光模块故障导致,全网涉及10万余块光模块,数量巨大,无法人工逐一排查,网络运行存在巨大风险。为了帮助客户挖掘网络潜在风险,中兴通讯部署了EFP并对全网所有光模块进行扫描,发现近500块高风险光模块,并在故障爆发前完成硬件替换,提前规避了因光模块异常导致的断站问题。此外,EFP的RRU输入电压评估功能也帮助客户提前诊断识别出电源柜输出电压低、整流器模块异常、RRU电源线径不足、RRU ODCPD接线盒连线松动等问题,提前消除业务中断风险,使业务中断时长减少80%以上,获得客户一致好评,并将EFP嵌入日常运维工作流。

 

        当前,在面临提高运维效率、降低成本的双重挑战下,智能网络运维的重要性越来越受到运营商的认可和重视。中兴通讯作为行业的重要参与者,将致力于协助运营商实现网络系统的智能自治,提高运维效率,降低运维复杂度,做到“将复杂留给自己,将极简带给客户”。