海量告警抓根因,主动运维识隐患——无线网络智能排障解决方案

2021-09-17 作者:中兴通讯 陶虹森,谢昊 阅读量:
海量告警抓根因,主动运维识隐患——无线网络智能排障解决方案 - 中兴通讯技术(简讯)
您当前访问的的浏览器版本过低,为了给您带来更好的体验,建议您升级至Edge浏览器或者推荐使用Google浏览器
取消

海量告警抓根因,主动运维识隐患——无线网络智能排障解决方案

发布时间:2021-09-17  作者:中兴通讯 陶虹森,谢昊  阅读量:

在日常网络运维中,及时排除网络故障是运维人员的重要工作。传统依靠人工处理存在分析工作量大、告警根因定位难、跨部门沟通成本高等问题,特别是复杂故障场景下往往需要多次上站排查才能找到故障根因,费时费力。而对于VIP站点或重点保障站点,一旦发生故障容易引发关键用户投诉,迫切需要主动识别隐患的手段。

为解决网络排障的痛点,中兴通讯将大数据与AI技术相结合,推出了基于uSmartNet智能化平台的智能排障解决方案。该方案包含两大功能:AAX告警自动化专家(Alarm Automation eXpert),帮助运维人员提高告警处理和告警分析效率,快速排除故障;EFP设备失效预测(Equipment Failure Prediction),帮助运维人员尽早发现网络隐患,防患于未然。

 

AAX告警自动化专家

 

AAX告警自动化专家功能由告警关联分析和告警根因诊断两部分组成。

AAX告警关联分析用于分析告警之间的关联关系,可以自动把衍生告警和根告警关联到一起,减少运维人员处理告警的数量。AAX告警关联分析将AI技术和专家经验相结合,抽取网元ID、告警码、告警位置、生成时间、恢复时间等特征数据,对外场数百万条历史告警数据进行AI训练,经专家确认和验证后形成告警关联联系规则库,关联准确率100%。该功能已在中国移动某省全网应用,运营商最关注的小区退服告警关联到根告警的占比达到85%以上。使用该功能,降低了排障对代维人员的技术要求,减少了代维人员跟后方专家的沟通时间,提高了排障效率。

AAX告警根因诊断功能通过对基站的配置、告警、运行日志和硬件状态等数据的多维度分析,可以快速精准地定位告警根因并给出实用的处理建议,5分钟即可完成一条告警的根因诊断。中国联通某省使用该功能后,告警分析用时缩短6~12倍。图1是中国联通某省使用告警根因诊断后的提效情况,小区退服告警和RRU断链告警的根因分析从人工诊断的60分钟缩短到了5分钟,效率大大提高。

AAX告警根因诊断的能力还可以通过Open API命令与运营商派单系统对接,实现告警分析结果直送一线,指导一线精准排障,助力运营商打造网络排障智能化闭环系统。

     图1   人工分析和告警根因诊断用时对比

 

EFP设备失效预测

 

EFP设备失效预测功能包括EFP光模块品质评估、EFP光链路品质评估、EFP RRU环境温度检测等。

EFP光模块品质评估可高效识别光模块潜在的故障风险。光模块故障常常引发小区退服等严重网络故障,等故障发生后再去处理非常被动。光模块品质评估功能基于大数据和AI算法,根据光模块自身属性,结合偏置电流、发送功率等相关数据进行训练和建模,对光模块进行评估,可高效识别故障态和风险态光模块,提前更换问题光模块,避免光模块故障导致的网络问题。该功能在中国移动某省已全面应用,从全网7万多个光模块中识别出60个风险态光模块,经过80多天的跟踪,41个变为故障,故障触发率为68%;识别出6个故障态光模块,经核查全部有相关告警,准确率100%。

EFP光链路品质评估,展现网络光链路状态全景,协助排障人员更高效地制定排障计划,改变传统“哪里坏了治哪里”的被动运维方式。光链路品质评估功能自动采集和分析光链路海量历史数据,通过AI算法分析,实现光链路健康度的准确评估,能够检测出光链路硬件规格的不匹配(速率、最大传输距离)、配置错误、插损、弱光、过温等问题,实现问题根因定位,协助运维工程师迅速准确解决光链路问题。在中国联通某省全网部署后,经现场验证能够实现光链路问题的快速处理,将单次平均处理时间从原来的2天压缩到0.5天。同时针对VIP站点及重要场景保障站点做到提前风险排除,正常运行零故障,保障了网络的健康运行。

EFP RRU环境温度检测是为了避免AAU因工作环境温度过高导致设备故障而开发的智能应用,可实现快速批量扫描网络,提供每个AAU环境温度的评估结果。5G AAU比传统的RRU功耗大,对散热有更高的要求,在夏天外场总有部分AAU过温情况严重,不仅会导致AAU下电、小区退服等网络故障,还会影响AAU设备寿命。RRU/AAU环境温度过高主要是安装不规范所致,如AAU美化罩未开孔、设备间距不足、环境通风不良等。经实地测试,室外气温30度的晴朗天气下,封闭式的美化罩内RRU/AAU环境温度将高达80度以上,RRU/AAU长期在高温下工作,对其内部电容等器件寿命影响极大。该功能开启后,用户可根据扫描结果和处理建议有针对性地对AAU安装环境进行整改,未雨绸缪,助力盛夏网络保障。中国移动某省运营商应用该功能后,从2.3万AAU中识别出661台存在易过温的隐患,经现场核查,全部都存在安装不规范的问题。

 

随着人工智能和大数据技术的不断发展,网络运维正朝着自动化、智能化的方向不断演进,中兴通讯将紧跟技术发展的最新趋势,全力推进网络智能运维创新功能落地和规模商用,以智驭繁、化繁为简,助力运营商网络运维降本增效,打造高质量网络。

分享到: