中兴通讯联合辽宁移动构建SPN业务质量智能闭环保障体系

发布时间:2023-04-25 作者:中兴通讯 欧雪刚,董凯南 阅读量:

        5G时代,网络架构和业务模型更加复杂,依靠专家经验的传统运维模式,故障定位效率低,故障排除时间长,已成为网络运维的瓶颈。业务质量劣化或发生故障后响应用户投诉的被动运维模式,严重影响了用户体验。为改善5G SPN现网业务质量,提高用户满意度,推动网络运维自动化、数字化、智能化进程,中兴通讯联合辽宁移动推出了业务质量保障智能闭环系统方案,并在现网中兴智 能管控系统ZENIC ONE(UME)上完成了该方案的功能验证。

        该方案在可编排规则的智能故障诊断基础上,扩展告警压缩、根因分析等能力,通过群障分析和业务质量自动维持(意图维持)功能的部署,实现业务状态实时感知、故障分析自动定界定位、部分场景业务分钟级恢复的智能闭环管理。方案实施后,SPN故障定位准确率达到95%,业务质量问题识别更高效,给出更精准的处理方案,整体运维效率提升35%以上。该解决方案可促使网络运维部分场景由人工变自动,由被动变主动,提升网络维护效率和业务安全性,从而达到降低客户投诉率、提升满意度的目标。业务质量智能闭环保障体系如图1所示。

 

可编排规则的智能故障诊断,维护经验可复制传承

        传统人工分析故障严重依赖专业人员的经验积累,从海量告警的过滤、关联分析再到定位工具的准备和定位执行都需要人工分析,耗时长,且运维经验的传承难,人员培养困难。中兴通讯提出了智能故障诊断方案,将原有分散的PING、IOAM、RCA、配置核查等诊断工具进行集中并模块化,在不同业务场景下维护人员可根据现网特点自主编排这些模块化诊断规则,固化诊断方案库。系统在定位阶段会根据故障的类型自动选择诊断方案并执行,当前已支持多种业务的通断类、丢包类和时钟类故障定位能力。该功能可将成熟的诊断规则快速固化,方便运维人员随时调用,解决了运维知识传递效率低、维护经验积累周期长的瓶颈。诊断时间从小时级别缩短到分钟级别,定位效率大大提升。

 

业务群障分析,故障自动定位

        在同一时间内因同一故障引起多个业务或网络对象的质量异常界定为群障。群障主要集中在网络汇聚层、核心层设备,识别手段主要依靠客户投诉,一旦发生会造成多个用户业务质量下降甚至中断,传统抢通手段基于人工分析、定位,耗时长、效率低,严重影响客户满意度。中兴通讯业务群障分析工具将业务质量感知、故障共性分析、故障诊断、故障修复等一系列动作整合与闭环,实现业务群障快速定位。针对重点业务创建分析任务后,系统将对该业务对象质量进行实时监测,当识别到业务质量异常时,会根据当前系统告警信息综合分析是否为群障问题导致异常,确定是群障后启动故障共性分析任务,帮助运维人员快速定位并解决故障。该功能可以帮助运维人员主动实时监测网络,并对群障进行分钟级分析,分析效率提升90%以上,实现群障场景下的主动运维。

 

业务意图维持,业务SLA可承诺

        影响客户体验最直接的指标就是业务SLA时刻维持,满足用户预期,这也是运营商的关键竞争点,中兴通讯推出的业务意图维持功能就是为了完成这个重要任务。

        ZENIC ONE(UME)系统意图维持包含三层闭环的修复能力:第一层为秒级业务自愈,当网络层设备识别到业务出现中断时,会自动触发业务对应层网络对象的倒换或重路由,实现秒级业务自愈;第二层为分钟级业务恢复,即当业务质量故障产生时,网络层无法完成秒级自愈时,管控系统会根据业务质量实时监测数据识别业务质差问题,选择合适手段进行业务质差的定位分析,生成对应的恢复策略,并自动执行恢复命令,实现分钟级业务质量恢复;第三层中长期业务优化,系统根据业务质量的历史数据,进行质量和流量预测分析,提前识别质差隐患并选择对应的优化策略,自动执行优化命令,实现中长期业务优化。当前已实现第一层和第二层的业务维持功能并完成了现网验证。业务意图维持功能实现了业务质量的自感知和自修复,相比传统的人工运维,业务质差恢复从小时级减小到分钟级,在保证业务SLA的情况下,维持业务“永久在线”,实现极简运维,提升客户体验。

 

        在网络智能化运维方面,辽宁移动和中兴通讯重点投入、持续攻关,力求突破网络运维瓶颈。集故障智能诊断、群障分析和业务意图维持三大功能于一体的SPN业务质量智能闭环保障体系,助力辽宁移动运维效率提升,从被动运维向主动运维迈进。后续,双方将继续在强化故障根因分析,实现“一故障,一工单”,以及修复方案仿真,进一步提升运维效率等方面继续深化创新合作,丰富应用场景,运用智能化精准运维,实现网络运维质的突破。