iFLOW业务流洞察及故障精准诊断

发布时间:2021-03-26  作者:中兴通讯 张君辉  阅读量:

随着5G网络的逐步商用,客户对于新兴5G业务的服务质量有了相比以往更严苛的要求,运营商为保障服务可靠性,对于5G网络快速故障定位及恢复方面的需求也日益迫切。iFLOW方案针对5G网络精准运维要求,创新性提出了多个层次的深度感知及精准故障诊断的解决方案,有效提升了5G网络的精准运维能力。

 

网络运维现状分析

 

在网络运维方面,传统的网络监测工具采用带外测量或者低精度的带内测量,缺乏实时性,检测精度不高,得到的信息对网络故障诊断的指导作用有限。主要体现在以下几点:

-无法全网监测和分析无线基站、核心网IP动态路由,无法感知和追踪业务流的路径变化及问题根源;

-业务SLA不可测,测量精度低:采用发送模拟报文的方式间接探测网络质量,无法保证模拟报文与真实业务路径一致,不能完全真实反映业务级的SLA;业务丢包检测精度只能达到,当AR/VR等业务出现丢包时可能无法检测到故障;

-故障无法实时感知,被动运维体验差:传统方法信息采集周期为分钟级,承载网无法实时感知网络的变化,只能等业务发生故障或质量劣化之后才能被动响应;

-故障定位定界难,无自愈能力:因无法逐跳检测、无法回放故障发生时段的业务状态,问题难以精确定界,经常需要无线侧、网络侧、核心网侧多团队配合,定位周期长达数天甚至数周,效率低下。

 

iFLOW业务流洞察解决方案

 

为解决传统网络运维网络状态感知精度低、定位及恢复时间长的难点,iFLOW方案主要从业务的三个层面实现了深度感知及故障精准诊断。一是业务路由层,通过BMP(BGP Monitoring Protocol)实时监测VPN路由信息及状态,对业务路由进行精准分析;第二是业务路径层,通过PCE(Path Computation Element)对全网LSP路径进行统一计算和优化,对业务路径进行精准控制,实现业务快速自愈;最后是业务转发层,通过Inband OAM(IOAM)随流检测技术实现业务流的精准性能监测和分析,对真实业务流性能(时延、丢包、抖动)进行逐跳精准分析和快速诊断。

iFLOW解决方案总体架构如图1所示。

 

           图1  iFLOW解决方案总体架构

精准网络洞察

iFLOW方案通过端到端多维度可视及精准业务参数收集和分析实现网络深度感知和自动监测。

首先iFLOW通过智能管控系统ZENIC ONE采集VPN路由,实时展示全网路由,监测和统计全网路由变化,包括peer up/down、路由监测、增量路由通告和回收、状态报告、统计计数、路径镜像、TOPN路由、时间戳等,并多维度展现基站、信令面、数据面相关业务质量、流量信息,帮助用户快速了解网络业务质量状态。

此外还通过监测VPN前缀路由信息及状态,例如异常注入的路由,进行安全分析;并通过路由下钻分析对应的路径,快速了解业务流的路径信息,并通过历史路径回溯,精准定位路径的调整及根因。

iFLOW方案提供IP业务级的端到端和逐跳测量,识别业务经过的基站、隧道、网元等信息,快速还原实时业务路径,并通过主动监测,结合全网状态及大数据分析预测,发生故障前主动感知,提前处理网络可能出现的故障,从而实现业务快速自愈,保障网络承载质量。

 

智能故障定界定位及业务快速自愈

iFLOW方案通过GTP(GPRS Tunnelling Protocol) 隧道统计真实业务报文个数,SCTP(Stream Control Transmission Protocol)信令识别报文特征字段,并通过路径还原、逐跳检测及SLA分析实现故障实时精准定界定位。

iFLOW方案既可以基于基站流级的E2E检测,快速定界承载/无线故障,也能够基于流级的逐跳检测,快速定位故障点,并进一步通过业务流的历史路径回溯及业务流性能回溯,快速定位业务流劣化的历史原因及根因。

当精准定位到故障点后,结合控制器的全网数据及多约束路径算法,计算一条满足业务SLA,并绕开故障点的TE路径,并把业务流切换到新的路径上,从而实现业务流的快速自愈。

 

iFLOW方案应用

 

针对现网的运维痛点,iFLOW方案通过路由洞察、业务性能洞察和故障快速洞察三种手段,将客户最关注的网络信息第一时间准确呈现给客户,并能当故障发生时进行业务的快速自愈。

 

路由精准洞察及安全分析

iFLOW通过BMP实时监测VPN路由信息及状态,对业务路由进行精准分析。

当出现异常注入的路由时,通过BMP,便可以监测VPN前缀路由信息及状态的变化,并进行安全分析;BMP的另一个功能是监测全网IP路由,检测地址冲突,从而发现基站IP地址规划错误,进行及时预警和规避。

而随着网络云化及云网融合,BMP可以用来进一步监测DC云内VNF的变化及状态,进一步提升云网一体的端到端智能运维能力。

 

业务性能精准洞察

通过IOAM随流检测技术实现业务流的精准性能监测和分析,对真实业务流性能(时延、丢包、抖动)进行逐跳精准分析和快速诊断。

用户通过控制器订阅业务流路径上网元的统计数据,开启计算丢包和时延(在哪些网元配置/订阅,控制器可以根据业务配置或其他辅助手段获得,例如SR隧道的trace功能等);订阅后设备开始上报统计数据,控制器根据上报的数据计算并呈现结果给用户。最后结合大数据平台技术,实现性能历史数据可视化分析。

 

故障精准洞察及快速诊断

利用源IP+目的IP+color id或隧道策略配置下钻到对应的切片、隧道/SR policy/VPN;

并根据关联的路径/SR policy,精准分析路由的路径经过的节点、链路、跳数、Cost/Metric、BW、E2E时延等SLA属性、连通性。当网络故障导致路径调整及SLA劣化,例如时延变大,则通过SR policy的color id及目的地址反查到受影响的业务及路由,并可视化展示。再基于路径信息,进一步分析沿途节点、链路的情况,包括带宽、时延、抖动、丢包等信息,精准分析影响业务SLA的原因,精准定位故障源。

定位到故障源后通过ping/trace/twamp/ioam、配置检查等工具和手段,对业务进行快速诊断,分析具体的故障原因及位置(节点、链路、端口、队列等),并展示诊断结果,给出处理建议。

 

基于流的业务快速自愈

当发生业务性能劣化时,控制器通过iFLOW精准的网络洞察能力快速定位故障原因,并自动通过控制器中的SLA性能算法重新计算新的路径,把业务流导流到新的符合SLA要求的路径上,实现业务快速自愈,降低了人工处理的复杂性,提升了用户体验。

 

iFLOW解决方案采用多项创新技术,增强了全局业务路由的实时监测及分析,实现了业务转发层、业务路径层、业务路由层的多层次深度感知和分析,结合历史信息回溯及还原,实现故障的快速精准定位及根因分析,从而加强了运维人员对于网络信息的掌控,使得网络故障处理的时间大幅缩短,客户业务服务质量得到有效提升。

分享到:

 选择国家/语言

Global - English China - 中文