5G网络运维技术趋势分析

发布时间:2019-11-14 作者:中兴通讯中心研究院总工 阅读量 :

在电信领域,随着SDN/NFV架构的逐步深入,5G网络云化重构、MEC边缘计算创新的加速发展,多云接入、云网融合、云边协同的应用场景越来越丰富,一张网络使能百行千业,网络带宽、传输时延、连接规模等关键性能指标大幅度提升,网络性能和灵活性均发生根本性改变。

5G网络的复杂性和灵活性,给5G的运营运维带来前所未有的挑战,传统运维模式已经无法满足成本和效率的需求。网络运维方式正在向云网联动的自动化运维进阶发展。

SDN/NFV网络自动化

回顾SDN/NFV的发展历程,在虚拟化阶段,传统的VNF部署包含大量手工操作,时间长,效率低。因此,引入NFV编排器与SDN控制器,实现云网联动,大幅提高业务部署上线效率,如图1所示。

 

NFVO+SDNC对于运维自动化的提升,主要体现在以下几点:

-引入NSD(Network Service Descriptor)文件,以文本定义的方式取代传统方式下需要手工进行的EOR、TOR、防火墙设备配置操作以及针对VNF逻辑网络的配置操作;

-引入SDNC与CloudOS进行联动,实现在TOR、EOR、FW等物理网络设备上完成网络的自动化配置;

-引入NFVO组件作为云网联动的大脑,统一协同SDNC以及VNFM完成网络配置自动化以及VNF实例自动化部署过程。

SDN/NFV技术推动电信网络进入云化阶段,但实际推进过程中遇到许多阻碍和问题:

-NFV领域:ETSI的MANO标准不完善,三层解耦导致多厂商对接难度大,兼容性问题多,网络整体性能和可靠性保障难,业务要求不一致对NFVI的规划建设带来很大困难。

-SDN领域:ODL等开源框架未规模应用,SDNC处于局地化建设状态,局限于单个DC或者单个网元,比如AT&T的CORD改造,中国移动和中国电信的vBRAS试点。

SDN/NFV是5G网络的基础,比如5G核心网需要通过NFV MANO实现自动化部署和管理,5G切片需要通过SDNC提供承载网络子切片动态创建和调度能力。SDN/NFV推进遇到的问题,阻碍了网络运维自动化水平的提升,给5G网络运维进阶带来很大的困难。5G运维之路应该走向何方,才能系统化提升SDN/NFV和5G网络的自动化运维能力?

5G运维向NetOps+DevOps发展

5G有三大业务特点,即高速率、低时延、广连接,两大技术特点,一个是业务软化,另一个是设备云化。将这两大技术特点归结起来,就是CT向IT转变。

DevOps是IT运维模式的标杆,DevOps即Development和Operations的组合。本质上DevOps是Dev(软件工程)、Ops(技术运营)和QA(质量保障)三者的交集。它的出现是由于软件行业认识到,为了按时交付软件产品和服务,开发和运营工作必须紧密合作,才能提升业务上线的速度和系统运行的质量。

电信领域的NetOps遵循TMN/ETSI/3GPP/TMF等标准规范,过去基于OSS/EMS建立了一套完善的管理体系,现在引入NFV MANO、SDNC和CloudOS,云网管理架构更加复杂。为了提高对云化网络的弹性管理能力和业务上线速度,构建NetOps+DevOps闭环流程(见图2)是提升5G网络运维自动化能力的有效途径。

具体来看,当前NFV从集成、开通到运维的自动化能力尚未成熟,SDN也无法支持全网覆盖的自动化,事实上只有核心网才能够真正做到云化,无线/有线接入网和承载网依然需要很多专用设备。对比电信云与IT云,最大的区别就在于网络的演进。在IT云中,虚拟机、容器都不需要定义OS对云外的路由解析路径,但在电信云中,所有虚拟化网元都要与云外进行大量交互,尤其是与接入网、承载网进行交互。

因此,5G网络运维必须基于CT已经成型的NetOps系统,引入IT的DevOps工具流程,通过服务化和云原生的技术驱动,逐步形成全网端到端的、开发运营一体化的自动化运维架构。
中兴通讯基于NetOps+DevOps闭环架构,提出5G网络自动化运维系统uSmartNet OES,全面支持网络智能化演进,如图3所示。其核心组成如下:

 

-技术中台:基于PaaS(K8S)容器云,提供MSA微服务框架、PG/Redis/Kafka等中间件,构建DevOps自动化平台,并为5G运营运维系统提供运营技术组件平台OTCP(Operation  Technology Component  Platform)。

-业务中台:开通域以CFS(面向客户服务)/RFS(面向资源服务)编排系统为核心,通过全局资源资产管理和配置激活系统,支持统一的业务编排和资源调度,具备业务实时开通能力。保障域以智能分析系统为核心,支持数据采集、实时监控和智能分析,并通过策略中心进行动态预测、智能决策和触发开通域操作,实现自动化闭环运维。

-数据中台:基于大数据,面向客户、业务、网络和云化基础设施,提供全局的数据存储、数据治理能力,引入和AI技术,提供智能工具和引擎,支持业务中台的智能化能力提升。

-规划设计:以设计工具为核心,支持CSF/RFS业务设计、模型设计和策略设计,通过DevOps平台,贯通持续集成(CI)和持续交付(CD)流程,支持仿真测试和灰度发布,实现可视化的业务、应用的设计和上线。

-在线服务:通过云服务市场,为用户提供“一站式”的业务订购、自助服务、开通部署以及运维保障平台,从而实现网络随愿、应用随选,极大的提升用户体验。

如何认识AIOps技术

2016年Gartner提出了AIOps的智能化运维概念,目前在国内外领先的互联网企业应用,也成为电信运营商普遍看好的新技术。Gartner预测到2020年,ICT行业的AIOps的采用率将会达到50%。作为未来电信运维的热门技术,AIOps一时间喧嚣尘上,那么5G运维的终极形态就是AIOps吗?

为了确定AIOps与DevOps的关系,我们首先要对自动化运维的本质进行定义。早期电信运维工作大部分是由运维人员手工完成,后来引入电子工单,通过故障发现-工单派发实现半自动手工运维。这种落后的生产方式,在电信网络业务快速扩张、人力成本高企的时代难以维系,自动化运维应运而生。自动化运维通过可被自动触发的、预定义规则的脚本来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。因此,自动化运维本质上是一种基于行业领域知识和运维场景知识的专家系统。

随着5G网络融合化、终端多样化和业务多样化,“基于人为指定规则的”的专家系统逐渐变得力不从心。DevOps的出现,部分解决了上述问题:其强调从价值交付的全局视角,端到端打通软件生命周期,建立基于微服务的业务流水线,把开发、运营和运维紧密结合起来。但较低阶的DevOps仍未摆脱“基于人为指定规则”的设定。

AIOps不依赖于人为指定规则,通过机器学习和深度学习算法自动地从海量运维数据中不断地学习挖掘、提炼和总结规则,并指挥自动化脚本去执行决策,从而达到运维自动化的整体目标。
AIOps和DevOps两者并不冲突。企业级DevOps涵盖包括运维在内的整个软件生命周期,AIOps是企业级DevOps在运维(技术运营)侧的高阶实现。因此,AIOps不是自动化运维的终极形态,而是运维自动化能力提升的技术手段。

人工智能技术,尤其是深度学习,最近几年在语音识别、图像识别、围棋三个领域带来了“奇迹”,引发热潮。但此后,“奇迹”再未在其他领域出现,其技术应用的边界和条件已经逐渐清晰。深度学习的本质就是利用没有加工处理过的数据,采用概率统计的“黑箱”处理方法来寻找可能蕴含的规律。这个方法本身通常无法找到“有意义”的规律,它只能找到重复出现的模式,而且非常脆弱容易受攻击或欺骗,并且不可解释,存在非常严重的缺陷。

因此,对于AIOps技术的引入,我们必须要有长期和客观的策略。必须充分认识到5G时代,超过1000亿的网络连接,会导致云网业务具有高度不确定性,网络状态的完全信息也难以准确获取,进而影响AI技术应用的有效性。AI对于5G运维不是包治百病的灵丹妙药,需要找到合适应用场景,采用成熟的AI技术,才能获得预期的运维效果和运营价值。

小结

整体上,5G自动化运维系统,通过微服务化实现业务架构与IT架构解耦,通过设计态与运行态分离,支持模型驱动的自动化开通、策略驱动的自动化运维,从代码级DevOps到业务级DesignOps,支持设计开发、运营运维一体化,具备互联网式的开发运营能力。

面向5G网络未来发展,基于NetOps构建互联网化的DevOps自动化系统是5G运维的关键所在。这不仅意味着工具自动化、运维智能化,更涉及运营商组织层面的文化变革,需要重新设计研发生产和业务运营流程,制定企业文化改造计划,引导员工从重复性劳动向创造性劳动转变。

总体来说,电信运维要通过DevOps重构激活5G运营流程,引入场景化的智能运维技术,形成全功能团队敏捷开发模式,才能破解SDN/NFV面临的自动化困境,推动5G运维逐步走向零干预、零风险和网络零中断的状态,最终实现“自动驾驶”的网络。