您当前访问的的浏览器版本过低,为了给您带来更好的体验,建议您升级至Edge浏览器或者推荐使用Google浏览器
取消
网络云运维自动化和智能化实践
发布时间:2022-05-16  作者:中兴通讯 刘志强  阅读量:

网络云运维痛点分析

 

随着计算机网络技术的快速发展,网络云计算技术也取得了一定的进步。虽然网络云计算技术尚处于初步发展阶段,但因其具有较高的实用性,在各个领域都取得了显著的效果。云时代数据中心虚拟化技术的大量应用,使得运维管理的对象也在变化。虚拟化技术提供了更高的灵活性,从而满足迅速变化的业务要求,但时也带来了一些问题。

- 数据中心规模庞大,运维人员需要完成大量设备的配置工作;

- 网络和服务器的边界更加模糊,网络及计算资源的协同调度、故障定界定位等难度增加;

- 网络云监控场景涉及范围更大、指标更多,包括APP面、逻辑网络层面、计算、存储等多方面资源的软硬件单点或端到端监控;

- 运营商自身运维系统很多,而网络云建设都是基于多厂家的产品,使得运维系统、工具的数量更加庞大,增加运维难度;

-随着网络自动化、智能化运维的兴起,大数据分析、人工智能技术、意图分析、数字孪生等新技术也逐渐与运维相结合,而这些技术的引入都需要消耗大量的设备和人力资源,如何与传统运维结合,做出成本与功能兼顾的系统,也是未来运维系统发展需要解决的问题。

 

“2零3自”网络云自智网络解决方案

 

面向新的网络功能和架构,运营商需要进一步提升业务快速发布、资源池状态实时感知、故障快速定界定位、业务流量精准预测、网络和业务质量自动优化等能力,需要引入新的理念和技术,以提升网络云运维管理效率。

中兴通讯网络云自智网络解决方案,以自配置、自修复、自优化的运维能力为基础,为上层提供零接触、零故障的业务服务。

 

零接触

中兴通讯网络云自智网络解决方案提供一站式自助运维服务,提供资源自服务开通、版本管理、备份管理、扩容管理、远程批量管理、作业平台等能力,实现网络云资源的“零接触”服务,提高运维效率。

 

零故障

网络云零故障可以分为两种场景,一种是资源池借助系统的亚健康诊断能力,在发生故障之前就发现隐患,并及时进行隐患的处理,直接从根源上避免故障的产生;另一种是网络云利用自身的故障感知、故障诊断、故障处理、故障恢复能力,及时处理资源池故障,实现一定服务等级下的“零故障”。

中兴通讯网络云自智网络解决方案提供TECS(Tulip Elastic Cloud System)系列产品,从虚拟化平台到存储产品,都提供亚健康检测能力,例如服务器节点、业务网络、存储网络、磁盘等。中兴通讯云管平台及运维工具,提供完整的故障感知、诊断、恢复功能,可以及时发现并处理资源池的常见故障,事后提供根因分析结果,辅助故障资源的恢复和系统优化。

 

自配置

中兴通讯网络云自配置方案包括资源集中创建、网络感知和配置下发,以及整资源池的升级等功能。

网络自配置能力的基础是网络数据指标的采集,中兴通讯网络云自智网络解决方案采用Telemetry技术,实现物理设备和虚拟设备的采集数据主动上报,保障数据的实时性。网络云自配置系统基于采集的性能数据,进行质量分析;如发现存在网络参数需要调整,控制器将需要调整的配置下发给设备,执行生效后,新的采集数据又会上报到采集器,此时分析器会分析调优后的网络运行情况,再调整、再分析,直到网络配置可以满足客户的需求;整个实现流程闭环。

资源池升级采用“一次升级、分批重启”的方案,结合热迁移技术保障业务无损升级。以分批升级算法为基础,引入MANO、网元联动功能,系统计算出节点的分批后,与业务确认后,开始执行升级,然后按批次重启。

 

自修复

资源池自修复能力包括资源池故障感知、故障分析、自动决策和自动执行等。

资源池感知功能是虚拟资源管理模块以计算、存储、网络资源的基础信息、性能指标、告警等数据为基础,对资源池的整体情况进行监控。当资源池产生故障时,虚拟资源管理模块需要把故障事件上报给故障分析模块,同时获取故障时间点附近的性能数据、告警、日志、系统状态等数据,用于关联分析。分析系统将结果和处理方法反馈给决策系统,用于决策执行,整个过程闭环。

 

自优化

自优化解决方案基于服务器峰值功率控制技术和核休眠技术(C态控制),适用于资源池的节能降耗。由于服务器峰值功率控制会损耗CPU的主频,一般对空闲节点使用这种方式。CPU核休眠技术可以对未分配的核进行休眠,当需要使用时,在短时间内恢复正常工作状态。此外,如果资源池允许服务器进行下电操作,也可以将服务器下电功能加入到整体的节能方案中,提高节能效率。

 

典型案例

 

中兴通讯自智网络解决方案已经在国内运营商的部分资源池进行了试点测试或商用,包括智能分批升级方案、节能减排和资源开通自服务化等。

- 智能分批升级

中兴通讯提出利用自动分批、业务联动等能力,结合热迁移实现业务不中断升级,升级全流程操作自动化。在国内运营商某大区实施升级操作,升级过程在4个操作时间窗内完成;大幅提升操作自动化程度,升级时间缩短50%。

- 节能减排

运营商大区资源池规模庞大,日耗电量居高不下,为了降低资源池的电力消耗,中兴通讯与运营商某省公司合作进行了资源池节能方案的验证。方案使用了服务器自动下电、服务器峰值功能控制等技术,结合资源池控制策略,单台服务器节能25%左右。

- 资源开通自服务化

资源的自助发放是自智网络的重点工作。中兴通讯与运营商合作开发资源池自服务门户,为自服务提供底层接口能力,包括租户生命周期管理、资源调度等能力。

 

中兴通讯在网络云运维自动化、智能化的潮流中,努力提升自身产品的运维能力,为国内各大运营商、企业客户提供更加高效、完善、智能的运维方案及服务,降低运维成本,提升网络效益。

本期相关文章