云化核心网的高可靠实践

发布时间:2017-01-01 作者:郑兴明(中兴通讯) 阅读量:

       NFV技术(Network Function Virtualization,网络功能虚拟化)是在通用COTS服务器上运行电信软件功能的方式,例如:云化的移动核心网vEPC、vIMS等网络功能。NFV打破了传统电信网络专用硬件的限制,基于软硬件解耦架构,将电信网元的功能通过软件来实现,不再依赖于专用硬件,实现了软件功能的快速开发和部署、硬件资源的共享和统一管理,并且通过虚拟化技术提供网元功能的自动化安装部署及动态资源调度,提供了灵活的扩展性,大大简化了管理运维,得到了运营商广泛的认可和关注。
   

  引入虚拟化技术后带来了很多优势亮点,也带来一些新的问题,可靠性就是其中的一个关键问题:COTS硬件的可靠性下降、虚拟化层导致的故障点增加,那么,NFV网络能否满足电信级5个9可靠性的需求?

  

  在可靠性的定义中,5个9的可靠性,严格说来应该称为可用性(Availability),指的是一个系统的可用性百分比达到99.999%,满足该指标就要求平均一年中系统不能正常工作的时间少于5分15秒。其计算方法为:A=MTBF/(MTBF + MTTR)。其中,MTBF是指平均故障间隔时间(Mean Time Between Failure),MTTR是指平均修复时间(Mean Time to Restoration)

 

从上述公式中,我们可以得出提升可靠性的2个原则:

 

●降低故障发生的可能性,延长系统无故障的工作时间;

 

●缩短修复故障的时间,尽快使系统恢复正常工作。

 

NFV网络的可靠性分析
    

   

  NFV网络可以分为NFVI(NFV Infrastructure)层、VNF(Virtualised Network Function)应用层和管理编排节点MANO(NFV Management and Orchestration),其中,NFVI层又可分为硬件层和虚拟化层,如图1所示。
   

  对于VNF来说,其可靠性依赖于整个NFV系统的可靠性,依赖于硬件层、虚拟化层、VNF自身以及MANO节点各部分的配合。

 

硬件层

 

硬件层包括计算资源、存储资源和网络资源。

  

  对于计算资源,所有的服务器组件需要采用1+1或N+M冗余配置,如电源、风扇等组件。

  

  对于存储资源,采用磁阵RAID或分布式存储来实现,提供数据的1+1/1+M备份,保证单个磁盘故障不影响数据的正常访问。通过存储多路径技术提高主机与SAN设备之间的带宽和连接可靠性。

  

  对于网络资源,采用1+1冗余配置,实现多链路组网;在接口、路由、设备上均采用冗余和负荷分担,防止单点故障。

 

虚拟化层
   

  虚拟化层实现对物理资源的虚拟化能力,并且协同MANO节点实现对虚拟资源池的管理和调度能力。

  

虚拟化层需要为应用层软件提供高可靠的部署和恢复机制:

  

  支持虚拟机的反亲和性部署。冗余备份的多个虚拟机需要部署在2个以上不同的服务器上,以便在主用虚拟机所在的服务器故障时,其他服务器上的冗余虚拟机能够接管业务,例如,主备虚拟机和负荷分担虚拟机不能部署在同一块服务器单板上。

  

  支持虚拟机状态的检测和自愈功能。当虚拟化层检测到虚拟机故障或物理硬件故障时,需要能在本机恢复,或迁移至其他服务器上重生。

 

应用层
   

  应用层实现了电信VNF网元的功能,如vMME/vPGW/vCSCF/vSBC等网元功能。
   

  在云化核心网系统中,VNF的高可靠设计至关重要。电信网络采用虚拟化技术之后,硬件基础设施的可靠性比原有专用电信硬件来说相对降低了,因此,需要通过提升软件可靠性来补偿。

 

●各组件支持热备冗余
   

  VNF的各组件支持热备技术,在线会话的状态信息将实时备份到冗余组件中,可以实现当一个组件故障时,其他备份组件无缝接管故障组件的业务,实现零中断的业务连续性,防止系统故障对在线业务和新建业务造成影响。
   

  相比虚拟化层的备份恢复机制,应用层热备能力提供了更快的故障检测和恢复、更准确的应用故障检测、更高的业务恢复率以及更小的计算和网络资源消耗,是实现电信级高可靠虚拟化网络必不可少的功能之一。

 

●实现故障组件的快速恢复
   

  VNF需要支持结合管理编排节点和虚拟化层实现故障组件的快速恢复、对故障组件的快速重生恢复、恢复后的虚拟机可继续承担原故障虚拟机的业务,也可作为备份的组件,保持系统的冗余度不变。

 

●支持异地容灾
   

  容灾部署指在不同地域的DC提供冗余的VNF能力,在发生地域/DC级故障时,可以在其他DC中恢复业务,是一项非常重要的可靠性保障机制,例如:传统的跨地域的POOL容灾部署提供了同一个Pool内网元间的负荷分担和容灾能力。

 

管理编排节点
   

  管理编排节点包括VIM、VNFM和Orchestrator三个实体,分别负责对整个NFVI资源的管理和编排,以及VNF和NS(Network Service)的管理。
   

  MANO节点的故障和升级不会引起VNF业务中断,但MANO异常期间会导致部分虚拟化特性无法正常使用,如自动弹缩、虚拟机迁移重生等。因此,MANO节点的高可靠性也是必不可少的一部分。

  

  MANO节点一般采用1+1主备双机方式配置,主备双机间实现状态和数据的主备同步。当主用节点故障时,备用节点自动成为主用节点接管业务,提供不中断的服务。
   

  此外,MANO还需要提供NFVI、VNF和NS的状态监测、告警采集、故障关联以及故障的自动恢复机制,以便轻松定位故障,降低运维管理的复杂度。

 

中兴通讯云化核心网的高可靠实践
   

  为了更好地在虚拟化环境下提供电信级高可靠的网络应用,中兴通讯VNF系统采用了更好的设计架构,充分利用NFV网络特性,提供更可靠、更安全、更节省资源的全新云化核心网。

中兴通讯云化核心网针对可靠性的改进如下:

 

●组件化原则
   

  组件化设计架构中,一个VNF通过多种类型的组件实现,不同组件采用不同的虚拟机实现,实现了软件模块间的解耦,组件间容错能力提高,提升了系统可维护性,降低了对业务可用性的影响。

 

●无状态原则
   

  无状态化设计架构中,业务逻辑处理组件和业务会话数据之间将会解耦,即:将有状态的数据采用专用的数据库组件来保存,并且提供1+M的多副本数据冗余,业务逻辑处理组件不需要关注在线会话信息的同步备份,简化了软件逻辑的实现,提高了系统的可靠性。

 

●N+M冗余机制
   

  N+M冗余机制实现了在较少冗余组件时达到更高的可靠性,相同组件数量条件下可靠性远超1+1冗余备份机制。例如:5个组件并行工作,采用1+1备份时,需要5+5个组件;采用N+M备份时,只需要2个冗余组件,也就是5+2个组件即可超过前者的可靠性。

 

●跨DC容灾部署
   

  跨DC容灾部署方案中,一个VNF的主备或负荷分担组件分别部署在多个DC中,实现一个DC故障后,其他DC的冗余组件能够快速接管业务,相对于传统Pool方式,跨DC部署方案提供无中断的业务连续性,提供了热容灾能力。
   

  引入NFV技术后,打破了传统网元的架构,从硬件设施到虚拟化层再到VNF应用,采用云化技术进行了重构创新和协同联动,提升了系统的可靠性,共同打造电信级高可靠的NFV云化网络。