WDM光网络的保护和恢复技术

发布时间:2003-11-26 作者:程晓飞 /马恒 /王振宇 / 顾畹仪 Cheng Xiaofei / Ma Heng / Wang Zhenyu / Gu Wanyi 阅读量:

1 背景概述

  由于数据业务和语音业务爆炸式增长,驱使波分复用(WDM)技术不断发展,波分复用的信道数不断增加。单信道速率也由2.5 Gbit/s到10 Gbit/s再到40 Gbit/s不断提高。由于光传送网能够提供高速、宽带的特性,因此,光传送网成为传送网的首选方案。网络的生存性(Survivability)是指当网络设备发生故障时,网络能够维持某种可容忍的服务水平的能力。在光传送网容量较大时,一旦网络故障导致传输业务失效,将造成巨大损失,因此网络的生存性问题成为人们日益关注的重要问题。在网络的各种生存性技术中,光层生存性技术具有响应快速、灵活的特点,能够有效提高网络的服务质量(QoS),减少业务的丢失,因此对光层的生存性研究具有重要的意义。

  2 网络生存性技术

  网络被划分为不同的层面,各层通常提供了相对独立的生存技术。IP、SDH和WDM层的生存技术是网络中的重要生存技术。

  2.1 IP层的生存性技术

  在IP层中,IP/MPLS能够恢复多故障业务,同时对业务的操作粒度也很小,但IP层恢复的速度较慢,无法在故障出现时快速恢复。目前,在网络层IP/MPLS完成的生存性方案通常考虑的是动态的路由方案和多协议标记交换(MPLS)的保护倒换方案。

  (1)动态路由方案

  动态路由方案是指在故障出现时,动态计算寻找可到达宿节点的有效备用路由,以此来替代网络的故障路由,恢复故障业务。这些工作可以通过使用路由协议,在邻接的路由器间交换用来更新路由器路由表的控制信息来完成。这使得IP包能使用备用动态路由绕过故障链路或故障节点,恢复业务的传送。这些路由协议保证了网络的生存性,同时独立于下层的物理层。

  网络的路由器能以显示或隐示的方式来检测网络故障。显示方式中,本地检测到故障后,故障信息通过路由器间定期交换的路由协议控制消息,通知邻接的路由器。隐示方式是指通过定时器的超时来判断(如KEEPALIVE和HELLO等消息)有线路故障,隐含了通知故障点,路由器检测到线路故障后将重新计算受影响的路由并更新路由表,然后将更新的路由信息通过UPDATE消息,如链路状态发布(LSA)或边界网关协议(BGP-4),通知邻接的路由器。动态的路由协议利用网络的空闲资源,不受网络资源拓扑改变的影响。动态的路由方案的缺点是恢复速度慢,恢复速度大约为十几秒到几分钟,同时,其操作也具有不可预测性,这对于高速传送网络而言是重大缺陷。

  (2)MPLS保护倒换方案

  MPLS保护倒换方案是为了克服动态路由方案缺点的一种方案,通过预置一系列不同等级的通路,称为标记交换通路(LSP),来完成保护倒换。这些标记交换通路在分配工作业务时已经计算完成,预先放置在分组包头的标签堆栈中作为备用通路。当故障发生时,可以从标签堆栈中获得。保护的实体可采用动态或预先决定的方式建立。

  动态路由方案和多协议标记交换保护倒换方案可以基于链路级保护或通道级保护。通常动态的路由方案的恢复时间长,但网络资源利用率高。多协议标记交换保护倒换方案的保护时间短。

  2.2 SDH层生存性技术

  SDH和WDM光网络有着相似的功能,都是面向连接的复用网络,SDH是基于同步数字复用,WDM是基于波长复用。SDH和WDM光生存性结构都可分为保护倒换或恢复方案。自动保护倒换(APS)和自愈环(SHR)是最常用的保护方案。

  (1)自动保护倒换

  APS典型地被用于链路故障。主要包括1+1、1?誜1和M?誜N的APS。3种保护方式的不同在于分配不同的保护资源。在1+1的APS中,工作通路和保护通路上均传送业务,接收端比较两个信号的质量并接收更好的信号;在1?誜1的APS中,信号由工作通路传送,当接收端信号质量劣化,信号转由保护通路传送;在M?誜N的APS中,N条工作通路共享M条保护通路。

  (2)自愈环

  SHR是网络生存性非常成功的技术,SHR比APS具有更灵活的特点,可以处理节点故障和链路故障。高速的分插复用(ADM)和简单的控制机制使得它具有很大的吸引力。单向的SHR(USHR)和双向的SHR(BSHR)是SDH中的两种SHR。USHR的保护有两种不同的方式:链路保护倒换(USHR/L)和通道保护倒换(USHR/P)。USHR/L也称为环回,在环回时,故障的邻接节点将发生倒换,将受影响的业务倒换到保护环中。很明显,环回也可以应用在节点故障中,将故障节点的邻接节点进行环回,所有不以故障点为起始终止点的业务可以被保护。USHR/P通常是1+1保护方案,因为对信号的每个连接在两个环上都运行。当故障出现并影响到一个信号时,节点上的ADM将决定那个信道的信号更好,并选择此信道。典型的BSHR结构包括两纤链路保护(BSHR/2)和四纤链路保护(BSHR/4)。BSHR/2中每个环中的一半容量作为保护资源预留。故障时故障的两个邻接节点将使用预留的保护资源将故障业务环回。BSHR/4中,两根光纤作为工作光纤,两根光纤作为保护光纤,故障时,故障链路邻接节点将工作链路倒换到保护链路上,以环回受到影响的业务。

  (3)动态恢复方案

  动态恢复是指在网络故障时动态发现网络的空闲资源来恢复受影响的业务。恢复比保护具有更高的资源使用效率,但恢复时间更长,同时不能确保能100%地恢复故障业务。SDH网络中用数字交叉连接系统(DCS)和控制器来实现动态的资源恢复。控制器可以用集中式或分布式来完成路由和波长分配(RWA)算法。保护和动态恢复方案是否优劣要取决于网络的拓扑。例如,对点对点系统,APS是最好的解决方案;在环形网络中,SHR是最好的解决方案。目前通信网络中大多使用保护方案,而在大规模的格形网络(Mesh)中,APS和SHR可能会消耗掉更多的网络资源,所以动态恢复方案是更好的解决办法。但如何实现快速恢复是需要考虑的问题。

  2.3 WDM光层的保护和恢复技术

  光网络中,光层的保护和恢复(如图1所示)发生在WDM层,具有高速响应、快速实现保护和恢复的特点。光网络的生存性基于共享资源和动态恢复资源。光网络生存技术通常包括两种技术:保护和恢复。光网络的保护是指为光网络的承载业务提供预留的保护资源,当网络故障时,故障业务将由预留的保护资源进行传送来恢复受影响的业务;光网络的恢复是指为光网络的承载业务动态寻找网络中剩余资源,通过利用网络提供的富裕资源使得由于故障所带来的阻塞快速而准确地得以消除。保护技术由于其预先指定网络的保护资源,因此具有快速恢复业务的特点,但网络资源的利用率不高;恢复技术能动态搜索网络剩余资源,充分利用了网络资源,但恢复时间受到限制。


图1 光层保护/恢复方案

   光层的保护和恢复技术(如图2所示)又可分为:光信道(OCh)层和光复用段(OMS)层保护/恢复技术。OCh保护/恢复技术(见图2a)是针对每个信道的,当故障时,光网络为受影响的故障信道分配一条完整的(通常是通道无关的)保护/恢复通路来恢复故障信道;OMS保护/恢复技术(见图2b)是针对复用段层的,当故障时,光网络为受故障链路寻找一条替代路由来同时恢复故障链路上的所有业务。


图2 光层的保护和恢复技术

   通常空闲资源既能专用保护(空闲资源为某条工作通路专用)同时又能用作共享保护(空闲资源能同时为多条工作通路提供保护)。专用保护通常是指1+1和1?誜1通路保护。1+1通路保护时,工作通路和保护通路同时传送,宿节点终端动态监测接收信号的质量来决定选取工作通路信号还是保护通路信号;1?誜1保护通路时,仅在工作通路传送信号,保护通路资源预留,但保护通路可以传送业务优先级低的额外业务。共享保护允许空闲的波长由多个工作波长共享以作为保护通路。当故障发生时,中断的业务由保护资源传送。在操作上需要一些信令来通知网络节点新的传送通路,并确保保护通路在不同链路上的保护波长能构成保护。

  WDM光层保护和恢复技术的优点有:

  (1)高速

  WDM层的恢复比其他高层的恢复速度更快,因为节点能在故障出现时就迅速动作,而不需要等待高层的指示信号。

  (2)简单

  它比高层的恢复需要更少的协调性。

  (3)高效

  光层的恢复可更有效地利用恢复资源,因为资源是由不同的服务层共享的。

  (4)透明性

  波长的路由保护技术是独立于高层使用的协议。

  2.4 WDM光网络恢复路由和波长分配算法

  光网络的恢复算法通常将路由问题和波长分配问题分开考虑。恢复路由算法是为待恢复的业务动态寻找一条替代路由。光网络的恢复路由基于最短路径优先选取。故障类型通常考虑为针对节点故障和链路故障。光网络的恢复策略可以基于不同故障选择不同的恢复路由算法。
光网络中链路故障是常见故障,当网络出现链路故障时,恢复的路由算法可基于两种备用路由策略:

  (1)链路无关策略

  选择的恢复路由同故障链路无关。即在当前光网络资源中寻找故障链路两个端节点间的一条最短路由来替代故障链路。

  (2) 通道无关策略

  选择的恢复路由同原故障业务路由没有共同链路。即在当前网络资源中寻找一条除去原故障业务路由资源后的最短路由。可以看到,基于链路无关的策略是链路层的恢复,属于OMS层,它只需要为故障链路寻找替代链路,而路由的其它部分不变,因此其计算时间的复杂度低。但链路无关路由需要准确的故障定位信息、富余的网络剩余资源,而且无法选取当前网络中的最优资源,对网络中的资源分配效率不高,同时在故障业务路由上故障多的情况下效果不好。基于通道无关的恢复策略属于OCh层,恢复针对的是通过故障链路的每条通路,其路由选择策略选取了同原业务通路没有相关链路的路由,因此,它无需等待故障定位,当检测到故障时可以立即启动恢复算法程序,在避开原通路的物理拓扑上,寻找一条备用的光通路,并将故障业务切换到恢复通路上。由于基于通路无关的恢复是针对每条受故障影响的业务,故障链路上的所有光通路均需要切换,恢复动作涉及到多节点动作。但基于通道无关的路由选取策略能选择当前网络的最优路由,同时能较好地处理该故障路由上的多故障情况。

  当光网络的节点出现故障时,首先可以判断光网络节点的故障影响范围,光网络节点故障影响的范围分为:整个节点失效、部分链路失效、部分通路失效。当光网络故障导致部分链路失效或部分通路失效时(这种情况较常见),恢复算法可以优先考虑节点内部动态重构光网络节点结构,从而恢复节点部分链路或部分通路失效影响的业务,这样只涉及到节点内部的动作,可大大节省恢复时间。当节点内部无法通过重构连接恢复所有的故障业务时,可采取基于OMS层的避开故障节点的业务路由算法,选择优化的恢复路由或基于OCh层的故障业务通路无关的恢复路由。

  为恢复业务选取路由后,恢复算法需要为故障业务分配波长。各种不同的波长分配算法可参见文献[3]。恢复算法要求恢复时间尽量短,因此在路由和波长分配选择上可以选择时间复杂度低的算法来保证恢复时间。首次命中(FF)算法的计算时间复杂度低,是一种可行的选择方案。

  2.5 故障检测和故障定位

  故障检测和故障定位是光网络各项生存性技术的基础。

  WDM光网络中的主要故障有:

  (1)节点故障

  由于节点中器件的故障、器件的掉电、单板的插拔以及人为因素的影响导致在WDM光网络中的节点产生故障。

  (2)链路故障

  由于自然因素和人为因素的影响,导致光纤链路的切断,使得WDM光网络的链路产生故障,影响传输的业务。

  (3)通道故障

  通道故障通常是指发射机、接收机或相关设备故障导致光通道产生故障。

  基本的生存性故障因素主要被归集为单链路或节点故障,这是因为光网络光纤断裂导致的链路故障更常见,而且一次仅考虑单设备故障更容易处理。

  自然现象导致的无法控制的灾难而产生的设备和节点故障以及信道的故障等都不是人们重点考虑的故障。

  在SDH中,故障检测和定位是由帧头的字节和电的监测手段来检测数据丢失或误码率过大。但这种方法在光层中无法使用,因此光层利用信道的光功率级别、串扰或其他参数来检测信道的连续性和质量。光监控信道可以用来进行监控,但在光监控技术不很成熟时,电的监控方案可以考虑。虽然电的监控方案将导致信号的不透明传送,但电的处理过程是按比特位来进行的,具有协议的透明性。

  2.6 WDM光网络的多层保护协调机制

  通常一些高层服务如SDH和ATM等有自己的保护/恢复的生存性机制。而WDM层生存性技术虽然拥有很多的优越性,但仍然有一定的局限性,如:不能处理所有类型的故障,无法监测到网络所有的故障,不能对高层的故障进行保护,无法对业务的不同部分提供不同等级的保护,光网络的某些限制条件也会限制链路的保护能力等。所以对网络的生存性而言,需要多层保护机制。

  在网络多层生存性技术间没有协调机制时,各层独立地并行完成各自的生存性技术。虽然实施起来简单,但占用的资源大,各层均占用保护/恢复资源,从而造成资源浪费,这将导致一些潜在的需要的保护/恢复操作无空闲资源可用。因此,WDM光网络的多层保护协调机制是十分必要的。多层生存性技术的协调机制提出了分配不同功能给各层的高效恢复方案。层间的生存性协调方案通常有两种:

  (1)顺序协调方案

  顺序协调方案是指各层按顺序进行生存性动作,当本层无法恢复故障时,转向下一层进行恢复。顺序协调通常有3种方法:

  a. 自下而上(Bottom-up)的方法。恢复开始于最靠近故障的层,当某些故障业务在本层无法进行恢复时,将转由上层完成。该方法能使用较为合适的颗粒度对故障业务进行恢复,而上层的更精细颗粒度的恢复在必要时才完成。自下而上的策略在恢复时间和设备费用上更有优势。

  b. 自上而下(Top-down)的方法。恢复开始于最上层,当上层无法恢复所有的故障业务时,生存性技术向下层扩展,下层的生存性技术被触发。该方法的优点是高层能更容易地区分不同业务的服务类型和等级,可以为不同的用户的生存性提供不同的QoS。但低层却难以检测到高层是否能够恢复业务。

  c. 第3种策略。恢复开始于中间层,依据接收到的告警或生存性的策略向上层或下层扩展。

  (2)集成方案

  集成方案是基于信号的多层恢复方案的集成。当故障发生时,恢复方案将对网络所有层的恢复方案进行综合考虑,并决定最佳层的恢复操作。集成方案是最灵活的一种方案,但如何配置、实现集成方案所必须的具有各种算法的智能控制是需要解决的问题。

  2.7 OXC节点业务配置和恢复方案

  在中兴通讯的OXC节点中,动态业务路由和波长分配方案采用集中式控制,动态业务的RWA算法问题被分成路由子问题和波长分配子问题,对路由选取策略采取自适应备用路由选取策略。网络在业务到达前预先为每个节点计算多条备用路由,当业务到达时,主控节点分析备用路由集合,选取一条最佳路由和波长。动态业务到达时为业务分配路由和波长,将使网络具有自动调节网络流量分布、降低网络阻塞概率、提高网络性能的功能。通过调整备用路由集合,可以进一步满足网络其他传送要求,如传送距离限制等要求。当所有的备用路由均不能满足传送业务时,算法模块可以调用波长变换模块,采用虚波长通道来传送业务。在重载网络中,如波长变换不能使得光通道承载业务,则该业务阻塞。备用路由的计算是离线进行的,因此,具有较小的时间复杂度、较高的灵活性和较优的网络传送性能。

  在中兴通讯的OXC节点中,恢复方案中采用的路由和波长分配恢复算法是RWA问题,属于非多项式-完全(NP-完全)问题。在恢复方案中,恢复时间是衡量算法的重要指标。中兴通讯的OXC节点生存性方案主要包括保护和恢复方案,其中保护主要应用于环网拓扑、逻辑环网拓扑(即Mesh拓扑中构建逻辑环)和指定通道的1+1和1?誜1结构,其保护倒换时间能满足50 ms的要求。在Mesh网络拓扑的生存性技术中,中兴通讯的OXC节点采用基于动态的恢复方案,波长分配采用时间复杂度低的FF算法,故障业务的恢复时间小于2 ms。

  3 结束语

  光网络的生存性技术具有响应快速、灵活等特点,能减小网络故障损失和提高服务质量。随着光传送网络向超高速、超大容量的方向发展,光网络生存性的研究将具有更重要的意义。

  参考文献

1 ITU-T G.841. Types and Characteristics of SDH network protection architectures, 1998
2 Ramamurthy S, Mukherjee B. Survivable WDM Mesh Networks, Part II-Restoration. IEEE ICC'99, 1999:2023—2030
3 Ramswami S. Survivable WDM Mesh Networks, Part I-Protection. IEEE INFOCOM'99, NY, 1999, 2:744—751
4 Didier Colle, Maesschalck S D, Develder C, et al. Data-Centric Optical Networks and Their Survivability. IEEE Journal on Selected Areas in Communications, 2002, 20(1):6—20
5 Sophie De Maesschalck,Didier Colle. Intelligent Optical Networking for Multi-layer Survivability. IEEE Communications Magazine, 2002:42—49
6 Yinghua Ye, Sudhir Dixit. On Joint Protection/Restoration in IP-Centric DWDM-Based Optical Transport Networks. IEEE Communications Magazine, 2002:174—183
7 Zhang X, Qiao C. Wavelength Assignment for Dynamic Traffic in Multi-fiber WDM Networks. Proc 7th International Conference on Computer Communications and Networks, Lafayette, LA, Oct 1998:479—485
8 Zhou D Y, Subramaniam S. Survivability in Optical Networks. IEEE Network, 2000,14(6):16—23

[摘要] 文章概述了IP、SDH和WDM层网络的生存性技术,重点介绍了光传送网的光层生存性技术与光网络恢复技术,还对故障定位、多层生存性机制的协调等问题进行了简单介绍,最后给出了一个业务配置RWA算法与恢复RWA算法的实际方案。

[关键词] 波分复用;生存性;路由和波长分配

[Abstract] The survivability techniques for IP, SDH and WDM layers are outlined and emphasis is put on the optical layer survivability techniques and the optical network restoration techniques for OTN. Relative Issues like fault location and coordination of multi-layer survivability mechanisms are briefly discussed. A practical scheme of routing and wavelength assignment algorithms for traffic control and restoration is also introduced.

[Keywords] WDM; Survivability; RWA