SDH网络的保护和恢复

发布时间:2005-03-09 作者:韦乐平Wei Leping 阅读量:

1 网络的生存性

 

(1)网络生存性的重要意义

    随着科学和技术的发展,现代社会对通信的依赖性越来越大。据美国明尼苏达大学的研究结果估计,若通信中断1小时,则可使保险公司损失2万美元,使航空公司损失250万美元,使投资银行损失600万美元。如果通信中断2天,则足以使银行倒闭。可见,通信网络的生存性已成为至关紧要的设计考虑,也成为市场开放环境下网络运营或业务提供者之间的重要竞争焦点。

 

(2)业务恢复时间要求

    通常,不同的用户和不同的业务对业务恢复时间有不同的要求。一般说,大型金融机构和银行的自动取款机对业务的可靠性要求最高,希望业务恢复时间能短于50ms。而另一方面,只要业务资费较低,普通的居民用户对业务的中断时间要求一般不高。

 

业务中断时间有如下两个重要门限值:

    第1个是50ms,此时可以满足绝大多数业务的质量要求,除了瞬态冲击外,业务不中断,因而可以认为50ms的保护恢复时间对于多数电路交换网的话带业务和中低速数据业务可看作是透明的;

    第2个是2s,只要业务中断时间短于2s,则中继传输和信令网的稳定性可以保证,电话用户只经历短暂的通话间歇,几乎所有数据会话协议仍能维持不超时,图像业务则会发生丢帧和图像冻结现象(几秒),但多数人仍能勉强忍受。因此,该2s门限值已作为网络恢复的目标值。

 

 

2 SDH网的保护

 

    SDH网的保护通常是指利用节点间预先分配的备用容量,来完成业务保护的方式,因往往处于本地网元或远端网元的控制之下,无需网管系统的介入,因而保护倒换时间很短(50ms之内)。但其备用资源无法在网络范围内共享。SDH网的保护结构有两类,即路径保护和子网连接保护。

 

2.1 路径保护

 

    当工作路径失效或者性能劣于某一必要水平时,工作路径将由保护路径所代替。目前,SDH路径保护可以分为线性复用段保护倒换(1+1和1:N)、复用段共用保护环(二纤环和四纤环)、复用段专用保护环(二纤环)和线性VC路径保护等几大类保护结构,下面分别予以说明。

 

(1)复用段保护倒换

    SDH复用段保护倒换(MSP)又分为1+1方式和1:N方式:1+1方式的特点是有两个并行的复用段同时传送STM-N信号,一个开通业务,而另一个作备用;1:N方式的特点是N个工作复用段共用一个保护复用段。当后者未被主用占用时,这个额外的复用段可用来传送额外的业务量。这种保护方式主要用于光缆切断(当工作复用段和保护复用段路由不同时)、再生器失效和复用段性能劣化等情况。

 

(2)复用段共用保护环

    SDH复用段共用保护环的特点是将复用段能支持的总的净负荷容量平分给工作容量和保护容量,两者分别经相反的方向由不同的环来传送。所谓共用就是指光缆切断或节点失效时,环的保护容量可以由多节点环的多个复用段共用,这就使得这种结构在正常条件下的业务量携带能力比其他环要大。在非失效条件下,共用保护环中的空闲保护容量可以用来传送低优先等级的业务量。

 

(3)复用段专用保护环

    SDH复用段专用保护环的特点是采用1:1保护方式单向工作。在失效故障条件下,全部管理单元组(AUG)容量环回至保护通路。这种工作方式的容量利用率不是很高,但其实现比较简单。总的看,这种环结构没有什么特殊优点,尚未见到商用系统。

 

(4)线性VC路径保护

    这是一种专用的端到端保护机制,可以适用于任何物理结构(网状、环或混合形式),既可以是单向倒换,又可以是双向倒换。路径保护通常用来对付服务层的失效以及客户层的失效和性能劣化。保护方式可以是使用专用保护路径的1+1方式,也可以是1:1方式,此时保护路径可以用来支持额外业务量,而且需要自动保护倒换(APS)协议来协调两端的操作。由于VC路径保护是专用路径保护机制,因而对于网路连接内的网元数没有限制。

 

2.2 子网连接保护

 

    当工作子网连接失效或者性能劣于某一必要水平时,工作子网连接将由保护子网连接代替。子网连接保护(SNCP)既适用于高阶通道,又适用于低阶通道。为了支持子网连接保护,需要有两个专用通道,一个携带业务量,另一个作备用。这种保护机制的最大特点是可以适用于任何物理传送结构,例如网孔形、环形或任意混合拓扑,而且既可以用来保护完全的端到端通道,又可以仅保护通道的一部分。后面这一点是与前述线性VC路径的主要区别点,使其在网络应用上有更大的灵活性。

    对目前3种应用最广泛的保护方式进行了比较,以供参考。

 

 

3 SDH网络恢复

网络恢复通常指利用节点间可用的任何备用容量完成业务保护的方式(包括预留的专用空闲备用容量、网络未用的容量乃至低优先级的额外容量),其实质是在网络中寻找失效路由的替代路由。恢复倒换由网络操作系统控制,所需时间较慢(几秒至几分钟)。

 

3.1 网络恢复控制方法

 

(1)集中控制方法

    从网络恢复机制上看,网络恢复控制主要分为集中式和分布式两大类。采用集中控制方法时,网络由一个集中控制系统(通常为网管系统)进行全面控制,其内部有一个庞大的网络数据库,存有涉及该网络的所有节点、交叉连接矩阵表以及空闲容量的全部信息。每一链路和通道都分配有优先等级数值,作为该通道的权值。当链路或节点失效后,故障信息经其它路由报告给网管系统。然后,网管系统从其网络数据库中搜寻有关链路或节点的信息并计算和模拟可能的替代路由。利用各个链路或通道分配的权值可以计算出可能替代路由的累积权值,于是可以列出若干替代路由权值表,其中最佳路由置于表的开头。当网管系统选定某一替代路由后,将同时送出控制命令给相关的节点执行交叉连接功能,从而建立起新的路由,于是失效路由的业务将转而由新的替代路由携带,起到网络恢复作用。

 

     集中控制的具体实施方法有3种,即手工配置方式、预置通道的半自动恢复方式以及通过实时动态的路由计算所进行的自动恢复方式。手工配置可达数小时,是不得已的恢复方式;预置通道方式按照实际网络情况预先存储交叉连接图,设置了一个或多个备用路由,一旦出问题时,只要查询一下交叉连接图就可以立即按事先预置的备用通道将业务倒过去,速度很快,仅数秒钟即可,但所选替代路由未必最理想。该方式主要适用于单点失效故障;第3种方式是一旦出问题即动态、实时地对全网资源进行查询和计算,以选择替代路由,显然只有这种方式才能选择最佳路由,且适用于多点故障,然而网络恢复所需花费的时间也较长。恢复时间视网络空闲容量的大小而定,通常需数分钟,空闲容量小时可能需数十分钟之久,因此对业务的影响较大。

 

(2)分布控制方法

    考虑到集中控制方法的固有弱点,W.D.Grover于1987年首次提出了分布控制方法,随后又有一系列不同的分布控制算法问世。各种分布控制方法基本上都是基于网络泛洪法。泛洪法又称满溢法,它无需中央集中控制系统。当链路失效后,检测到故障的源节点所产生的要求空闲通道的消息将以广播方式传向所有相邻节点,并在遇到的每一节点的所有方向上都分支,直到最后到达终节点为止,即网中所有节点都能收到该消息。通常,源节点要求所有相邻节点提供空闲容量,然后所有节点都报告它与相邻节点间的可用空闲通道,直到搜寻到源节点与终节点之间的最短或最快替代路由为止。一旦终节点确认了用以搜寻最佳路由的消息,该消息将回传给源节点确认路由的存在,并表明可以使用这一替代路由。然后,源节点要求该替代路由上的所有节点执行交叉连接分配空闲容量,从而形成一新的路由,于是失效路由上的业务将转而由该替代路由携带。

      从上述分布控制方法的原理可知,这种方法无需全网的信息,每个节点只要存储局部的在该节点终结的链路容量信息即可,因而业务恢复较快。但是这种方法的消息数量、涉及的无用节点数以及虽无用却仍需保留一段时间的空闲容量数却相当大,还有潜在的网络拥塞问题,因而各种改进的算法应运而生,目的都是限制纯泛洪方法的无用工作量,提高搜索效率,进一步改进恢复时间。需要指出的是,尽管分布控制可以大大缩短恢复时间,但基于现行串行处理和串行交叉连接的SDH DXC系统结构的恢复只能将恢复时间降到几秒至几十秒量级,仍然无法满足2s的恢复目标。进一步的改进必须靠彻底改进DXC的系统结构才行。

 

(3)两种控制方法的比较

     集中控制方法是传统的控制方法,比较成熟;分布控制算法存于集中网管系统中,无需DXC之间进行通信,因而不同厂家设备间的兼容性比较容易做到。集中控制方法仅需对控制响应消息实现标准化,而分布控制需要对控制响应消息以及路由算法都实现标准化。此外,理想的生存性策略要求规划算法在网络范围提供合适的空闲容量,而选路算法能以可控和有效的方式接入网络空闲容量。为了达到所要求的容量规划和实时恢复之间的协调程度,恢复算法的可预测性是十分必要的,这方面集中控制方法具有明显优势,而分布算法很难达到选路的可预测性。集中控制方法的主要缺点是恢复速度慢(几分钟至几十分钟),这是由于集中控制需要访问中央网络数据库,在网络范围内模拟和计算各种替代路由,因而少则几分钟,多则几十分钟(取决于可用空闲容量的大小),其间所有业务都将丢失。最后,集中控制需要维持一个完整的、一致的和准确的庞大网络数据库,随着网络规模的扩大和动态变化,其存储、响应时间以及准确性和成本都是问题。

    分布控制方法的特点恰好与集中控制方法相反,这种方法尚处于研究阶段,其最大优点是恢复时间短,仅算法本身可小于1s,另外其管理成本也较低。然而其付出的代价是控制系统较复杂、系统不可预测、实现互操作难以及标准化程度要求高。

 

3.2 网络恢复级别

 

    网络恢复通常以通道为基础,然而为了减少恢复时间也可以选择以区段为基础。所谓区段指两个相邻DXC节点之间所有链路的集合。在以区段为基础的恢复方式中,当某区段发生光缆切断时,网管系统将在该故障段两端的固定节点之间寻找替代路由,网络的其他部分不动,因而恢复时间很短。此外,区段恢复过程只涉及网络的局部,不必进行端到端恢复,可以在中间分段恢复业务,没有问题的部分不必动,因而网络恢复只涉及少量DXC设备,网络管理调度比较简单。然而由于恢复过程路由的源点和终点分别是故障段两端的DXC节点,因此恢复过程有可能存在路由重复的浪费现象。最后,由于发生故障的区段中并非所有通道都有问题,但链路却无法对通道作区分,只能好坏通道一并动作,使网络恢复的容量效率较低,相当于所需备用容量比通道恢复方式大,网络恢复的成本较高。

    在以端到端通道恢复为基础的方式中,当网络发生故障时,网管可以根据不同通道的不同情况(例如不同源点和终点),为受影响的各个通道分别重新安排新的可用通道。显然,这种恢复方式针对性强,只有受影响、有问题的通道才倒换,不受影响的通道不动,使网络恢复的容量效率较高,相当于所需备用容量较少。然而,由于发生故障的区段所影响的通道很多,其源点和终点分布范围可能很广,涉及重新配置的数字交叉连接设备的数量可能很多,影响面大,导致网管复杂,恢复时间长。

 

 

4 各种保护/恢复方法的比较和协调

 

(1)各种保护/恢复方法的比较

     显示了各种保护/恢复方法的时间和成本比较,网络环境为网状网。由图可知,手工恢复的时间(几小时)和成本都最高;集中恢复的成本很低,但恢复时间较长(几分钟至几十分钟);预置恢复的恢复时间可以减小到几秒至几十秒,但成本偏高;分布恢复的时间可以减少到几秒之内,而且成本也较低,但实现难度很大;复用段保护的时间可以降至50ms之内(开额外业务时达100~200ms),但成本较高;通道环和子网连接保护的时间不大于30ms,但在网状网环境下的成本要高于复用段保护环;路由分集的保护时间也不大于30ms,但所花成本最高。上述图形只是为了给出一个形象直观的定性比较,而且是在网状网环境下的比较结果,并不代表普遍性结论。

 

(2)各种保护/恢复方法的协调

    各种保护/恢复方法可以分别适用于不同的传送网层面,例如传输媒质层中的复用段保护倒换主要适用于复用段层面作链路的快速保护;通道保护倒换适用于各级VC通道层面的通道快速倒换,例如SNCP;网络恢复原则上可以适用于各级VC通道,然而由于恢复时间随通道的指数关系而增长,因而为了减小恢复时间,实际网络恢复通常只用于VC-4通道层面。

    传送网分层结构允许各层面实施独立的自愈保护/恢复方法,这样当不同层面先后检出故障时,将分别实施各层特有的自愈机制来消除本层网络内的故障。然而,如果各层之间协调不当,不同层的自愈机制之间会互相干扰,发生竞争。因此,不同层网络自愈技术之间的协调配合至关重要。

    从保护/恢复机制看,无论是复用段自愈环还是点到点保护,从结构上看,传输媒质层上的保护容量就是传输系统的一部分,例如1:N保护,可不依赖于网管和网络设计程序。这种保护方法是分布式的,而且50ms的倒换时间对于多数电路交换网的话带业务和中低速数据业务可以看作是透明的,因而典型网络生存性设计往往将传输媒质层上的保护机制作为第一道防线。然而这种方法常常由于成本的原因不适合在大网中无限制地普遍应用,而利用上层的通道保护/恢复(例如DXC自愈网)往往可以更经济地实现网络恢复,而且便于对付严重的网络故障,以达到更好的全网生存性。还有一个重要原因是高层的失效无法在低层得到保护,例如电路层的交换失效就无法在下面的通道层的传输媒质层获得保护。因此通道层的保护/恢复机制往往是网络生存性设计的核心部分。

    综上可知,网络的生存性设计需要一个全面的考虑,既要充分利用网络分层分割的思想,将复杂的网络保护/恢复问题化解为相对独立的分层保护/恢复问题,又要考虑层间自愈机制的协调配合问题。好在对于SDH传送网而言,这种层间自愈机制的协调配合相对比较简单,例如在转向处理低层自愈保护行动前可能采用实施超时的方法来避免层间冲突。一般说,采用成功的传输媒质层保护和/或通道层自愈恢复技术后,上面的电路交换层将难得发生业务中断(丢失连接)现象。总之,无论什么网络,采用分层的自愈机制并综合协调应用各层自愈机制是网络生存性设计的最佳策略。

(收稿日期:1998-09-18)

[摘要] 文章首先介绍了网络生存性的重要意义及业务恢复时间的要求,分析了SDH网保护方式的分类与特点,针对各种常用自愈环结构进行了分析比较,并讨论了SDH网的恢复问题,特别是网络恢复控制方法、网络恢复级别以及各种保护/恢复方法的比较和协调。

[关键词] SDH网 网络保护 网络恢复 网络生存性

[Abstract] The paper describes the impor-tance of network survivability and the requirement for service restora-tion time.Then the protection tech-nique category and characteristics for SDH network are analyzed.The comparisons among popular differ-ent self-healing ring structures are also presented.The issue concern-ing the restoration for SDH network is also discussed.The emphasis is put on the control methods of net-work restoration,restoration levels and the comparison and coordina-tion among different protection and restoration techniques.

[Keywords] SDH network Network pro-tection Network restoration Net-work survivability