超高性能路由器

发布时间:2003-11-26 作者:苏金树 Su Jinshu 阅读量:

文章编号:1009-6868(2001)04-0004-06 文献标识码:A 中图分类号:TN915.05

  1 太比特网络发展背景

  以因特网为代表的网络技术日益成为国家信息基础设施的重要组成部分,它已经渗透到社会、经济、生活的各个方面,成为国家进步和社会发展的重要标志,是未来知识经济的支撑环境。高性能计算机网络技术研究、建设和应用水平已经成为衡量一个国家科研能力和经济竞争力的重要标志。

  计算机技术、微电子、光电子技术和光传输技术的不断突破和进步使得发展高性能网络具备了很好的基础。例如,Lucent推出的新型全波光纤(All-Wave Fiber),也称为无水峰光纤,可以消除常规光纤在1 385nm附近由OH-离子造成的损耗峰,将损耗从原来的2dB/km降到0.3dB/km,使光纤的损耗在1 310~1 600nm波段内都趋于平坦。这项技术可以使光纤的可利用波长增加100nm左右,相当于125个波长通道(按100GHz通道间隔计算)。这项技术的突破,使得光纤全波段的应用成为新的热点。

  技术的进步和需求的不断增长给传统的电信网络带来巨大的冲击,也给信息领域的科技进步和新市场竞争开辟了广阔的天地。以太比特路由器为代表的下一代网络技术将成为主要角逐领域。

  通信技术与计算机技术的紧密融合,构成了未来信息高速公路的基础技术,高性能计算机网络一直是发达国家高度重视的研究发展方向。集成电路技术、计算机处理速度、光通信技术均以超乎人们想象的速度向前发展。例如波分复用技术(WDM)的出现使光通信系统的容量成百倍地增长,并在全世界范围内得到广泛的应用。

  太比特网络发展主要有两个因素,首先是各国政府、高校和运营商的推动,主要有:

  (1)美国政府NGI计划从1997年10月1日开始实施,由多个美国政府部门参加。NGI的具体目标是:第一,指导先进的端到端网络技术研究开发。第二,建立和运行两个实验网,一个相当于当时(1997年)Internet速度100倍的端到端实验网,连接100个以上节点,包括大学、政府研究所和其它研究机构;另一个相当于当时Internet速度1 000倍的端到端实验网,连接10个节点,采用10Gbit/s的IP/SONET/WDM技术连接东西海岸的高速网络。第三,指导革命性的网络应用的研究与开发。

  (2)与政府计划相对应的是美国34所大学于1996年10月提出的Internet 2计划。Internet 2的具体目标是在现有基础上,扩展教育科研网的能力和范围,把新技术应用于Internet。Internet 2包括建立若干个吉比特节点,实现节点互联和QOS研究等。Internet 2的骨干网络为Abilene,Abilene采用IP over SONET技术,局部节点链路带宽为OC-3或OC-12,吉比特节点之间采用OC-48,可升级到OC-192。

  (3)加拿大的CA*net3是世界上第一个光Internet,提供从45Mbit/s到2.5Gbit/s的连接。CA*net3具体目标就是推动加拿大通信基础设施发展,鼓励开发下一代产品、应用和服务。CA*net 3采用IP over WDM/DWDM (N×2.5Gbit/s)技术。

  (4)欧洲的KOMNET网是在德国联邦教育和研究部支持下启动的“面向宽带因特网的光传送和光联网技术”项目,有9个工业界公司和运营商、10个研究机构和12所大学联合参加。项目从1998年启动,定于2002年结束。

  (5)大运营商也在全力支持研究下一代网络技术,特别是在太比特传输和太比特路由交换技术结合上。2000年10月,美国Avici Systems公司宣布与Qwest公司联合,在下一代全光宽带IP网中采用Avici的太比特交换路由器(TSR)。

  由于光通信技术的发展和用户带宽需求的增长,多种业务在多个层次进行复用,日益表现出处理开销增加,网络管理复杂,难以适应用户要求等现象,如IP/ATM/SDH/Optical的组网方式或IP/SONET/Optical的组网方式,就需要布置IP网络设备、ATM网络设备、SDH网络设备和光网络设备等。人们希望新一代因特网技术只要部署IP设备和必要的光设备,高速路由器直接进入国家骨干网,成为国家核心网。也就是IP网络和协议能够与光网络紧密结合,由原来支持SDH/SONET到主要支持IP,实现光因特网。为了达到这一点,需要新的技术,如新的光接口、新的网络控制协议、Lucent的SDL技术、Cisco的DPT技术和OIF(Optical Internet Forum)正在研究的技术。

  其次是IP技术发展趋势的推动,主要有:

  (1)IP技术与电信技术结合,源于IP/ATM/SDH/WDM的组网方式,其特点是能够复用多种业务,早期骨干网基本上采用这种结构。由于用户带宽要求低,这种组网方式表现出合理性。但是这种应用的缺点也很明显,协议层次太多,效率低。

  (2)IP/SDH(SONET)/DWDM技术,现在建设的高速网络主要采用这种结构,其代表产品为Cisco GSR 12000及银河玉衡9108,由于省去了ATM层,可以显著提高效率。

  (3)IP/DWDM,这种结构目前协议层次最少,效率最高。存在两种主要方式,一种是大容量IP路由器直接作为骨干网核心节点,它的输入输出接口采用DWDM技术,如Pluris的技术路线;另一种是IP路由器和波长路由器有机地融合为一个路由交换系统,IP路由器和波长路由器通过OC-192接口相连,如Cisco 公司和Lucent公司的技术路线。Lucent公司的WaveStar Lambda Router就是典型的波长路由器产品,支持基于MESH的光网络,能够与ATM交换机和IP路由器互联。

  2 典型体系结构

  从硬件上看,路由器由数据通路和控制通路组成。数据通路负责报文转发、交换和调度,而控制通路负责路由器配置、管理以及路由信息生成等。在中低端路由器中,所有控制功能和数据转发都由微处理器实现,而高性能路由器一般采用分布方式实现数据通路的功能。

  在高性能路由器中,CPU只负责控制通路处理,将中低端路由器中用CPU实现的数据通路功能转移到各网络接口卡上或功能部件上。高端路由器接口逻辑上由网络处理器和网络接口组成。网络处理器可以采用商用网络处理器或者专门设计的网络处理器。

  前者有C-PORT的产品,后者有银河玉衡9108核心路由器和Cisco 12000系列。网络处理器具有路由查表、转发和调度等功能。物理上采用两种形式,一种是网络处理器与接口分离,代表产品有Cisco 12008系列,特点是转发性能可以根据需要配置;另一种是一对一地集成,代表产品有银河玉衡9108核心路由器,特点是转发性能随接口数量自动增加。

  利用网络处理器可以将接收的报文直接转发,并通过背板交换到输出网络接口卡。这种结构大大减轻了CPU的负担,消除了由CPU的计算和I/O能力带来的瓶颈。每个网络处理器处理报文能力一般在4Mpps以上。由于采用分布处理结构,整机系统的转发性能可以灵活扩展。

  交换网络是超高性能路由器的关键所在,主要有两种:一种是采用来源于计算机体系结构或ATM交换网络用的多级交换网络,另一种是基于光技术或DWDM技术的交换网络。

  (1)多级交换网络

  多级交换网络可分为动态多级互联网络和静态多级互联网络,简称为动态网络和静态网络。由于多级互联网络具有内部阻塞特性,交换网络一般采用内部缓冲区解决内部阻塞的特性。静态网络节点间的连接是固定的,采用不同的连接方法可组成不同的拓扑结构。由于任意两个节点不一定直接相连,也没有类似动态互联网络中临时建立的连接,因此静态网络中非直连节点的通信需要通信路径上其他节点的支持。静态网络拓扑有线性阵列、环,树、胖树、星型网、K元n立方体等。

  (2)DWDM技术

  对于N个输入输出接口,交换网络内部使用N个波长WDM技术,在K个层面上同时处理,目前N=64,K=16是比较成熟的技术。

  接收方采用固定波长,如节点1到节点N分别接收λ1到λn的波长,发送方可以任意调节,需要向第i个节点发送信息时,将波长调节到λi。K个平面同时处理可以大大增加系统吞吐量。

  另外一种基于光通信的办法是采用波长分组方法。每个基本路由器单元或者网络处理器及网络接口处于树的叶节点。

  3 超高性能路由器主要术指标

  作为超高性能路由器,有许多重要的技术指标,参考国内外各类路由器的技术指标,尤其是重要测试指标,本文提出超高性能路由器的主要设计指标,主要包括吞吐量与转发率、延迟、报文重排序、BGP表容量、路由抖动和QOS服务质量,以及最长匹配、路由收敛性、过滤等。由于篇幅关系,本文主要阐述前面6个指标。

  3.1 吞吐量与转发率

  接口吞吐量和转发率是路由器的基本指标,接口吞吐量和转发率仅仅是路由器指标的一部分,但人们经常将吞吐量和转发率理解为最重要的指标,甚至是唯一的指标。

  接口吞吐量和转发率测试时,向被测试设备的每一个接口发送报文。目的地址要求覆盖20万个以上的子网,测试设备提供的信息流要达到线速度。需要注意的是吞吐量在商业中是一个很通顺的词,而事实上,路由测试技术文件RFC 1242将它定义成设备在零丢失下包转发的最高负载。容易出现概念混淆的是将吞吐量理解为以线速率提供信息流,然后在对传送的包进行计数,忽略任何损失。应该强调吞吐量意味着零损失,吞吐量是严格的指标,为了得到路由器的完整行为,还要测量在最大给定负载下的转发率。在转发率测试中,我们以线速率提供包,并对收到的包进行计数,确定有损或零损失。转发率测试结果一般比吞吐量要高。

  OC-192 吞吐量是超高性能路由器的重要指标,在40字节负载下,每秒要处理的报文超过80亿个,聚合速度为115.2 Gbit/s。Cisco12416在处理Imix时(指按照因特网流量特征构造的报文组合,40字节56%、1 500字节23%、576字节17%和52字节5%),获得了接近线速率吞吐量。40字节IP包的吞吐量为52%,这意味着12416将以线速率的52%对信息流进行无损转发,但并不意味会丢失48%。事实上,Cisco 和Juniper 在转发40字节IP包时超过了线速率的99%。

  奇怪的是,Juniper M160 OC-192的40字节IP包吞吐率为92.2%,Imix为90.0%。这个结果与预想的结果相反,按理短报文会给路由器带来更多的负载。

  3.2 延迟

  路由器处理延迟能力在某种程度上与吞吐量一样重要。对于声音和视频等对延迟敏感的应用显得尤为重要。理想情况下,延迟最好低而且恒定,一个延迟抖动很大的路由器难以获得很好的应用。在吞吐量测试时,可以利用Spirent Smartbits 产生/分析每个包生成的时间信息;然后在接收端计算处理延迟,Smartbits 精度为100ns。表1是5个路由器OC-48接口的40字节包延迟测量结果。银河玉衡和Juniper具有较好的结果,前者最小是6.5μs,平均是6.5μs,后者最小是13μs,最小值和最大值之间差8μs。表中除银河玉衡外,其它测试数据引自Internet core router test,由于银河玉衡9108采用全硬件实现报文转发,所以对每个报文的处理时间都是一致的。

表1 OC-48的延迟时间比较表

厂家

最小值(μs)

最大值(μs)

平均(μs)

Cisco 12416

17.7

15 561.8

1 934.6

Foundry

10

160

35.7

Juniper M 160

13.2

21

15

Charlotte Networks

19.1

32 979.7

8 302.8

银河玉衡 9108

6.5

6.5

6.5

  可以看出,Charlotte的平均延迟、最小值、最大值间幅值最大。值得指出的是延迟应在一定的吞吐量级上进行测量,在较高的负载上工作实际上可以测量缓冲的深度,而不仅仅是设备转发一个报文的时间。延迟也体现在缓冲区的使用上,测试说明了调整缓冲区对得到线速吞吐量有较大影响。

  3.3 报文重排序

  Juniper推出OC-192接口后,同行们就一直盯着报文重排序问题。导致重排序的原因是通过Juniper OC-192卡实际上存在4条路径,也就意味着报文可以通过不同路径乱序到达。事实上Juniper的OC-192接口确实在IP和多协议标记交换(MPLS)流量上重排序了一些报文。当转发40字节IP报文时,Juniper的 OC-192卡至多只对IP和MPLS流量的0.51%进行了重排序。而在Imix情况下,IP报文重排序达到了2.65%,在OC-192上,只要流量速度超过了Imix线速度的73%或者IP的56%,就会发生重排序。在OC-48接口上没有这类重排序。

  Cisco认为,重排序对传输控制协议(TCP)来讲,是一件非常糟糕的事,而TCP占互联网流量90%以上。Cisco认为TCP希望报文能够有序接收,如果不这样,就可能出现重传,导致更高的延时,如果延时过长,连接就会超时。为了说明它的观点,Cisco在IEEE和ACM杂志上发表了由两位杰出的计算机专家Jon C R Bennett和Craig Partridge撰写的文章。

  Juniper也发表了一篇文章来解释重排序,他还提供了4个参数来说明为什么不会像Cisco所说的那么严重。首先,他指出我们所见到的重排序并没有接近Bennett和Partridge所说的那么多;其次,Juniper指出重排序只针对每一次连接有意义,互联网核心电路处理成千上万个并发的连接,即便两个报文乱序到达,它们同时属于某一个连接的可能性是非常小的,销售商也提出非常乐意接受重排序,这样会使网络上的所有连接获得高吞吐率和低延迟;再次,Juniper指出TCP 和Spirent smartbits使用不同的方法来解决报文重排序,相对于TCP来说,Smartbits会报告更多的重排序;最后,Juniper指出由于OC-192而造成的重排序的碰撞是不会累积的。无论争论如何,必须肯定的是重排序对于TCP连接会有比较大的负面影响,它会戏剧性地增加延时,为此在设计时必须避免出现重排序。

  3.4 BGP表容量

  经过20世纪90年代的发展,BGP网络的个数直线上升,在最近18个月里,BGP网络数量已经开始以接近指数的速率增长。不难想象在今后的几年里BGP表在规模上至少会翻倍或是变为原来的3倍。

  事实上BGP表容量很大程度上取决于设备存储器。Juniper的M160提供768Mbytes的RAM。Cisco公司的12416配置为256Mbytes,新的12416版本会提供1Gbytes存储器,但没有明确说明1Gbytes 的12416能否获得超过40万个路径。

  BGP表项多少取决于软件的设计。如何构造一个合理的算法快速处理大容量的路由表是设计者面临的主要问题。例如Juniper M160处理路由硬件本质上是高端PC,具有自己的CPU和硬件驱动,即使有了768Mbytes的RAM,大约可以存储140万个路径,之后,M160开始将内存的内容存到硬盘上。M160在超过240万个路径后停止获得路径,因为它超出了交换区的空间。即使获得更多的存储空间,路由器还是不能完成更多的表项。

  3.5 路由抖动

  实际网络的核心路由器在某一秒的时间里可能会丢失上万个互联网路由,或者立刻就会产生成千上万个新路由。核心路由器能否很好地处理这种不稳定性呢?

  抖动性测试通常给路由器装载超过20万条路由条目,同时也装载20万条备份路由以及20万条第3组路由,以便于主路由关闭时向所有的接口以线速度传送40字节的IP报文。测试持续一段时间,如30s,然后测试仪的BGP层撤销1/4主路由。所有的撤销路由都有相应的备份路由,所以对于每一个报文总有一些可用的路由。一段时间后(如30s),重新广播前面撤销的5万条主路由。这个过程持续多次。

  优秀的路由器应该在这种测试中只有很少或没有性能损耗。15万个路由项以内,也就是属于稳定的路由中,由于没有改变其路由选择信息,性能应该比较平滑。而那些有抖动的路径,报文应该于瞬息之间切换到备份路径上。

  优秀设备在稳定和抖动路径上的转发速度应该基本上没有差异。

  实际上要获得完美的性能还有很长一段路要走。测试表明在稳定的路径上,Cisco的12416在转发报文时速度上基本没有改变。但是,Cisco路由器在抖动路径上转发报文的速度则大大降低了。

  在抖动路径上的转发速度将花费一段较长的时间才能恢复正常。Cisco对它的收敛时间进行了估计,即从一个节点的路由升级传播到整个网络所需要的时间比它测试常用的30s的间隔要长一点。

  Juniper M160在稳定的OC-48路径上的转发速度没有Cisco的稳定,但抖动幅度比Cisco的要小。在抖动路径上,M160比Cisco更为出色,体现在转发的下降幅度比Cisco的要小,在每次突变后比Cisco更快地完成收敛。

  3.6 QOS服务质量

  QOS是人们常挂在嘴边话题之一。大部分考虑是通过保证确定流量类型来收取额外费用。例如,在Internet发生拥塞时获得优先处理。实际上,很多经营者都把QOS视为有利可图之道。QOS效果或许与商家描述的正相反。有人作过测试,假设定义3种服务级别:黄金级、白银级、青铜级,传输流量比率为70:20:5。Cisco 12416和Juniper M160实际为70:16:5和70:14:5。也就是说即便是在拥塞的情况下,有足够的带宽来满足所有黄金级流量而不产生数据包丢失,而白银级和青铜级则丢失较多。

  为此在QOS问题上,至少有两点值得我们深思:第一,即使是目前技术最领先的Cisco和Juniper,对于简单的3种服务类型(COS)的流量处理也只能达到目前这个水平,所以有更远的路要走;第二,目前因特网络业务流量每秒钟在发生变化,分类机制不精确也是必然的,那些号称能够为多种流量级别提供细粒度精确控制的产品实际是不可能实用的,几种简单的恒定的流量也必须花很长时间调节缓冲区的大小,才能达到上述测试结果。

  4 超高性能路由器关键技术

  4.1 路由器软件技术

  路由器技术中最核心的技术是软件技术。路由软件是最复杂的软件之一。有些路由软件运行在UNIX操作系统上,有些路由软件运行在嵌入式操作系统上,甚至有些软件为提高效率,本身就是操作系统。全球最大的路由器生产厂家Cisco公司曾一度宣称是一个软件公司,可见路由器软件在路由器技术中所占的重要地位。

  路由器软件一般实现路由协议功能、查表转发功能和管理维护等其他功能。由于因特网规模庞大,运行在因特网上路由器中的路由表非常巨大,可能包含几十万条路由,查表转发工作可想而知非常繁重,在超高性能路由器中上述功能通常由ASIC芯片硬件实现。

  路由软件的高复杂性另一方面体现在高可靠性、高可用性以及鲁棒性。实现路由软件的功能并不复杂,难点在于需要该软件每年365天,每天24小时都高效可靠地运行。

  4.2 路由协议

  路由协议是路由器软件的重要组成部分。路由协议用作建立以及维护路由表。路由表用于为每个IP包选择输出端口或下一跳地址。开放的路由协议主要包含RIP/RIPv2、OSPF、IS-IS和BGP4。RIP/RIPv2、OSPF和IS-IS作为域内路由协议,一般用在AS(自治系统)内部,进行内部计算以及交换大量网络可达性消息。

  RIP/RIPv2是距离向量路由协议,一般用于企业内部小规模网络。OSPF和IS-IS协议原理和实现都类似,是链路状态协议,一般用于大规模企业网或运营商网络。

  BGP4协议基于距离向量,是当前AS间路由协议的唯一选择。通常BGP交换大量网络可达性消息,是IP网上重要协议。路由协议的实现与路由器软件要求相似,需要实现高可靠性、高稳定性、鲁棒性以及安全性。

  4.3 队列管理算法

  因为路由器是基于分组交换的设备,每个端口采用带宽统计复用,所以路由器必须在端口上维护一个或多个队列,否则路由器无法处理多个数据包同时向同一端口转发以及端口QOS等问题。队列管理算法直接影响路由器性能、QOS能力以及拥塞管理能力。队列管理算法主要分为基于时标算法、基于轮转算法以及基于优先级队列等。

  基于时标的分组调度算法为每个分组维持两个时标,一个命名为起始时标,一个命名为完成时标。路由器根据上述时标来决定下一转发数据包。基于时标的算法最常见的有WFQ、WF2Q等。基于轮转调度机制的工作原理与操作系统里的多任务轮转调度有类似之处。基于轮转的调度算法通常有WRR、DRR等。

  基于优先级的队列管理能根据预先规定或用户指定的优先级,对不同队列的数据包实施转发调度。路由器通常还在队列中使用RED(随机早期侦测)、WRED(加权随机早期侦测)等机制来避免拥塞。

  4.4 MPLS技术

  作为一种高效的IP骨干网支撑技术,MPLS技术为下一代的IP网络提供了一种灵活且具有扩展性的骨干网交换技术基础。使用MPLS技术,有望大大提高网络的运行效率,实现对IP网上业务的QOS划分,并通过流量工程对网络资源进行合理分配,实现约束路由。借助于这些能力,MPLS网络还将能够提供高效的VPN业务、实时业务等。虽然MPLS拥有种种优点,但是在大网上还没有广泛应用。原因在于协议不成熟,多厂商互通性存在问题,MPLS跨AS甚至跨地区存在不少问题,VC Merge(VC合并)需要研究。然而在目前看来,MPLS是实现基于虚拟专用网(VPN)最理想的方案并且能够实现流量工程。未来IP网的研究必须探讨采用MPLS的可能性,路由器设备必须考虑实现MPLS。

  4.5 TCP交换技术

  与MPLS相对应的是TCP交换。TCP交换的出发点依然立足于TCP/IP协议,不引入新的技术手段(如MPLS),而是直接利用TCP协议状态机本身具备流的一切知识的特点,在网络核心层,形成TCP交换核心,达到目前MPLS所希望达到的目的。由于TCP含有每条流的知识,因此用户关心的QOS特征、流量工程、流量控制等均可通过TCP交换获得。

  TCP交换的主要缺点是如何高效处理大量的流,必须引入新的实现思想,约束系统中数据流的数量,从而达到高效处理的目的。TCP交换必须引起我们的重视。

  5 结束语

  上述论述都是以IP交换为核心构建超高速路由器,虽然在交换上也引入了光技术。从整个信息传输的角度,Cisco的ONS15900的波长路由器及其波长路由协议(WARP)值得关注。通过波长路由器和IP路由器的有机结合,可以组成更加高效的国家骨干网络。

  波长路由器的目的是增加光网的智能,使点到点的光管道变成可管理的光网。WARP有3个目标:(1)达到或者超过SDH自愈环倒换时间。所有与协议有关的状态和控制消息都靠未定义的SDH帧承载,这样就能以硬件速度处理节点间事件传送。(2)至少增加30%网络容量,从而进一步改善光纤的利用率。为了达到这个目标,必须引入采用分布智能协议的数据库和分布式控制恢复。每一个波长路由器都维护一个最新的网络及其拓扑,包括可能的节点和链路、配置的连接等,这些内容的任何改变都用WARP包和协议广播发出。关于拓扑分布算法的许多思想借鉴于现有的OSPF、PNNI和802.1d协议。(3)能够快速实施,满足运营商的需求。

  为了限制网络拓扑数据库的大小和广播包的发送范围,可以将采用类似OSPF的Area和BGP的AS的办法,将网络分成更小的逻辑组,称为区(Zone)。每一个区只运行独立的拓扑分布算法,区内各节点维护本区的信息。此外,定义一个特殊区,称为骨干(Backbone),用以描述区间的连接性。区内节点间的链路称为区内链路,连接各区链路称为区间链路。凡有区间链路的节点称为边界节点,边界节点需维护两个独立的数据库,一个是骨干数据库,一个是区数据库。

[摘要] 文章简述了以太比特路由器为代表的超高性能路由器的发展背景和典型体系结构,详细介绍了超高性能路由器的主要技术指标:吞吐量与转发率、延迟、报文重排序和路由抖动,并讨论了路由器软件、路由协议、队列管理算法、多协议标记交换、传输控制协议交换等超高性能路由器关键技术。

[关键词] 太比特路由器 技术指标 体系结构 关键技术

[Abstract] The paper briefs the development background and model architecture of super-performance terabit router represented by the terabit router, details the main technical indexes of super-performance terabit routers such as Throughput, Forwarding Rate, Latency, Packet Reordering and Route Jittering, and discusses some key technologies about router software, routing protocol, queue management algorithm, MPLS, TCP switching, etc.

[Keywords] Terabit router Technical index Architecture Key technology