集群式短信中心异地容灾方案探讨和实现思路

发布时间:2012-07-17 作者:吴元琦,胡晓彦,刘贵荣,文晓磊(中国联通深圳分公司)

随着移动通信业务的快速发展,手机短信逐渐成为用户日常工作和生活的重要联系方式,业务量快速增长,用户对网络的稳定性要求也日益提高。本文深入分析短信中心内部各种业务模块的功能、与外部网元的接口和特点,研究对比不同容灾备份方案的优缺点,提出全新的一种异地容灾方案,并探讨实现的可行性和具体操作方法,可以作为将来短信中心结构改造、优化的参考。

广东是全国经济最发达的地区之一,用户对通信业务的需求量大,目前每日广东联通的短信收发总量约为3000万条,每年短信业务收入约5亿元,2011年除夕短信中心流量峰值达6098条/s。

为满足业务发展需求,广东联通在广州、深圳各建设一套短信中心,分别承载粤西和粤东两个大区的短信业务,负荷分担并且互为容灾备份,以保障全省短信服务的可靠性。

目前的应急容灾方案存在的问题

传统的应急容灾方案


传统的应急方案依赖相关系统修改路由来实现,一个SMSC(短消息服务中心)如果任何模块出现故障,需在HSTP修改路由指向另一SMSC。方案实现比较简单,但存在几个缺点:

●    需要人工修改核心网信令转接点HSTP的局数据,应急操作有一定时延;

●    所有短信相关系统(互通网关、联通在信网关等)修改用户号段下行路由指向,涉及调整的系统多,需配合的人员多,难以做到快速响应;

●    需人工保证各短信中心配置数据、用户信息的一致性,以满足容灾需要;

●    在此容灾模式下只能将整个故障短信中心的业务流量切换到正常短信中心, 做到针对全局的容灾,不能做到针对短信中心内部不同层次模块的容灾。比如一个局的信令网关发生故障,则该局的APP业务处理机、SMPP服务器(负责短信中心与外部实体通信)等设备也无法利用,全部都要由正常局的设备模块来处理。

 

双网双平面异地容灾方案


双网双平面短信中心异地容灾的方案在部分省市已经实现,具体方法是:将分设两地的全省两个短信中心——SMSC-1、SMSC-2重要模块互联,通过软件调度实现短信中心模块级互相容灾。

这种方案做到短信中心内部不同层次模块的容灾,将一个局出现故障模块承载的业务分流另一平面,该局正常的各功能模块仍正常承载业务。这种方案提高了设备的利用率,但仍存在几个缺点:

●  HSTP将短信息均匀地分发到两个短信中心,使每个短信中心都分别保存全省各地市用户的部分短信记录,增加了数据查询和投诉处理的难度;

●  长短信的处理流程复杂,增加消息处理错误几率;

●  当一个平面的SMPP模块故障时,手机上行短信可以自动切换至另一平面,但因外部ESME实体互通网关、联通在信网关等下发到短信中心的消息均是根据号段路由,因此这种故障时ESME的下行短信并不能做到自动切换,需所有短信相关系统修改用户号段指向,这个问题很大程度上限制了异地容灾的实时性。

集群式异地容灾短信中心实现思路和条件


综合分析不同容灾备份方案的优缺点,本文提出集群式短信中心异地容灾方案。集群式短信中心对外部网元来说是一个逻辑业务系统,同时可实现内部模块级的自动容灾备份。

集群式异地容灾短信中心的实现原理


将广州和深圳全省两个大区的短信中心整合,组成一个集群式的短信中心,逻辑上是一个短信中心,但物理上设备分设在广深两地。相当于把短信中心的局域网通过IP承载网将距离扩展(见图1)。


●     信令接口:广深两个信令网关(IW/GMSC)GT相同信令点编码不同,HSTP根据需要调整GT翻译来决定每个局向的负荷。当一个信令网关出现故障时,信令链路故障,HSTP会自动将短信息送往正常的信令网关,业务不会受影响。

●     SMPP接口:短信中心对外为同一服务IP地址,当A地模块故障,B地模块自动接管服务。短信中心SMPP模块倒换时外部连接的ESME会断开并快速重连,重连所需的时间根据各ESME 分享到: