基于流量预测的实时流量调优架构及应用

发布时间:2018-08-27 作者:唐春(中兴通讯) 阅读量:

随着网络流量的激增,以及NFV/SDN/5G等新技术的发展,网络规模迅速扩张,网络拓扑结构和业务类型异常复杂,对网络带宽的规划维护提出了更高的要求。传统带宽配置主要依赖人工经验,难以满足要求,主要存在以下问题:

● 配置方式繁琐易出错,运营维护工作量大。现有方式采用固定的配置,难以满足灵活的带宽要求;为了保障重要服务,网络管理员需要人工进行流量调度,难以实现实时流量优化;人工方式运维成本高,对管理员经验要求高,还存在操作失当而导致网络流量阻塞的风险。

● 灵活性差,无法根据流量本身的时间特征、空间特征、业务特征实时调整。为了保障业务质量,运营商往往按经验峰值加上冗余进行配置,在业务低谷时,造成带宽资源的浪费,而在演唱会等热点事件发生时,又可能因为资源不足而导致网络阻塞。

● 缺乏流量预测手段。现有系统无法预先感知流量的发展趋势,无法对可能造成的阻塞情况进行预警,往往在故障发生后才应急响应,造成扩容的被动。

因此,网络运营商正在寻求更加高效和灵活的方法,以实现带宽资源自动化分析与优化。本文提出一种基于流量预测的实时流量调优方法,可以满足运营商的需求。

系统架构


整个系统包括采集、存储、分析、策略生成几个部分,形成一个闭环,同时,系统支持适配各种第三方设备和接口(见图1)。


● 数据采集:通过探针、网管采集被管网元的流量和质量KPI,同时,系统支持接收第三方的数据;

● 分析平台:分析平台是本系统的核心模块,包括数据存储平台、AI算法库、建模数据和流量建模应用。

大数据存储分析平台:用于弹性存储和分析由数据源采集到的数据。系统使用HDFS存储分布式文件,GBase作为分布式数据库,并使用Spark分布式计算框架作为底层平台,在平台上封装了数据治理、用户资源管理等通用功能。

AI平台算法库:用于给上层机器学习应用提供算法支撑。AI算法支持多种组件,包括基于python的轻量级机器学习组件,基于深度神经网络的Tensorflow,以及AI可视化建模工具等。

建模数据:用于机器学习的建模分析,包括存储在大数据平台上的历史观察数据和实时流量数据。

流量建模应用:主要针对历史流量数据进行学习,生成流量和日历的模型数据,并生成带宽优化策略;能够根据当前实时流量KPI数据,进行策略的推送。

● 对外接口:将分析平台生成的带宽调整策略,推送给外部管理节点进行策略的执行,同时,系统提供Restful接口,供外部组件访问。

系统工作流程


系统使用机器学习对性能数据进行统计分析,挖掘有用的信息;通过历史数据,分析热点事件的规律;通过日常数据,建立忙闲时带宽基线模型,即“带宽日历”。依据这些信息,预设置自动化带宽调整策略,自动进行带宽的调整和分配,从而达到提高整体带宽利用率的目的,降低网络阻塞的风险。整个系统的工作流程如图2所示。
 


性能数据超限监控
系统通过日常的数据分析,得到流量模型,建立动态的流量门限;BigDNA实时检测性能数据,判断流量是否超限,触发策略执行。

针对即时流量分析,系统采用流式处理方式,采集15秒粒度的流量数据,进行实时学习,再进行汇总分析。

长期历史性能数据采集
通过历史数据的分析,获取热点规律,为带宽调整日历生成提供数据支撑。

针对流量增长趋势分析,系统使用离线学习,采用批处理方式,对过去3—5年的流量历史数据进行训练,获取流量特征;采用先进的机器学习方式,针对不同的流量特征挖掘采用不同的算法。

流量增长趋势,采用回归类监督学习方法,如线性回归、时间序列、RNN等;对于流量特征、带宽日历,采用k-means聚类等非监督学习方式,将相似的流量曲线聚集成一类,挖掘出其中的规律,再通过分类算法(如SVM),根据特征进行分类,从而预测出某个时间的流量曲线。

流量每天的规律,系统使用无监督聚类来进行挖掘,目标是保证分成一类的数据尽可能相似,而不是同一类的数据尽可能相异;在流量预测中将每小时的流量连线视为一条曲线, 使用聚类算法k-means来将相似的曲线分为一组, 挖掘其中的日期规律,如节假日、春节、平时等,不同地区对假日的曲线高度类似,从而可以根据特征预测曲线形式得到带宽日历。聚类后,对已有数据都可以标记相应的类型,如3月1日的曲线类型是1,5月1日的曲线类型是2;然后对日期进行特征提取,如5月1日特征为节假日,3月1日特征为平时,得到日期特征->曲线类型的训练数据,使用分类算法对这些数据进行训练,可以得到日期特征—>曲线类型的模型,使用此模型,即可预测未来某个日期的曲线类型。 

“带宽调整日历”生成


系统对历史数据进行机器学习,生成带宽调整日历。 系统根据长期的带宽数据,获取带宽日历规律,考虑的因素包括节假日、区域位置、热点事件等,从而预测流量在一天内的变化情况,并根据流量的变化,形成调整策略, 预先调整带宽。

“触发策略”生成


系统根据获取的流量特征,分析流量规律,制定带宽调整策略。

带宽调优


系统检测性能数据,触发策略后,根据相应的规律进行调整,以保证业务质量;针对实时的性能数据,进行带宽实时超限调整,针对热点事件的检测,进行带宽日历的预调整。

效果评估


系统根据策略进行参数调整后,持续采集数据, 判断是否达到目标, 进行进一步微调。

系统应用场景

系统能够对全网设备的性能数据进行实时采集分析,并根据预设的调整门限,实时计算出需要调整的设备及其带宽;同时,系统能够根据历史数据规律,预测出未来时间的带宽信息,时间粒度可以精确到15分钟。系统可以应用于多个场景,如数据中心、IP骨干网、传送网等。

● SPTN流量调优
SPTN控制器向BIGDNA下发需要调优的资源对象,BIGDNA根据伪线和隧道的实时流量数据,分析计算出最优调整方案,并通过调整伪线、隧道、端口的CIR/PIR来达到流量的最优化。

● IDC流量调优
SDNO(软件定义网络编排器)通过WAN控制器获取资源对象的带宽信息,通过网管获取历史性能数据信息;NTE通过NETFLOW采集流信息,并接收SDNO下发的规则来汇聚流数据。SDNO根据获取的数据,进行两个端口的流量负荷比对比,决策是否调整;当触发流量调整策略后,系统通过调整流的路由来达到流量的最优化。

● IP+光流量调优
系统通过H控制器,采集VTELINK资源进行实时流量性能数据,并从H控制器获取采集对象的带宽属性信息,然后通过分析获得流量规律,生成带宽实时调整策略;根据检测性能数据和门限值对比,触发策略,进行流量的调优。

系统应用案例

此系统已经在多个项目中部署使用,达到了预期效果。

IP+光流量的调优应用
在IP+光网络应用场景中,系统通过BIGDNA产品的大数据处理能力和流量精准预测能力,根据现网实际的流量,快速调整VTELINK的带宽,既能够及时处理网络拥塞问题,又能灵活调配网络资源,达到提升资源利用率的目的。

系统BIGDNA,通过Restconf接口,进行IP+光网络数据的性能告警数据的订阅,以及策略的推送。通过与CO(单域控制器)的交互,实现网络拥塞、故障、性能劣化的快速处理;通过与HCO(多域控制器)、编排器之间的交互,实现网络性能数据的预测及网络路径的优化。

PTN网络带宽检测应用
系统实时检测PTN的流量数据,针对获取的异常流量数据,能够及时分析,获取流量异常的原因,并提供优化建议。例如,当PTN网络出现链路故障后,此链路的流量会分配到保护链路,对保护链路造成流量冲击;流量调优系统,能够实时采集到相关的流量变化信息,根据流量规律模型,对保护链路的影响进行评估,包括Qos、时延、抖动等指标;并能够根据流量趋势模型,进行流量的走势预测,及时给出告警,并提供优化建议。

客户收益

新技术日新月异,运维技术在竞争中越来越关键,“零接触”自动化网络是未来的必然趋势,如何利用人工智能提供优质服务,是运营商能够脱颖而出的关键因素。此系统的部署,可以为运营商带来以下好处:

● 解决人工经验不准问题:系统通过分析网络带宽利用率,以及流量在时间和空间上的分布情况,形成全网的流量模型,从而更好地进行流程监控;

● 提升用户体验,降低运营成本和投资:系统通过机器学习,挖掘网络的资源瓶颈,获取最佳的带宽配置方案,以提升带宽的利用率;

● 实现带宽的自动调整:通过对历史流量趋势进行机器学习,建立流量增长模型,通过策略配置,实现带宽资源的预警和自动扩容。

未来网络运营,必将打破传统方式,由被动防御走向主动优化,由静态配置走向动态调整。本文提出了一种利用人工智能来实现流量优化的方法,希望能为人工智能在运维领域的其他方面的应用提供一些启发。