uSmartInsight:自主进化网络的智能引擎

发布时间:2019-07-22 作者:韩炳涛 中兴通讯 阅读量 :

近年来将人工智能技术应用于通信网络的研究取得了重大进展,在网络运营编排、运维管理、智能化网元三个层次上,挖掘出越来越多的场景。运用人工智能技术,可快速响应业务变化、简化网络运维管理、提升网络资源利用效率,使运营商能够持续增加业务收入、降低运维成本、优化投资收益。

uSmartInsight作为中兴通讯统一的人工智能平台,提供可部署于网络各个层次、不同位置的智能引擎,为网络实现泛在的智能识别、分析、预测、决策能力;提供具备大规模数据处理和模型训练能力的训练平台,实现模型能力不断提升;平台开放能力使得第三方可以使用平台的数据、算力训练自定义的模型,以及将已训练好的模型通过标准化接口部署到智能引擎。传统通信网络向智能化网络的进化是一个漫长、复杂的过程,中兴通讯采取分层闭环、模块化引入、分级演进的策略,实现网络智能化的平滑演进,最终实现网络高度自治。

网络智能的分层闭环

通信网络可以分为网元层、管控层和运营管理层三个层次。网元层由无线、核心网、承载网的各种网络设备组成;管控层由单专业网网管组成,包括EMS、MANO等;运营管理层由多个专业网的综合网管组成。uSmartInsight在网络各层次部署相应的AI引擎,使网络具备分层的、泛在的数据处理、模型训练和推理能力。如图1所示,uSmartInsight平台针对三个层次,分别提供三种不同的智能引擎:AI分析引擎、轻量化AI引擎和实时AI引擎。

-AI分析引擎:在数据中心部署的智能引擎,融合大数据技术和大规模GPU异构计算技术,实现海量数据的处理、分析,及大规模AI模型的分布式训练、推理。AI分析引擎主要用于运营管理层跨域、跨厂商的,数据量TB至PB级,实现延迟为分钟至小时级的非实时AI功能。

-轻量化AI引擎:部署在单机至2~5台小规模集群的轻量化智能引擎,其功能在AI分析引擎基础上进行了轻量化裁剪,去掉了大数据及大规模GPU集群管理功能,保留了AI模型的分布式训练和推理能力。轻量化AI引擎适合管控层的EMS、MANO产品,其数据量通常在GB级,实现延迟为秒级的非实时AI功能。

-实时AI引擎:部署在网元的实时智能引擎,其功能进一步裁剪,只保留AI模型的推理能力,同时支持嵌入式端侧硬件加速方案,如各种专用AI加速板卡。通过专用硬件设计、软硬件协同优化来降低处理延迟,从而达到实时性要求。实时AI引擎适合基站CU/DU、CN、OTN、IPRAN产品,其数据量通常在MB级,实现延迟为毫秒级的实时/准实时AI功能。

除此之外,uSmartInsight还提供了AI训练平台,完成从数据获取、采样、特征工程,到模型训练、评估,再到模型部署到AI引擎、实现在线服务的端到端流程。将AI训练平台部署在核心DC,并与数据湖打通,即可将数据湖收集的海量网络数据用于AI模型的训练,不断提升AI模型的准确率。AI训练平台提供了可视化建模工具以及大量的网络智能化算法通用算子,用户可以将这些算子编排为一个完整的AI功能,利用自有数据完成模型训练和测试,实现AI功能的快速开发和验证,以及自动部署上线。

基于uSmartInsight上述功能,实现网络智能的分层闭环。在设计时,网络三个不同层次产生的数据,通过统一的数据收集API上传至数据湖,AI训练平台利用这些数据进行模型训练,并将训练好的模型通过标准化接口部署到三个层次的AI引擎上。在运行时,三个层次的AI引擎分别接收各层其他功能模块的数据,并向其他模块返回模型推理结果,实现网元自环、子网小环、全网大环的闭环。

网络智能的模块化引入

人工智能技术是多种技术组合体,可以从模型、算法、计算硬件、数据、部署方式等不同维度予以划分。由于网络智能化场景的多样性,特定的技术组合难以在每种场景下取得性价比最优。因此,uSmartInsight提供模块化能力,允许用户按照场景需求来配置三种智能引擎的功能模块,实现各个场景下的最优性价比。

-AI容器云模块:基于Kubernetes和Docker实现CPU和GPU集群管理和容器化部署,通过对Kubernetes的扩展,支持多个容器共享同一个GPU的能力。

-大数据模块:在数据存储方面,基于HDFS和Hive提供基于文件和基于表的数据存储方式;在数据处理方面,基于Spark和Flink提供批式和流式大数据的处理能力。

-算法框架模块:支持MLlib、sklearn、Tensorflow、pyTorch、Caffe等多种机器学习、深度学习算法框架;统一的SDK,提供统一的、融合的编程体验。

-分布式训练模块:支持大规模分布式深度学习并行训练,可在数分钟完成ImageNet的训练;通过对训练算法、并行架构、通信协议优化,达到90%以上加速比。

-推理引擎模块:支持多种机器学习、深度学习模型在云、端不同设备上的推理,支持多种加速硬件,通过软硬件协同优化降低推理延迟和部署成本。

-模型编译器模块:自动完成多种深度学习模型的压缩、剪枝,以及面向CPU、GPU、FPGA等硬件平台的优化。

-作业和应用编排管理模块:支持将多种算子编排为复杂的AI批式作业,完成端到端的数据处理、模型训练、评估和推理;支持基于k8s和cPaaS将多个微服务编排复杂的AI应用。

-智能引擎接口模块:为三种智能引擎提供中兴通讯内部的标准化接口,以及社区开源平台,如Acumos的接口。

-AI Studio模块:提供端到端的、可视化的AI模型开发工具。

uSmartInsight通过统一的架构和标准化接口设计,使各功能模块可以自由组合或裁剪。表1为训练平台和三种智能引擎的功能模块典型配置。

 

网络智能的分级演进

网络智能的分级演进过程,就是人工逐步退出网络运营、运维和控制的过程。

在第一阶段,基于专家经验以及规则系统,在网络的运营、运维业务中,形成静态、自动化的闭环。这个阶段并不需要引入人工智能技术及uSmartInsight平台。

在第二阶段,采用离线的、监督学习方法,从大量历史数据中拟合出最优的规则门限,使人工可以从繁重的规则配置工作中解脱,并且达到更优的效果。uSmartInsight支持各种监督学习算法,以及多种机器学习、深度学习框架,帮助用户以可视化方式构建、训练和评估模型。

在第三阶段,采用在线的、自动学习方法,自动根据在线数据构建最佳模型,使人工从模型训练工作中解脱,实现网络自学习、自优化。除了自动学习,uSmartInsight支持迁移学习,使在上一阶段中的大量标注数据能够用于自动学习过程,减少了对人工的需求。uSmartInsight还支持联邦学习这种新的学习范式,实现在线的、分布式学习,进一步保护数据隐私。

uSmartInsight将分层闭环、模块化引入、分级演进的策略作为基本的设计理念,通过部署uSmartInsight平台,可以帮助运营商实现自主进化网络平滑演进。