人工智能在宽带用户感知领域的应用和实践

发布时间:2018-08-27 作者:刘国,贾廷尧,孙鸣(中兴通讯) 阅读量:

据统计,截至2017年7月,全国三家基础运营商的固定互联网宽带接入用户总数达3.22亿户,其中光纤接入用户达2.61亿户,50Mbps及以上固定宽带接入用户占比近55%。一方面用户和流量还在持续增加,一方面用户的投诉也在逐年增长,而运营商现有的以网络为中心的传统宽带网络运维体系消耗成本高,投入产出比低,对于用户体验不可视、不可管、不可控,处于被动式面对用户的状态。因此,急需新的突破性技术和系统来支持主动分析、管理用户感知,最终实现先于用户发现问题、先于用户解决问题的目标,在以用户体验为根本的激烈市场竞争中保持领先。

中兴通讯固网宽带客户感知管理BIGDNA-CEM(Customer Experience Management)系统是基于大数据和人工智能技术,帮助运营商更好地了解、管理和保障用户体验,助力运营体系“从网络看用户”向“从用户看网络”转变。

BIGDNA-CEM宽带用户全业务指标和感知体系

BIGDNA-CEM系统支持用户的Web浏览、视频、即时通讯(IM)、游戏、邮箱和上传下载大文件这六个互联网业务的感知管理和预测。

BIGDNA-CEM系统自下而上采用4层金字塔指标体系构建用户感知评估模型:

● 关键性能指标KPI(Key Performance Indication);
● 关键质量指标KQI(Key Quality Indicators);
● 用户对某类业务的感知QoE(Quality of Experience);
● 用户总体归一化感知CEI(Consumer Experience Indicator),综合了用户各类业务的总体感知。

评估和预测用户业务体验感知的重点和难点之一就是Web浏览类业务,BIGDNA-CEM系统在海量的用户业务行为数据的基础上,基于大数据,通过人工智能技术有效地实现了对用户Web浏览业务的感知评估。

基于人工智能的Web浏览业务感知模型的选型

主流的人工智能机器学习和深度学习分为监督式学习、非监督式学习和半监督式学习。

一般情况下,监督学习要求样本和数据中的分类比例大致相同,但感知差(质差)用户总体上占比不高,属于典型的数据分布不平衡状态,样本获取途径单一,有效样本少之又少,原因有以下两点:

● 由于数据量庞大,无法通过人工方式从海量的用户互联网业务XDR中提取学习样本;
● 运营商的客服系统中存在客户投诉信息,虽然从这些信息中可以提取少量样本,但由于受用户个体耐受能力、生活习惯等多种主观因素影响,最终反映到运营商客户投诉系统中会天然地缺失部分质差用户的样本信息,从而导致有效样本更加稀缺。

由于上述原因,基于大量有效样本的监督式学习相关AI模型不适用于用户感知评估。

传统的非监督机器学习如聚类,不能处理用户感知这类复杂分类问题,主要原因是影响用户感知的指标和因素多,关系错综复杂,隐含关系多,而传统的非监督学习对这类复杂分类问题,特别是目标对象包含信息复杂时,无法表达且缺乏泛化能力。采用基于神经元节点组成多级分层网络的深度学习可以解决这一问题,这种方法能更好地适应多因素、高随机性、不确定性和非线性的用户感知预测。

据业界实践,完全的非监督学习的实施难度大且失败风险高,成功案列屈指可数,存在无法有效验证预测效果、结果不收敛等问题。考虑到BIGDNA-CEM系统仅能获取到少量的准确样本,因此采用半监督的深度信念网络实现用户感知的分析。

BIGDNA-CEM基于人工智能的系统结构如图1所示。


 

基于人工智能的Web浏览业务感知模型的训练

基于人工智能的用户投诉信息样本质差分类
用户质差样本主要来源于运营商的客户投诉系统。客户投诉系统中记录了大量的用户投诉信息,这些投诉信息涉及方方面面的问题,如设备故障业务不可用、业务质差,甚至存在大量模糊或者错误的投诉信息。以前,主要依靠人工来分析、识别、标注出有效的投诉记录作为人工智能学习样本,耗费大量人力,而且识别准确性不高。

BIGDNA-CEM系统采用人工智能技术,基于词频型朴素贝叶斯的自然语言分类器进行训练和预测,对这些用户投诉信息进行学习、过滤、识别、分类,结果分为:

● 感知差,存在严重质差。由于业务使用出现严重障碍,导致用户投诉。
● 感知一般,存在质差。由于业务使用逐渐劣化所导致的用户投诉。
● 非感知质差,非业务使用感受原因导致的其他投诉。比如,上网比较慢、观看视频卡顿、下载速度很慢等这类投诉表面上属于质差类投诉,但如果是由于应用侧问题,比如某网站服务器瘫痪导致的用户上不了网就属于非质差类投诉。

对于质差用户的投诉信息,进一步提取质差发生时间、质差发生时使用的业务种类等特征。这些质差用户和质差特征将和XDR关联生成后续的样本(如图1)。

基于词频型朴素贝叶斯的自然语言分类器的预测精度取决于样本的数量和分布。通过分析不同地域不同运营商的用户投诉信息,结合故障的分布情况,得出与质差有关(包括内容源障碍、家庭网络障碍、用户终端障碍)的用户投诉占比约为10%~26%,因此,BIGDNA-CEM系统首先按照质差10%的分布率从客户投诉系统提取、制作和标签原始投诉样本集,即采用人工方式识别和标注质差类用户样本和非质差类用户样本,然后,将样本导入贝叶斯算法模型,进行训练学习并生成模型。经过验证的模型就可以用于后续的推理应用。

深度信念网络模型的数据预处理


● 纵向切面
提取特征数据,降低数据维度,实现数据的纵向切面。探针生成的用户XDR数据有56个维度,通过聚类分析和业务特征建模,BIGDNA-CEM系统从用户XDR提取的信息包括:5个网络KPI层指标:丢包、抖动、传输时延、建链时延和带宽;3个业务应用层KQI层指标:页面响应成功率,页面显示成功率,页面下载速率。

这样,就得到了模型的输入:

X={N1,N2,N3,N4,N5,A1,A2,A3}
Ni:网络KPI层特征
Ai:应用层特征

● 横向切面
根据XDR业务特点,过滤数据,实现数据的横向切面。用户上网流量产生的XDR存在两个特点:用户在操作过程中,不同的互联网业务,需要访问不同网站,因而产生的XDR话单规则纷繁复杂,规律性不强,存在大量的离群点;网络流量中存在着大量非用户主动触发的流量,比如手机上App的后台定期握手和同步信息流量,是用户非主动行为导致的,这部分流量占到用户行为XDR话单的60%,这些“垃圾”XDR会严重影响BIGDNA-CEM对用户感知的正确评价。

BIGDNA-CEM系统采用相似性分析,从全网用户的海量XDR数据中寻找出高度一致性的可疑XDR,然后给这些XDR打上噪音标签,定期启动PCA降维学习,生成垃圾流量分析模型;一方面生成数据预处理数据过滤条件实现数据的横向切片;一方面分析垃圾流量对用户感知的影响度。

● 准备训练样本
从上述过滤后的XDR数据流中,生成两类训练样本:原始XDR作为训练样本,供深度信念网络模型自下而上的训练;供深度信念网络模型自上而下、全局微调的少量带用户质差标签样本,标签按用户感知类别分为优、良、差三种。

两类样本数据的比例为100:1。

● 数据归一化
采用最大最小值对样本中的各维度指标进行归一化处理。

深度信念网络的AI模型的训练
将两类训练样本之一的原始XDR样本输入AI模型,先开始自下而上训练,构建深度信念网络模型。第一层是输入层X,由于提取了8个参数作为模型的输入,所以对应的输入层结点数为8;第二层和第三层分别是Web网页浏览感知的简单和复杂混合特征。为了提高深度信念网络的分辨性能,根据反复实验对比,每个隐含层结点数采用35;L层是感知QoE分类结果(感知定性输出)和对应的置信度分布P(L|X)。感知评价分为优(E)、良(G)、差(F)三个等级,因此对应的输出层L结点数为3。最终深度信念网络模型结构为8—35—35—3。

BIGDNA-CEM系统分为两个阶段对Web浏览业务感知分类模型进行训练:

● 采用受限波尔兹曼机(RBM)预训练两相邻层的参数;
● 采用BP训练方法对全部参数进行微调,将预先生成的少量包含用户质差分类标签样本输入AI模型,并通过网络反向传播,采用梯度向下算法微调相关参数。

经过以上两个步骤,BIGDNA-CEM系统完成了Web浏览业务感知“分类器”AI模型的训练 ,分类结果可直接用于定性描述Web浏览业务感知用户等级(优、良、差)。

基于人工智能的Web浏览业务感知预测

Web浏览业务感知定性预测
按照深度信念网络模型的训练数据预处理步骤,将海量XDR按不同时间周期导入AI模型,完成每个XDR对应的用户感知(优、良、差)的自动智能分类。

Web浏览业务感知质量预测
BIGDNA-CEM系统在支持对用户感知定性基础上,还支持对WEB浏览业务感知的定量分析,给出用户具体的感知得分,便于在同类别用户间的感知对比,以及用户感知变化趋势分析。

中兴通讯BIGDNA-CEM系统已经应用于国内多家运营商,帮助运营商实现从传统的以网络为主的模式向以客户为中心的模式转型,对用户行为进行前瞻分析,支撑网络规划、网络建设以及市场营销。未来随着SDN技术和网络技术的发展,BIGDNA-CEM系统将充分发挥用户的质差分析、定位、决策能力,提前预测设备、网络故障,及时通知和触发控制系统,通过控制系统对网络设备实施调整,从而使整个网络形成智能闭环,实现网络智能化、自动化。