基于知识图谱和机器学习的智能诊断方案

发布时间:2020-04-20 作者:韩俊华 中兴通讯 阅读量:

传统故障诊断方案诊断过程较长,定位故障效率低,依赖专家能力,投入人力大,运维成本高;诊断规则和诊断流程是硬编码,不能灵活、快速地应对现场各种故障诊断场景。中兴通讯推出了基于知识图谱和机器学习的智能故障定位方案,该方案不仅采用机器学习技术,提升了故障诊断的智能性,缩短了故障诊断时间,还采用知识图谱技术,通过数据挖掘,结合人工确认和总结,形成故障知识图谱,实现运维知识经验的积累和传承,降低运维成本。

智能故障诊断总体框架

智能故障诊断方案的总体设计框架如图1所示。


故障定位涉及的模块包括:故障定位、故障知识图谱生成、模型训练(含在线和离线)、故障标注、故障知识图谱、AI模型等。
-故障定位模块:该模块是核心模块,负责基于已训练好的AI模型和已生成好的故障知识图谱进行故障定位。
-故障知识图谱生成模块:该模块负责生成故障知识图谱。采用多维数据挖掘技术,对已标注的故障数据(告警、性能异常、日志异常和配置异常等)进行挖掘,并结合人工确认和总结,形成完善的故障知识图谱,用于支撑故障诊断。
-模型训练(含在线和离线)模块:该模块主要负责基于已标注的故障数据,进行数据清洗和特征处理,形成训练样本集,对AI模型进行训练。在具体实施过程中,可以定期收集现网已标注的故障数据,集中到数据湖中,实现离线训练。同时,也可以直接基于现网已标注的故障数据,直接进行在线训练。
-故障标注模块:该模块主要负责将现网已修复的故障打上故障标签,进行故障数据标注,形成已标注的故障数据,用于支撑后续的模型训练,实现系统的自学习。
-故障知识图谱:是对故障领域知识采用知识图谱的技术进行表示和存储,用于支撑故障定位,同时也可支撑故障识别、故障定级、故障修复和故障止损。
-AI模型:用于支撑故障定位,可以根据需要选择对应的机器学习算法,建立相应的AI模型。本方案中主要选择了贝叶斯网络,建立贝叶斯网络AI模型,当然,也可以选择其他机器学习算法。

智能故障定位方案

在进行故障定位前,需要先生成故障知识图谱。具体要借助知识图谱和图数据库技术,采用多维数据挖掘技术,对已标注的故障数据(告警、性能异常、日志异常和配置异常等)进行挖掘,并结合人工确认和总结,形成完善的故障知识图谱。故障知识图谱包含了故障模式、故障症状(告警、性能异常、日志日常等)及传播关系、故障对象、故障诊断器、故障影响、故障根因、故障止损、故障修复、故障确诊等相关知识,可用于支撑智能故障诊断。

在进行故障定位前,同时还需要选择和确定AI模型,并采用训练数据,完成AI模型的离线训练。在本方案中,我们选择贝叶斯网络作为对应的AI模型。贝叶斯网络模型主要依据故障知识图谱中的故障模式、故障症状及传播关系、故障根因等信息,基于贝叶斯网络生成算法自动生成。对于已生成的贝叶斯网络模型,再采用收集到的已标注的故障数据,进行数据清洗和特征处理,生成相应的训练样本集,完成贝叶斯网络的离线训练。

故障定位的首要目标是要找到故障位置。对于承载网络来说,就是找到故障网元的位置信息。考虑到承载网络的特点,在实际故障定位过程中,我们还需要先结合现网配置信息,找到发生故障的业务所对应的业务路径,缩小故障定位的范围。然后,再基于故障知识图谱中所提供的信息进行故障定位。

故障定位的另一个目标是进一步找到故障根因。我们的方案是,先依据故障知识图谱中所包含的故障模式、故障根因、故障症状及传播关系,采用图搜索算法,找到所有可能的疑似故障根因。然后再采用已训练好的贝叶斯网络模型,并将故障症状信息作为证据,推理出疑似故障根因的概率。

最后,是故障自动确诊。之前找到的只是疑似故障节点,以及对应的疑似故障根因和概率,还需要基于故障知识图谱中故障根因所对应的确诊规则,进行故障根因的自动确诊,给出最终的故障诊断结果。对于无法自动确诊或需由人参与确诊的故障根因,直接给出处理建议及概率。

在故障修复完毕后,对智能故障诊断的结果进行修正,打上正确的故障标签,并将故障数据自动保存到故障库中,用于后续的在线训练,这一步骤被称为故障标注。故障标注是为了持续形成训练样本集,用于支撑后续的模型训练,从而实现系统的自学习。

为了提升系统故障定位的准确率,我们还需要基于已标注的故障数据,定期对贝叶斯网络进行在线训练。通过模型的在线训练,让系统具备自学习能力,相应地故障定位的准确性也越来越高。

中兴通讯智能诊断方案基于故障知识图谱和AI模型,实现故障自动确诊,实现运维知识经验的积累和传承,大幅提升故障诊断效率,降低运维成本,助力运营商构筑优质承载网络。