自智网络(autonomous network, AN)的终极目标,是推动网络服务供给模式从“人为主导”向“系统自主”演进,实现L4高度自治,并逐步向L5完全自治进阶。AN L4要求系统在绝大多数场景下无需人工干预即可完成意图/体验、感知、分析、决策、执行的闭环,AI的赋能作用至关重要。然而,当前AI在通信领域运维中的应用面临三大瓶颈:告警信息海量且未有序关联,问题根因定位难;故障传播路径复杂,传统规则引擎覆盖有限;AI决策过程缺乏可解释性,难以获得运维人员信任。
针对上述瓶颈,业界正积极探索“数字员工”模式,通过构建具备类人认知与协作能力的AI Agent系统,破解运维智能化难题。中国移动联合中兴通讯基于现网实践,提出“数智人”理念,其核心在于通过大模型与知识图谱的深度协同,推动网络智能实现从“统计预测”到“因果推理”的跃迁。
大模型+知识图谱协同整体方案
方案以资源拓扑知识图谱、告警传播知识图谱两张静态图谱(见图1)为基础,融入实时告警,形成动态根因推理图谱,再通过图搜索算法剪枝生成最小根因推理子图(见图2),最后,将最小根因推理子图转化为提示词,输入到大模型,推理得到精准的故障根因定位结果,总体实现“准、稳、新”三大增益。准,图谱能准确表达现网故障情况,且能以剪枝后的相关度更高的根因推理子图作为模型的输入;稳,图谱能统一数据表达,叠加提示词优化,给大模型提供稳定输入,抑制幻觉;新,告警实时刷新,给大模型提供实时动态的最新网络故障状况。

实践:嵌入运营商端到端运维流程,提升AI决策精度
在中国移动与中兴通讯联合建设的“联创+”自智网络开放实验室,智能决策“数智人”围绕“故障处理”自智高价值场景,构建以知识图谱为事实基础、大模型为推理中枢的智能决策体系,成功将传统依赖人工经验、规则匹配的低效流程,升级为自动化、高精度、可解释的AI决策流程。其核心突破点体现为,用图谱解决“输入不准、不稳”的问题,用大模型解决“复杂推理难”的问题,二者协同实现根因定位准确率突破90%。
故障图谱构建
传统流程中,故障告警来自不同厂商设备、不同领域(无线、传输、动环),格式不一,语义模糊,人工分析需查阅大量设备手册、历史工单,且依赖专家经验,易漏判、误判。
引入知识图谱解决方案,可明显改善以上问题。方案以资源拓扑图谱为载体,抽取13类网络资源实体(小区、RRU、光口、板卡、机房、传输路由等),构建跨专业、跨厂家的拓扑关系,存入资源拓扑图;以告警传播图谱为载体,通过大模型自动解析200+份设备告警手册,抽取1.2万+条告警传播关系,如“RRU链路断导致小区退服” 的传播链,存入告警传播图;为确保完整性,通过图神经网络(GNN)模型,可自动补全如“光口链路故障导致RRU链路断”等隐性因果关系,更新已有图谱;将实时告警信息精准挂载至资源拓扑图对应节点,使静态拓扑与实时告警有机融合,形成跨厂家、跨专业的动态根因推理图。
故障图谱的构建,使得输入标准化,并将异构告警、资源数据统一为结构化图谱的节点与边,使大模型的输入“可理解、可追溯”。
生成最小根因推理子图
传统流程中,一个退服告警可能关联数百条无关告警,人工筛选耗时且准确率低,大模型如直接输入原始告警流,会引发Token爆炸、推理混乱、幻觉频发等问题。
引入图搜索解决方案,可让相关性更高的故障路径被识别。基于动态的根因推理图谱,获取所有可能的传播路径,锁定故障影响范围内的关联网元;基于图搜索算法,执行深度优先遍历并结合动态剪枝策略,剔除冗余节点与无关路径,生成最小化根因推理子图。
实践中过滤了90%的无关信息,将告警、拓扑、传播关系整合为结构化图谱,推理范围显著收敛,使Token开销相比之前降低20%。
大模型根因推理
传统流程中,固定规则库无法覆盖“长尾故障”(如多点并发、跨域耦合),即便借助大模型技术,因输入噪声大、上下文缺失,导致整体准确率不足60%。
引入大模型+图谱协同解决方案,可明显提升推理准确性。输入优化方面,将剪枝后的根因推理子图输入大模型,而非原始告警日志;提示词工程方面,建立提示词评分体系,按厂家、专业定制提示模板;构建昌平、朝阳现网真实案例数据集1400+份,持续训练迭代;实现“快慢思考”机制,简单场景(如单点孤立告警)采用格式化总结的快速响应模式,复杂场景采用深度推理模式。
方案实现根因定位准确率突破90%,具体为北京昌平区提升至91.7%,朝阳区提升至90.4%;可解释性提升,输出结果包含“根因网元”“故障位置”“处置建议”,与图谱路径一一对应,便于人工复核。
总结与展望
2025年,“联创+”自智网络开放实验室将“大模型+知识图谱”协同能力作为“数智人”嵌入故障处理生产流程,实现了AI决策精度的革命性提升。此次实践成功并非依赖单一的新技术,而是以运营商真实业务流程为牵引,实现了从“人找信息”到“智能系统找根因”的运维范式转变,为网络迈向自智L4开创了可验证、可复制的典型实践。
2026年,实验室将在技术和业务两条主线上继续深化。技术规划方面,以网络图模型为核心,强化跨厂家适配能力,同时推进知识图谱、图搜索与大模型的协同深度;业务场景规划方面,在现有宏站通断场景基础上,拓展室分通断场景,提升分析场景的覆盖全面性,同时将专业范围延伸至传输网,重点攻关传输高级别故障工单的根因定位,同时,在根因定位的基础上,进一步加强故障处理方案的推荐能力,更全面地嵌入故障系统生产流程,力求打造端到端智能化运维能力,推动故障处理全场景加速向自智L4迈进。