随着信息技术的飞速发展,通信网络面临前所未有的数据流量增长和复杂的应用场景,传统架构已显不足。人工智能特别是大型语言模型的突破为解决这些难题带来希望,但其巨大的资源消耗限制了在网络设备中的直接部署。轻量化大模型的出现,通过技术手段降低资源需求,为在网络边缘侧部署复杂AI功能开辟了道路。通信行业正积极探索AI应用,将轻量化大模型部署到网络边缘,实现智能从云端向边缘的转移,从而降低延迟、提高效率并增强实时决策能力,以提升效率、降低成本并改善用户体验。中国移动推出的通感算融合的Cloud SPN就是这个方向的尝试,通过在边缘CPE设备上集成通感算平台,中国移动意图利用其专线布局寻求业务的创新。
技术发展分析
近年来,半导体技术的持续进步显著提升了网络边缘设备的计算能力。各种类型的处理器性能都在不断提升,功耗也在逐步降低。这种计算能力的提升,为在网络设备上部署计算较大规模的AI模型提供了基础。
在资源受限的通信网络设备上高效部署大型AI模型,得益于模型压缩与优化技术的成熟,在确保性能的同时,显著降低计算资源、内存及能耗需求。
大模型推理效率是关键。嵌入式设备的推理侧重于在有限算力下,提升推理速度、降低延迟、优化资源利用率,并适配受限硬件环境。在实时响应应用(如智能对话、搜索)中,推理延迟直接影响用户体验,边缘部署场景对推理吞吐量和能耗优化也提出更高要求。
针对这些挑战,学术界与工业界提出了多层级推理加速方案,涵盖算法优化(模型量化、剪枝、知识蒸馏)、软件优化(高效推理引擎、编译器优化)及硬件加速(专用AI加速器、异构计算)。同时,Ollama、vLLM、LMDeploy、llama.cpp、TensorRT-LLM、kTransformers、FastLLM等开源框架相继涌现,为不同应用场景和硬件平台提供了高效的推理优化选择。
轻量化大模型推理的挑战
在实际应用中,大模型的推理成本和响应时间是影响其商业化落地的关键因素。随着模型参数规模的增长,如何在通感算有限的硬件资源条件下加速推理过程,提升响应速度,并优化计算成本,已成为研究的主要方向。大模型推理的主要挑战可以归纳为以下几点:算力、内存和功耗,延迟与吞吐量的权衡,复杂任务的推理成本,以及本地推理加速。
算力、内存和功耗的挑战
大模型推理的计算资源和存储能力受到极大限制,而当前大规模语言模型(LLM)通常拥有数十亿甚至上百亿的参数,对计算和内存的需求远超嵌入式边缘设备的负载能力。
通过蒸馏获得轻量化的小参数大模型,在通感算边缘计算环境中,算力硬件通常还是会受到硬件规模、内存的约束,导致模型推理面临以下问题:
延迟与吞吐量的权衡
在大模型推理过程中,延迟和吞吐量是两个关键的性能指标,但他们往往相互制约。延迟决定了用户请求的响应速度,直接影响交互体验,而吞吐量则衡量系统在单位时间内能够处理的请求数量,决定了推理系统的整体效率和成本。高吞吐量通常需要批量化处理多个请求,而低延迟要求单个请求尽快完成推理,在有限资源条件下,这两者的平衡成为通感算平台大模型推理优化的核心挑战之一。
复杂任务的推理成本增加
轻量化大模型的应用已从传统的NLP任务拓展到多模态任务,包括图像生成、视频理解、音频处理等。同时大模型在复杂推理任务(如代码生成、数学推理、科学计算等)上的能力不断提升。这些扩展增强了模型能力,但也带来了更高的推理成本。多模态大模型需要同时处理文本、图像、音频等不同类型的数据,导致计算量大幅增加:处理图像时,Transformer需要对每个像素块进行嵌入计算,计算复杂度远高于文本处理;处理视频时,模型需要解析每一帧的特征信息,数据规模大幅膨胀,推理计算量远超传统NLP任务。思维链推理涉及长推理路径,每一步都需要进行逻辑推理,导致推理时间成倍增加。
本地推理加速的优化方法
大模型推理的核心瓶颈主要集中在Attention计算的高复杂度和自回归解码的顺序性这两个方面,优化技术都围绕着如何减少计算量和提高计算并行度展开。因而推理加速技术分为两大类:计算加速,通过优化算法和提高硬件利用率,使模型“算得更快”,而不影响模型的输出质量;模型压缩,通过修改模型结构,减少计算量或降低计算精度,使模型“算得更少”,但可能会影响推理精度。
在模型结构固定的情况下,当前通感算优化方向主要是:
通感算融合的优势
内置算力与通信网络的融合,为轻量化大模型推理带来了诸多显著的优势。
传统的推理模式通常是将数据传输到远端的云服务器进行计算。然而,许多通感算应用场景(如工业质检、智能安防)对延迟非常敏感。通过在通信设备内部署轻量化大模型或其部分模块,可以直接在数据产生的边缘侧进行推理,无需将大量数据传输到云端,从而大幅降低了推理延迟,提升了响应速度,满足实时交互的需求。例如,一个内置AI芯片的CPE设备可以直接对摄像头采集的视频流进行目标检测和识别,并将结果实时反馈,避免了将视频数据上传到云端带来的延迟。
将部分推理任务卸载到边缘侧的通信设备上,可以减少需要传输到数据中心的原始数据量。例如,在智能办公场景中,园区CPE可以内置轻量级语音识别模型,仅将识别结果上传到云端进行更复杂的语义理解,而不是上传原始音频流,从而降低了骨干网络的带宽压力,提高了整体网络效率。
在边缘侧进行数据处理和推理,可以减少敏感数据离开本地设备的风险,从而更好地保护用户隐私和数据安全。例如,在医疗健康领域,本地网关可以内置轻量级健康监测模型,在本地完成初步的健康评估,仅在必要时将结果上传到云端,避免了将用户的原始健康数据直接暴露在公共网络中。
通信设备内置的算力可以支持更灵活和可定制化的服务部署。运营商或服务提供商可以根据不同区域、不同用户的需求,在特定通信设备上部署定制化的轻量化大模型,提供更精准和个性化的服务。例如,在工业园区,可以在园区的CPE上部署特定的缺陷检测模型,为园区内的企业提供定制化的智能质检服务。
通信设备内置的算力不仅可以用于支撑上层应用的推理,还可以用于提升网络自身的智能化水平。例如,CPE可以利用内置的AI模型进行智能化的资源调度、故障预测和网络优化,提高网络的性能和可靠性,从而为上层轻量化大模型的推理提供更稳定的网络环境。
一些复杂的推理任务可能需要多个边缘设备协同完成。通信网络可以将这些内置算力的设备连接起来,形成一个分布式的推理网络。此外,利用通信网络的广播和多播能力,可以方便地进行联邦学习,让大量的边缘设备在本地训练模型,并将训练结果聚合到中心服务器,从而在保护数据隐私的同时,提升模型的整体性能。
将轻量化大模型部署到通信网络设备中,可充分利用现有网络投资和布局优势,通过提升网络智能化,赋能边缘计算和物联网,创新用户服务体验,开辟新的商业模式。虽然面临模型性能与资源消耗平衡、数据安全隐私、标准化互操作性以及人才生态建设等挑战,但随着算法、硬件和软件的持续进步,设备端AI将更加强大高效。以AI为核心的网络有加速趋势,标准化有望突破,电信AI生态系统逐渐壮大。轻量化大模型可能成为未来智能、自主、超连接通信网络的枢纽。通过积极应对挑战,营造协作创新环境,电信行业可充分释放其潜力,从而构建更高效、安全、以用户为中心的网络,推动社会经济的发展。