数据中心光模块的演进

发布时间:2026-03-27 作者:中兴通讯 袁智勇

        在算力即生产力的时代,数据中心已不仅是传统的服务器机房,更是数字世界的“心脏”。而在这颗心脏中,长期被视作“神经末梢”的光模块,正悄然经历一场深刻变革。

        过去十年间,光模块技术步伐相对平缓,从100G向400G的迭代已成为行业常态。然而,面对高密度算力需求,传统光模块在功耗、延迟与布线复杂度等方面的局限日益凸显,正逐渐成为制约数据中心网络能效的“最后一公里”瓶颈。

        自2025年起,随着AI训练集群、大模型推理等高密度流量场景的爆发,AI算力竞赛正以前所未有的力度,驱动光模块技术加速演进。目前,800G/1.6T光模块已步入早期部署与测试阶段,其中功耗控制成为关键研发方向,预计将在2026年迎来规模化应用。与此同时,更前沿的3.2T光模块研发也已启动,亟待突破芯片与封装技术瓶颈,以支撑下一轮算力升级。

 

技术演进

 

        当前在智算数据中心规模部署的51.2T交换机中,每台设备通常配备128个400G光模块。以典型的400G FR4光模块为例,其功耗约为10W,这使得单台交换机在全速运行下的总功耗接近3000W,其中光模块所占功耗比重已超过40%。

        传统400G光模块普遍采用“电-光-电”三级转换架构:交换芯片发出的电信号,经由光模块内部的DSP芯片处理,再通过激光器转换为光信号进行传输,到达对端后重新转换为电信号。该架构稳定可靠,支撑了全球超过80%的400G应用部署,但也带来明显短板:功耗占比高、信号路径长、抖动累积显著,且进一步提升速率与传输距离的难度较大。

        随着端口速率向1.6T演进,沿用传统架构的光模块功耗预计将突破20W,散热压力急剧上升,机柜功率密度逐渐接近物理极限。至3.2T阶段,模块功耗可能高达50W,传统风冷已难以满足散热需求,而液冷方案又因结构限制(如鼠笼影响冷板接触效率)导致散热效能下降。若迈向6.4T及以上速率,电信号速率将超过200G/通道,PCB损耗、连接器阻抗及金手指串扰等信号完整性挑战将愈发突出,解决成本与难度显著增加。

        面对以上挑战,光模块技术在不断演进创新,出现了LPO线性可插拔光模块、LRO线性接收光模块、NPO近封装光学方案、CPO共封装光学等技术。LPO技术通过去除光模块中的数字信号处理器,大约能降低50%的功耗。LRO技术则是一种折中方案,仅去除发送方向的DSP,相应地功耗降低幅度也较小。NPO/CPO技术较为激进,可大幅降低功耗。

 

LPO线性直驱

        LPO(linear pluggable optics)通过去除模块内的DSP芯片,将信号处理功能转移至交换芯片中,使光模块仅专注于光电转换。该技术主要优势包括:端口功耗可降至5W(以400G为例),实现节能50%以上;因省去高价值DSP芯片,整体成本下降约15%~20%;同时支持向800G/1.6T的平滑演进,兼容现有光接口标准。

        然而,LPO技术也具有一定局限性。它依赖交换芯片具备高精度线性驱动能力,TIA(transimpedance amplifier,跨阻放大器)和驱动芯片无法完全取代DSP,且由于信号处理简化,系统误码率相对较高,传输距离因此受限,目前主要适用于数据中心内部500m以下的短距离互联。此外,LPO当前主要适配400G/800G端口,更高速率的标准化与生态尚未成熟。在部署层面,LPO需与交换机ASIC芯片进行深度参数调优,系统调试较为复杂,且跨厂商互联互通仍有待充分验证,整体产业生态仍处于发展阶段。

 

LRO线性接收

        LPO技术通过完全移除DSP芯片来降低功耗与成本,也因此面临传输距离受限和系统互操作性方面的挑战。

        相比之下,LRO(linear receive-side optics)作为一种折中方案,在发射端保留DSP芯片,在接收端采用线性设计,旨在兼顾性能与能效。其功耗低于全DSP传统光模块,传输距离优于LPO,但目前仍受限于规模效应不足、产业链成熟度较低,尚未成为市场主流选择。

 

NPO光电协同

        NPO(near-package optics)可视为LPO的进阶形态。其核心设计是将光引擎从可插拔模块中剥离,并集成到交换芯片封装附近,通过高性能基板实现两者的近距离互连(通常间距<150mm,信道损耗≤13dB)。这种架构大幅缩短了电信号路径,在提升集成度的同时有效降低了信号衰减。

        与当前主流的可插拔光模块相比,NPO的互联密度可提升2~3倍,代表了光互联向更高集成度演进的关键过渡阶段,也为后续CPO(共封装光学)技术的落地奠定了工程基础。此外,NPO结构支持光引擎与交换芯片解耦,有助于降低对单一芯片供应商的依赖,在供应链层面提供更多灵活性。

 

CPO光电一体

        CPO(co-packaged optics)代表了光互联技术演进的终极方向:它将光引擎与电芯片集成封装在同一基板或中介层上,从而完全避免了传统PCB上的长距离电信号传输。其电信号传输距离通常低于50mm,信道损耗控制在7dB以内。

        在能效方面,CPO表现突出。例如,3.2T CPO方案的功耗约为18W。对于一台51.2T交换机而言,仅需16个此类模块,相比传统可插拔光模块,整体功耗可降低77%以上。该技术不仅显著提升了互联带宽密度、降低了系统误码率,还能大幅节省交换机面板空间,有效突破前面板端口密度的物理限制。

        然而,CPO也带来了新的可靠性与维护挑战。其光引擎依赖外部激光源(ELS)提供光信号,一旦该部件故障,将导致多个光端口同时失效,可能引发局部网络中断。此外,CPO中的光引擎与电芯片为共封装设计,无法像传统可插拔模块那样进行独立更换,任一组件故障都可能需更换整个封装体,因此对光引擎的良率、长期可靠性及维护策略提出了极高要求。

        目前,CPO仍处于发展早期,整机级别的可靠性尚需在实际网络环境中进行长期验证。尽管如此,其在超高带宽、超低功耗及高密度互联方面的巨大潜力,已使其成为未来光通信——尤其是AI算力集群与超大规模数据中心——不可或缺的关键技术方向之一。

        各光模块技术的对比见表1。

 

主要标准

 

        相关电气接口标准主要由OIF(Optical Internetworking Forum,光互联网论坛)主导推进。当前各技术路径的标准成熟度存在差异,直接影响了其规模化部署的可行性:

  • LPO标准已正式发布,生态相对清晰,为当前部署提供了明确依据。

  • LRO的标准草案已发布,正处于完善阶段,为后续产品兼容性奠定基础。

  • CPO方面,3.2T的标准已发布,而更高密度的6.4T标准仍在制定中,技术路径尚未完全固化。

 

业界部署情况

 

        目前,LPO技术已在头部云厂商和芯片企业(如阿里云、英伟达、Meta)的数据中心内部互联及AI训练集群中实现规模部署,有效降低了PUE和延迟,提升了能效与成本效益。而CPO技术尚处于实验室验证与规划阶段,Meta已完成基于博通方案的51.2T交换机可靠性验证,Google、Microsoft等云商计划于2026至2028年逐步规模化部署,国内则以试点探索为主。

 

LPO

        头部云与芯片厂商已在关键场景中率先导入LPO技术,其应用路径与价值导向具有重要参考意义。

        阿里云于2024年在其基础设施网络中规模部署LPO,主要用于数据中心内部互联。该方案显著降低了整体PUE,并为AI训练集群的扩展提供了高能效、低成本的连接支撑。

        英伟达在其内部AI集群(如GB200 NVL72)中采用LPO实现GPU间高速互联,自2024年起进入量产应用阶段。英伟达特别强调该技术带来的低延迟优势,将其视为提升大规模AI训练效率的关键一环。

        Meta2024年上半年开始导入LPO,用于RSC等AI训练集群的短距离互联,并结合硅光技术进一步优化整体能效表现,体现了其在追求算力密度与能效平衡方面的技术路线选择。

 

CPO

        Meta在CPO技术的验证上取得了关键进展,基于博通Bailly的51.2T CPO交换机(集成8个6.4T硅光引擎)完成实验室验证,证明其具备高可靠性,为面向智算业务升级网络架构提供了明确的技术路径与可靠性参考。

        与此同时,Google、Microsoft、Amazon等云服务商正在规划或试点CPO扩展方案,预计2026至2028年逐步转向规模化部署。

        国内互联网公司也在智算中心开展CPO与全光融合方案的探索,但目前公开的商用案例仍以试点为主,规模化应用尚待进一步推进。

 

我们的思考

 

        在当前光模块技术快速演进的背景下,LPO、LRO、NPO与CPO分别代表了不同阶段的技术选择,各有其适用场景与权衡点。

        LPO通过去除模块内DSP,可实现约50%的功耗降低,成本效益显著,已在部分互联网企业的特定场景中开始试用。但其对交换芯片线性驱动能力要求较高,且在多厂商设备互联时仍面临兼容性与调试复杂性的挑战。

        LRO作为折中方案,仅在接收端去除DSP,在兼容性和功耗之间取得更好平衡,虽节能幅度不及LPO,但系统适应性与部署难度相对较低。

        NPO可视为技术演进中的过渡形态,为后续CPO的实现奠定集成基础,目前尚未形成规模部署。

        CPO虽在理论上具备显著的能效与密度优势,但其高度集成的特性也带来了可维护性低、故障影响范围大、供应链依赖性强等运维层面的挑战,目前仍处于早期验证与试点阶段。

        综合技术成熟度、部署灵活性及运维风险等因素,LPO可作为当前阶段具备可落地性的优先选项,尤其适用于对功耗敏感、距离较短且设备生态可控的场景。而CPO更适用于未来超高密度、超高能效要求的定向场景,需伴随标准、生态及可靠性经验的逐步完善,方可在规模化部署中发挥其潜力。