Google TPU集群：光互连架构重塑AI算力集群-行业报告集合

Google TPU集群：光互连架构重塑AI算力集群

在AI大模型驱动算力需求指数级增长的背景下，Google通过创新的光路交换技术重新定义了超大规模集群的互连架构。华泰证券最新拆解报告揭示了TPU集群在Scale up与Scale out双维度的技术突破，为行业提供了区别于传统GPU集群的演进路径。

三维环网与光路交换的融合架构

Google TPU集群的核心创新在于采用3D Torus拓扑结构结合光路交换机（OCS）实现芯片级全互联。单个TPU Rack集成16个TPU Tray共64颗芯片，通过x/y/z三个方向的ICI（Inter-Chip Interconnect）光连接构建4×4×4立方体结构。

每个芯片引出6条光纤，整柜对外光模块达96个，辅以80根铜缆和64条PCB走线，形成256条通道的混合互连方案。这种设计使TPU V4 SuperPod可在64个Rack内实现4096颗芯片、256TiB共享内存的1 ExaFLOP算力池，而最新TPU V7更扩展至144 Rack、9216芯片的9.6Tb/s超大规模集群。

MEMS微镜驱动的动态光交换

OCS作为架构灵魂，通过136通道光纤准直器与二维MEMS微镜阵列实现光信号的空间路由。850nm监控光与O波段数据光经二色分光元件分离，MEMS镜子角度调控精度达微弧度级，可完成任意输入到输出端口的纳秒级重配置。

每个维度部署16台OCS，三维共计48台设备即可支撑整个SuperPod的Full-Mesh连接。相比传统电交换，光路交换将延迟降低90%，功耗减少50%，且具备动态绕障能力，故障节点”爆炸半径”被压缩至单个芯片级别。

成本效率的颠覆性优势

规模化部署带来显著的成本优势。在十万卡集群场景中，基于Tomahawk5的TPU方案仅需3168台交换机，交换机占比3.2%，光模块/GPU比值为2.6，总互联成本仅1.31亿美元。

相较之下，InfiniBand方案需要9408台交换机，成本高达4.26亿美元。TPU集群通过OCS减少70%的分组交换层，使网络设备成本下降67%，同时光模块数量优化25%。这种”光进铜退”策略不仅体现在机柜间Scale out网络，更深入到Rack内Scale up层级，形成全栈光互连生态。

与GPU路线的战略分野

对比NVIDIA NVLink从单机8卡到576卡的演进，Google选择从架构源头规避电信号传输瓶颈。TPU V7每个芯片配置4个OSFP光模块，而NVLink5仍依赖铜缆背板。当集群规模突破万卡级别时，电信号衰减导致的带宽劣化使NVSwitch系统需增加交换层级，而OCS架构通过光纤直连保持线性扩展。

AMD MI400虽采用5.5TB/s Infinity Fabric，但其72条200Gb UALink仍需电交换芯片中转，在延迟和功耗上处于劣势。Google的可编程光网络已证实能支撑数十万台TPU集群的弹性扩展，为下一代十万卡级AI超级计算机提供了可复制的技术范式。