PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”?
日期:2026-04-19 11:58:00 / 人气:12

一、 痛点开头:算力堆得越多,卡在哪?
单颗芯片再猛,也只是个孤狼。真正决定AI系统性能天花板的,是这群“狼”能不能组队开黑。这就是所谓的“互联墙”(Interconnect Wall)。翻译成人话就是:芯片之间连得爽不爽,比你芯片自己厉不厉害,更重要。
现在的局面是,搞互联的这帮人,已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞,各家都说自己是“真·海王”,能同时伺候好一群芯片。今天,咱们就来扒一扒。
二、 传统基石:PCIe的演进和天生瓶颈
PCIe是现在最通用的互联标准,是CPU和各种加速器之间通信的骨干。但GPU算力和显存带宽涨得太快,PCIe已经有点跟不上了。
先看一组直观的数据对比:
PCIe版本 单通道速率(GT/s) x16双向带宽(GB/s) 编码方式/信号技术
PCIe 3.0 8 31.5 128b/130b (NRZ)
PCIe 4.0 16 63.0 128b/130b (NRZ)
PCIe 5.0 32 126.0 128b/130b (NRZ)
PCIe 6.0 64 252.0 1b/1b (PAM4+FLIT)
PCIe 7.0 128 504.0 1b/1b (PAM4+FLIT)
虽然PCIe 6.0用了PAM4调制,不用提高频率就把带宽翻了一倍,但架构设计的硬伤无法回避:
1. 树形拓扑:多GPU协同时,数据交换大多要绕CPU中转,延迟降不下去。
2. 无缓存一致性:不同芯片没法直接共享同一个内存地址空间,全靠程序员手动管理缓存,这在训练万亿参数大模型时简直是灾难。
三、 私有标杆:NVIDIA NVLink的闭环优势
为了绕开PCIe的坑,NVIDIA搞了私有协议NVLink,现在是行业性能的“天花板”。
NVLink的思路很暴力:绕开PCIe层级,直接给GPU之间、GPU和CPU之间做点对点直连。
NVLink版本 对应架构 每GPU总带宽(GB/s,双向) 最大扩展规模
NVLink 1.0 Pascal (P100) 160 8 GPUs
NVLink 2.0 Volta (V100) 300 16 GPUs
NVLink 3.0 Ampere (A100) 600 16-32 GPUs
NVLink 4.0 Hopper (H100) 900 256 GPUs
NVLink 5.0 Blackwell (B200) 1,800 576 GPUs
NVLink 6.0 Rubin 3,600 576+ GPUs
杀手锏:
• NVSwitch:相当于GPU之间的全连接交换机,实现无阻塞通信。
• 硬件级一致性:GPU显存之间可以直接互访,像访问本地内存一样简单。
缺点也很明显:封闭生态,厂商锁定严重。
四、 开放统一:CXL如何对抗封闭?
为了打破NVIDIA的垄断,Intel牵头搞了CXL(Compute Express Link)开放标准。CXL很聪明,它直接复用PCIe的物理层,只在上层做优化。
CXL根据设备类型,分了三种协议:
• CXL.io:基于PCIe,负责设备发现和配置。
• CXL.cache:让加速器低延迟缓存主机内存(适合SmartNIC)。
• CXL.mem:让主机CPU直接访问加速器的内存(内存池化的核心)。
对应的设备类型:
• Type 1:只用io和cache,无本地大内存(如智能网卡)。
• Type 2:全支持,通用加速器(GPU/FPGA)。
• Type 3:内存扩展器,给系统加DRAM。
CXL 3.1已支持多层交换,理论上能让整个数据中心共享一个内存池,被认为是降低TCO的革命性技术。
五、 群雄逐鹿:不止NVLink和CXL
1. AMD Infinity Fabric
AMD给Instinct系列做的互联,前身叫XGMI。思路类似NVLink,主打高带宽。
• MI300X:每颗芯片7条链路,每条128GB/s,支持8-GPU环网。
• MI300A (APU):CPU和GPU通过片内Infinity Fabric共享同一组HBM3显存,彻底省掉数据拷贝延迟。
2. 华为HCCS与UB架构
• HCCS:升腾910单芯片3条链路,总带宽90GB/s。
• UB (Unified Bus):下一代统一总线,目标是把CPU、NPU、内存、网络协议打通。针对大模型训练特点,设计了UB-Mesh拓扑,号称比传统网络高100倍带宽,还专门优化了光互联的误码重试。
六、 开放联盟:UALink挑战NVLink
2024年,AMD、Intel、谷歌、微软等巨头组成UALink联盟,推出开放协议,誓要打破NVIDIA的垄断。
指标 UALink 1.0 (2025) NVLink 5.0 (Blackwell)
每通道速率 200 GT/s ~224 Gbps
单端口带宽(x4) 800 Gbps 1.8 TB/s
最大集群规模 1,024 节点 576 节点
往返延迟 <1 微秒 极低 (私有优化)
生态开放度 完全开放 封闭私有
UALink 2.0规划了网内计算,虽然量产进度稍慢,但开放生态的潜力巨大。
七、 底层基础:先进封装与芯粒标准
互联不仅在电路板上,更延伸到了封装内部。
技术 开发商 结构特点 相对成本 主要应用
CoWoS-S TSMC 全尺寸硅中介层 1.0x NVIDIA H100, AMD MI300
CoWoS-L TSMC 有机基板+局部硅桥 1.2x NVIDIA Blackwell
EMIB Intel 嵌入式多芯片互联桥 0.7x-0.9x Intel Xeon, 加速器
为了解决不同厂商芯粒的拼接问题,UCIe (Universal Chiplet Interconnect Express) 标准应运而生。它基于CXL/PCIe协议层,但物理层极简,每比特能耗仅0.25-0.5pJ,带宽密度高达1.35TB/s/mm²。未来的超大芯片,将由UCIe像乐高一样拼装而成。
八、 趋势总结:互联已成核心战略资源
现在的异构计算,呈现出几个不可逆的趋势:
1. 硬件一致性是门槛:没有缓存一致性,就做不了细粒度并行。
2. 以太网化与开放标准:UALink等开放标准将挑战NVLink的封闭霸权。
3. 光互联落地:铜缆超过2-4米就衰减严重,硅光子技术是解决长距离、高带宽的关键。
4. 封装即网络:UCIe让封装内部变成高速网络,突破单芯片制造极限。
结语:海王的终极形态
未来的计算系统,不会再是“CPU在这里,GPU在那里,内存在那一边”。而是由高速、低功耗互联织成的一张巨大网络。
对于当下的选择,我们可以这样划重点:
• PCIe:公交车,哪都能去,但慢。适合做“备用方案”。
• NVLink:私人飞机,巨快,但贵且封闭。老黄的护城河。
• CXL:共享单车+月老,撮合所有芯片搞内存池化。
• UALink:巨头们组队干NVLink的产物,纸面很强,等落地。
• UCIe:封装内的胶水,让芯粒像乐高一样拼。
时代变了,从“计算为王”到“互联为王”。
作者:耀世娱乐-耀世注册登录平台
新闻资讯 News
- 自有品牌这道题,品牌方没有退路04-27
- 国产司美格鲁肽,“首证”缓发?04-27
- 从足球说起04-27
- 日均2.6万亿成交,指数却涨不动了...04-27

