PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”？

日期：2026-04-19 11:58:00 / 人气：12

一、痛点开头：算力堆得越多，卡在哪？

单颗芯片再猛，也只是个孤狼。真正决定AI系统性能天花板的，是这群“狼”能不能组队开黑。这就是所谓的“互联墙”（Interconnect Wall）。翻译成人话就是：芯片之间连得爽不爽，比你芯片自己厉不厉害，更重要。

现在的局面是，搞互联的这帮人，已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞，各家都说自己是“真·海王”，能同时伺候好一群芯片。今天，咱们就来扒一扒。

二、传统基石：PCIe的演进和天生瓶颈

PCIe是现在最通用的互联标准，是CPU和各种加速器之间通信的骨干。但GPU算力和显存带宽涨得太快，PCIe已经有点跟不上了。

先看一组直观的数据对比：

PCIe版本单通道速率(GT/s) x16双向带宽(GB/s) 编码方式/信号技术

PCIe 3.0 8 31.5 128b/130b (NRZ)

PCIe 4.0 16 63.0 128b/130b (NRZ)

PCIe 5.0 32 126.0 128b/130b (NRZ)

PCIe 6.0 64 252.0 1b/1b (PAM4+FLIT)

PCIe 7.0 128 504.0 1b/1b (PAM4+FLIT)

虽然PCIe 6.0用了PAM4调制，不用提高频率就把带宽翻了一倍，但架构设计的硬伤无法回避：
1. 树形拓扑：多GPU协同时，数据交换大多要绕CPU中转，延迟降不下去。
2. 无缓存一致性：不同芯片没法直接共享同一个内存地址空间，全靠程序员手动管理缓存，这在训练万亿参数大模型时简直是灾难。

三、私有标杆：NVIDIA NVLink的闭环优势

为了绕开PCIe的坑，NVIDIA搞了私有协议NVLink，现在是行业性能的“天花板”。

NVLink的思路很暴力：绕开PCIe层级，直接给GPU之间、GPU和CPU之间做点对点直连。

NVLink版本对应架构每GPU总带宽(GB/s,双向) 最大扩展规模

NVLink 1.0 Pascal (P100) 160 8 GPUs

NVLink 2.0 Volta (V100) 300 16 GPUs

NVLink 3.0 Ampere (A100) 600 16-32 GPUs

NVLink 4.0 Hopper (H100) 900 256 GPUs

NVLink 5.0 Blackwell (B200) 1,800 576 GPUs

NVLink 6.0 Rubin 3,600 576+ GPUs

杀手锏：
• NVSwitch：相当于GPU之间的全连接交换机，实现无阻塞通信。

• 硬件级一致性：GPU显存之间可以直接互访，像访问本地内存一样简单。

缺点也很明显：封闭生态，厂商锁定严重。

四、开放统一：CXL如何对抗封闭？

为了打破NVIDIA的垄断，Intel牵头搞了CXL（Compute Express Link）开放标准。CXL很聪明，它直接复用PCIe的物理层，只在上层做优化。

CXL根据设备类型，分了三种协议：
• CXL.io：基于PCIe，负责设备发现和配置。

• CXL.cache：让加速器低延迟缓存主机内存（适合SmartNIC）。

• CXL.mem：让主机CPU直接访问加速器的内存（内存池化的核心）。

对应的设备类型：
• Type 1：只用io和cache，无本地大内存（如智能网卡）。

• Type 2：全支持，通用加速器（GPU/FPGA）。

• Type 3：内存扩展器，给系统加DRAM。

CXL 3.1已支持多层交换，理论上能让整个数据中心共享一个内存池，被认为是降低TCO的革命性技术。

五、群雄逐鹿：不止NVLink和CXL

1. AMD Infinity Fabric

AMD给Instinct系列做的互联，前身叫XGMI。思路类似NVLink，主打高带宽。
• MI300X：每颗芯片7条链路，每条128GB/s，支持8-GPU环网。

• MI300A (APU)：CPU和GPU通过片内Infinity Fabric共享同一组HBM3显存，彻底省掉数据拷贝延迟。

2. 华为HCCS与UB架构

• HCCS：升腾910单芯片3条链路，总带宽90GB/s。

• UB (Unified Bus)：下一代统一总线，目标是把CPU、NPU、内存、网络协议打通。针对大模型训练特点，设计了UB-Mesh拓扑，号称比传统网络高100倍带宽，还专门优化了光互联的误码重试。

六、开放联盟：UALink挑战NVLink

2024年，AMD、Intel、谷歌、微软等巨头组成UALink联盟，推出开放协议，誓要打破NVIDIA的垄断。

指标 UALink 1.0 (2025) NVLink 5.0 (Blackwell)

每通道速率 200 GT/s ~224 Gbps

单端口带宽(x4) 800 Gbps 1.8 TB/s

最大集群规模 1,024 节点 576 节点

往返延迟 <1 微秒极低 (私有优化)

生态开放度完全开放封闭私有

UALink 2.0规划了网内计算，虽然量产进度稍慢，但开放生态的潜力巨大。

七、底层基础：先进封装与芯粒标准

互联不仅在电路板上，更延伸到了封装内部。

技术开发商结构特点相对成本主要应用

CoWoS-S TSMC 全尺寸硅中介层 1.0x NVIDIA H100, AMD MI300

CoWoS-L TSMC 有机基板+局部硅桥 1.2x NVIDIA Blackwell

EMIB Intel 嵌入式多芯片互联桥 0.7x-0.9x Intel Xeon, 加速器

为了解决不同厂商芯粒的拼接问题，UCIe (Universal Chiplet Interconnect Express) 标准应运而生。它基于CXL/PCIe协议层，但物理层极简，每比特能耗仅0.25-0.5pJ，带宽密度高达1.35TB/s/mm²。未来的超大芯片，将由UCIe像乐高一样拼装而成。

八、趋势总结：互联已成核心战略资源

现在的异构计算，呈现出几个不可逆的趋势：

1. 硬件一致性是门槛：没有缓存一致性，就做不了细粒度并行。
2. 以太网化与开放标准：UALink等开放标准将挑战NVLink的封闭霸权。
3. 光互联落地：铜缆超过2-4米就衰减严重，硅光子技术是解决长距离、高带宽的关键。
4. 封装即网络：UCIe让封装内部变成高速网络，突破单芯片制造极限。

结语：海王的终极形态

未来的计算系统，不会再是“CPU在这里，GPU在那里，内存在那一边”。而是由高速、低功耗互联织成的一张巨大网络。

对于当下的选择，我们可以这样划重点：
• PCIe：公交车，哪都能去，但慢。适合做“备用方案”。

• NVLink：私人飞机，巨快，但贵且封闭。老黄的护城河。

• CXL：共享单车+月老，撮合所有芯片搞内存池化。

• UALink：巨头们组队干NVLink的产物，纸面很强，等落地。

• UCIe：封装内的胶水，让芯粒像乐高一样拼。

时代变了，从“计算为王”到“互联为王”。

作者：耀世娱乐-耀世注册登录平台

PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”？

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →