现代人工智能基础设施面临的主要挑战不仅在于单个加速器的性能,更在于如何扩展到集群中数千个加速器(XPU)。如今,训练和推理工作负载依赖于一种互连机制,该机制能够将这些加速器连接成一个高带宽、低延迟的系统,而在这个系统中,性能不仅取决于计算能力本身,也取决于网络性能。随着这些系统规模的扩大,物理定律开始发挥作用。由于布线密度和通道损耗的叠加,铜线上的电链路会达到一个实际的瓶颈,损耗带宽积会成为一个无
现代人工智能基础设施面临的主要挑战不仅在于单个加速器的性能,更在于如何扩展到集群中数千个加速器(XPU)。如今,训练和推理工作负载依赖于一种互连机制,该机制能够将这些加速器连接成一个高带宽、低延迟的系统,而在这个系统中,性能不仅取决于计算能力本身,也取决于网络性能。随着这些系统规模的扩大,物理定律开...