AI云超级计算机“Vela”问世

作者：三青时间：2023-04-30 阅读数：218人阅读

近五年前，美国橡树岭（Oak Ridge）国家实验室推出了IBM制造的Summit超级计算机，该计算机由IBM和Nvidia硬件驱动，位居“超算500强”前列。现在，昔日的HPC（高性能计算）巨头正在推出一款新的超级计算机Vela，这反映了IBM的方向转变：一款采用Intel和Nvidia硬件，专注于人工智能（AI）的云原生超级计算机。

Vela的每个节点都配备了双Intel Xeon “Cascade Lake” CPU（放弃了2021推出的IBM自己的Power10芯片）、八个Nvidia A100（80GB）GPU、1.5TB内存和四个3.2TB NVMe驱动器。IBM表示，节点通过“多个100G网络接口”联网，每个节点都连接到不同的机架顶层交换机，每个交换机又连接到四个不同的主干交换机，确保了强大的跨机架带宽和部件故障隔离。Vela是IBM Cloud的虚拟私有云（VPC）环境“原生集成”。

Vela架构

Vela自去年5月开始上线，由60个机架（福布斯报道）和数量不详的节点组成；然而，人们根据上图猜测每个机架有六个节点，总共有360个节点和2880个A100 GPU。

IBM设计Vela时聚焦在人工智能，尤其是基础模型的开发。IBM将其描述为“基于广泛的未标记数据训练的人工智能模型，这些数据可用于许多不同的任务。”为此，该公司在每个级别都选择了大量内存：A100的更大内存版本以及大量DRAM和NVMe，所有这些都适合于缓存AI训练数据和相关任务。

有趣的是，IBM选择在Vela上启用虚拟机（VM）配置，认为尽管裸金属是AI性能的首选，但VM提供了更多的灵活性。为了改善性能影响，IBM表示他们“设计了一种方法，将节点上的所有功能……配置到VM中”，将虚拟化开销降低到5%以下。

在公告中，IBM还针对Vela正在回避的HPC传统发表了几番尖锐的言论。具有高性能网络硬件等元素的“传统超级计算机”“不是为人工智能而设计的；它们被设计成在建模或模拟任务上表现出色。“进一步解释：“鉴于我们希望将Vela作为云的一部分进行操作，仅为该系统构建一个独立的类似InfiniBand的网络将无法实现这项工作的目的。我们需要坚持通常部署在云中的基于以太网的标准网络。”

目前，IBM只向IBM研究社区提供Vela，该公司将该系统描述为IBM人工智能研究人员的新“使用环境”。不过，IBM也暗示Vela将是更大部署计划的概念证明。“虽然这项工作着眼于为大规模人工智能工作负载提供性能和灵活性，但基础设施的设计可在全球任何规模的数据中心部署。”并且：“虽然这项工作是在公共云环境下完成的，但该架构也可以用于本地人工智能系统设计。”

举报/反馈

很赞哦！ (13)

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱：dacesmiling@qq.com

标签：

上一篇:Vela Exchange是什么、VELA和GMX之间有什么区别？

下一篇:汇誉家具VELA&MAU荣获欧洲设计奖颜值与才华并存的多功能培训椅