顶部横幅广告
  • 微信
您当前的位置:首页 > 资讯

AI云超级计算机“Vela”问世

作者:三青 时间:2023-04-30 阅读数:人阅读

 

近五年前,美国橡树岭(Oak Ridge)国家实验室推出了IBM制造的Summit超级计算机,该计算机由IBM和Nvidia硬件驱动,位居“超算500强”前列。现在,昔日的HPC(高性能计算)巨头正在推出一款新的超级计算机Vela,这反映了IBM的方向转变:一款采用Intel和Nvidia硬件,专注于人工智能(AI)的云原生超级计算机。

Vela的每个节点都配备了双Intel Xeon “Cascade Lake” CPU(放弃了2021推出的IBM自己的Power10芯片)、八个Nvidia A100(80GB)GPU、1.5TB内存和四个3.2TB NVMe驱动器。IBM表示,节点通过“多个100G网络接口”联网,每个节点都连接到不同的机架顶层交换机,每个交换机又连接到四个不同的主干交换机,确保了强大的跨机架带宽和部件故障隔离。Vela是IBM Cloud的虚拟私有云(VPC)环境“原生集成”。

Vela架构

Vela自去年5月开始上线,由60个机架(福布斯报道)和数量不详的节点组成;然而,人们根据上图猜测每个机架有六个节点,总共有360个节点和2880个A100 GPU。

IBM设计Vela时聚焦在人工智能,尤其是基础模型的开发。IBM将其描述为“基于广泛的未标记数据训练的人工智能模型,这些数据可用于许多不同的任务。”为此,该公司在每个级别都选择了大量内存:A100的更大内存版本以及大量DRAM和NVMe,所有这些都适合于缓存AI训练数据和相关任务。

有趣的是,IBM选择在Vela上启用虚拟机(VM)配置,认为尽管裸金属是AI性能的首选,但VM提供了更多的灵活性。为了改善性能影响,IBM表示他们“设计了一种方法,将节点上的所有功能……配置到VM中”,将虚拟化开销降低到5%以下。

在公告中,IBM还针对Vela正在回避的HPC传统发表了几番尖锐的言论。具有高性能网络硬件等元素的“传统超级计算机”“不是为人工智能而设计的;它们被设计成在建模或模拟任务上表现出色。“进一步解释:“鉴于我们希望将Vela作为云的一部分进行操作,仅为该系统构建一个独立的类似InfiniBand的网络将无法实现这项工作的目的。我们需要坚持通常部署在云中的基于以太网的标准网络。”

目前,IBM只向IBM研究社区提供Vela,该公司将该系统描述为IBM人工智能研究人员的新“使用环境”。不过,IBM也暗示Vela将是更大部署计划的概念证明。“虽然这项工作着眼于为大规模人工智能工作负载提供性能和灵活性,但基础设施的设计可在全球任何规模的数据中心部署。”并且:“虽然这项工作是在公共云环境下完成的,但该架构也可以用于本地人工智能系统设计。”

举报/反馈

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com

标签:
微信

三青

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩而过。我们一起奋斗!

微信
阿里云