用寰球最大芯片打造超算，细节曝光

发布日期：2024-11-17 12:03 点击次数：118

（原标题：用寰球最大芯片打造超算，细节曝光）

要是您但愿不错持续碰面，宽贷标星保藏哦~

开始：内容来自nextplatform，谢谢。

劳伦斯利弗莫尔国度实际室、桑迪亚国度实际室和洛斯阿拉莫斯国度实际室在 HPC 社区中被简称为“三重实际室”，但这些 HPC 中心莽撞不错称为“尝试实际室”，因为它们历史上尝试过险些任何新的架构，以了解它在鞭策好意思国能源部的职责方面可能有何远景。

桑迪亚国度实际室是前锋筹办测试新架构的地点，当今它带着 Cerebras Systems 的第三代晶圆级系统再次追思，但愿在一台实在筹画用于运行 AI 查考和推理的机器上冲突传统 HPC 代码的性能窒碍。

两年前，桑迪亚从 Cerebras 收购了数目省略的 CS-2 系统，每个系统皆有一个 CPU 主机和一个 WSE-2 晶圆级处理器，指标是将一些矩阵密集的 HPC 计较卸载到 WSE-2 引擎上的 16 位浮点中枢上。

为什么桑迪亚甚而会探究将其 64 位或 32 位形式的计较精度缩小四倍或两倍？因为这些 WSE-2 引擎（正如咱们在 2022 年 3 月细巧先容的那样）将 850,000 个内核和 40 GB 的片上 SRAM 内存（蚀刻在 2.6 万亿个晶体管中）塞进一个餐盘大小的方形硅片中，具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀少矩阵。

咱们的思法是，关于某些类型的服务负载，要是问题合乎内存，或者不错观点为跨越这些中枢的部分，那么在单个大型拓荒上进行计较不错使 HPC 模拟运行得更快。

本年早些时候，桑迪亚国度实际室的一个盘问小组阐扬了这少许，单个 CS-2 系统在某种分子能源学模拟中打败了橡树岭国度实际室的“Frontier”超等计较机。

更大的 Frontier 机器领有 37,632 个 AMD “Aldebaran” MI250X GPU 加快器，不错模拟晶格中的宽广原子，但由于这些 GPU 集群的膨胀性较弱，它无法模拟永劫期舞动的原子。节点之间的蔓延使这成为不成能。

然则，使用矫正的 LAMMPS 分子能源学模拟，桑迪亚配置了一个测试，其中钨、铜和钽晶格由静态原子数构成——801,792，足以让一个 WSE-2 中枢保存一个原子的数据——然后模拟这些晶格受到发射冲击。与广阔的 Frontier 系统中的 GPU 比拟，桑迪亚在一台 WSE-2 计较引擎上进行的 LAMMPS 模拟中每秒可处理的时期步数关于铜高 109 倍，关于钨高 96 倍，关于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时期，正如咱们那时指出的那样，有饱胀的时期来实质不雅察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上，该运用设施的膨胀在 32 个 GPU 时徐徐减轻，这令东说念主失望，况兼标明关于某些类型的运用设施来说，很难在单个计较拓荒以外进行膨胀。

那时，咱们推测，要是 Sandia 升级到本年 3 月推出的 CS-3 系统中的 WSE-3 计较引擎，它就不错赢得更多时期（即模拟时期）。借助 WSE-3 引擎，Cerebras 将晶体管缩小到 5 纳米（WSE-2 为 7 纳米），并将中枢数目增多到 900,000 个，但转移到 8 宽 FP16 SIMD 单位，是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单位宽度的两倍。咱们以为 WSE-3 的时钟速率提高了约 5%，当你将时钟速率、中枢向上和 SIMD 擢升相乘时，这等于 WSE-3 的性能是 WSE-2 的 2 倍的原因。

咱们算计，通过从 WSE-2 移至 WSE-3，这种性能擢升可能会将钽晶格发射的模拟窗口从 40 毫秒增多到 80 毫秒。比拟之下，Frontier 机器上的这些节点模拟时期约为 200 纳秒。

嗯，看起来桑迪亚国度实际室的东说念主们思要取得一些 WSE-3 计较引擎并一探究竟。咱们还历害怀疑他们思弄明晰是否不错将模拟膨胀到多个晶圆上并冲突 1 秒模拟窒碍。

也许是为了这个指标，也为了其他指标，桑迪亚国度实际室和 Cerebras 照旧开动构建一个诨名为“Kingfisher”的系统，该系统将以四个 CS-3 系统开动，并将在改日某个时候膨胀到八个系统。Kingfisher 集群将在传统的 HPC 模拟服务和 AI 服务上加倍奋勉——固然是生成式 AI，但不一定仅限于此——这不错增强三实际室在国度核安全局的维持下进行的处理，该局资助三实际室措置好意思国军方的核火器库存。具体来说，Kingfisher 是由核威慑高档模拟和计较东说念主工智能筹办资助的。

桑迪亚盘问东说念主员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 傍边。

在告示 Kingfisher 系统的声明中，一直指引桑迪亚 CS-2 系统服务的盘问东说念主员之一 James Laros 暗意，实际室正在探索使用改日版块的 WSE 计较引擎“用于 Mod-Sim 和 AI 服务负载的组合”的可行性。咱们昔时曾与 Cerebras 聚拢首创东说念主兼首席实行官 Andrew Feldman 开打趣说，天下实在需要的是一个领有 64 位 SIMD 引擎的 WSE，该引擎不错膨胀到 FP64 精度，甚而不错缩小到 FP4 精度，况兼不错动态实行，可能是在晶圆上的不同块中，也可能是在代码运行时动态实行，因此表面上 HPC 中心的任何代码皆不错在 Cerebras 硬件上运行。

要是有饱胀多的东说念主这样说，况兼有饱胀多的东说念主为此提供资金，也许这就会终了。对咱们来说，这些皆不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的资本尚未公布，但咱们知说念，按照标价（不管 HPC 界限的标价是若干），客岁 G42 开动与 Cerebras 联接，基于 CS-2 机器构建“Condor Galaxy”集群时，配备单个 WSE-2 的 CS-2 系统的资本约为 160 万好意思元。也许这意味着要取得 CS-3，价钱要高涨 1.5 倍，或者可能高涨 2 倍。在一个条件每一代皆天值地值的天下里，230 万好意思元到 250 万好意思元可能是合理的。在一个需要更高性能且遴荐很少的天下里，320 万好意思元的 CS-3 节点资本是合理的。不管如何，咱们以为桑迪亚不会为机器支付接近标价的价钱，但同期但愿匡助资助那些可能匡助其更好地运行模拟的公司。咱们不错详情地告诉你的是，Frontier 的 32 GPU 部分仅消耗约 425,000 好意思元，但它只可膨胀到这样大。

那么，增多原子数目和增多模拟时期对 NNSA 来说有什么价值呢？可能价值很大。

咱们期待进一步了解 Kingfisher 所作念的事情以及它是如何作念到的。

临了一件事：桑迪亚团队在 Cerbras 晶圆级系统上进行的分子能源学盘问将角逐本年的戈登贝尔奖。咱们但愿他们能获奖，这样 GPU 供应商们就得时代保合手警惕了。

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

半导体杰作公众号保举

专注半导体界限更多原创内容

存眷寰球半导体产业动向与趋势

*免责声明：本文由作家原创。著述内容系作家个东说念主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或维持，要是有任何异议，宽贷关连半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3949期内容，宽贷存眷。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

心爱咱们的内容就点“在看”共享给小伙伴哦

上一篇：波浪信息得到发明专利授权：“一种任务分拨门径、装配、成立、存储介质及重要产物”
下一篇：钻石冷却GPU行将问世

让建站和SEO变得简单

用寰球最大芯片打造超算，细节曝光

热点资讯

相关资讯