Google Cloud 的全新 Compute Engine A3 超級計算機專為要求最嚴苛的人工智能 (AI) 和機器學習 (ML) 模型而打造,將 NVIDIA H100 Tensor Core GPU 與 Google 的網絡技術相結合。
與公司的 A2 虛擬機,谷歌聲稱網絡帶寬增加了 10 倍,延遲低且穩定性提高。它是如何做到這一點的?使用 NVIDIA H100 GPU 的新型 A3 超級計算機率先使用 Google 定制設計的 200 Gbps IPU,與其他 VM 網絡和數據流量相比,GPU 數據在單獨的接口上繞過 CPU 主機。
與所有以超級計算和尖端人工智能為基礎,可擴展性允許數以萬計的互連 GPU 以“與更昂貴的現成非阻塞網絡結構無法區分的工作負載帶寬”運行。
令人印象深刻的東西。以下是 Google 全新 A3 超級計算機的功能細分。
8 個 H100 GPU 使用 NVIDIA 的 Hopper 架構,通過 NVIDIA NVSwitch 和 NVLink 4.0 Next-generation 4th 在 A3 的 8 個 GPU 之間提供 3 倍的計算吞吐量和 3.6 TB/s 的二等分帶寬Gen Intel Xeon 可擴展處理器 通過 4800 MHz DDR5 DIMM 提供 2 TB 主機內存 10 倍的網絡帶寬由我們支持硬件的 IPU、專門的服務器間 GPU 通信堆棧和 NCCL 優化提供支持
此公告還加強了 Google 和 Google 之間的合作夥伴關係NVIDIA 關於 AI 和基於雲的計算。
“Google Cloud 的 A3 VM 由下一代 NVIDIA H100 GPU 提供支持,將加速生成 AI 應用程序的訓練和服務,”超大規模副總裁 Ian Buck 說和 NVIDIA 的高性能計算。 “在 Google Cloud 最近推出 G2 實例之後,我們很自豪能夠繼續與 Google Cloud 合作,通過專門構建的 AI 基礎架構幫助全球企業實現轉型。”