Các siêu máy tính Compute Engine A3 mới của Google Cloud được xây dựng cho các mô hình trí tuệ nhân tạo (AI) và máy học (ML) đòi hỏi khắt khe nhất, kết hợp GPU NVIDIA H100 Tensor Core với các cải tiến mạng của Google.
So với máy ảo A2 của công ty, Google tuyên bố băng thông mạng cao hơn tới 10 lần với độ trễ thấp và độ ổn định được cải thiện. Làm thế nào mà nó đạt được điều này? Các siêu máy tính A3 mới sử dụng GPU NVIDIA H100 là những siêu máy tính đầu tiên sử dụng IPU 200 Gbps được thiết kế tùy chỉnh của Google với dữ liệu GPU bỏ qua máy chủ CPU trên một giao diện riêng biệt so với mạng VM và lưu lượng dữ liệu khác.
Như với tất cả mọi thứ dựa trên siêu máy tính và trí tuệ nhân tạo tiên tiến, khả năng mở rộng cho phép hàng chục nghìn GPU được kết nối với nhau hoạt động với”băng thông khối lượng công việc không thể phân biệt được với các kết cấu mạng không chặn có sẵn đắt tiền hơn”.
Công cụ ấn tượng. Dưới đây là bảng phân tích các tính năng của siêu máy tính A3 mới của Google.
8 GPU H100 sử dụng kiến trúc Hopper của NVIDIA, cung cấp thông lượng điện toán gấp 3 lần Băng thông chia đôi 3,6 TB/giây giữa 8 GPU của A3 thông qua NVIDIA NVSwitch và NVLink 4.0 Thế hệ thứ 4 tiếp theo Bộ xử lý Intel Xeon có thể mở rộng thế hệ thứ 2 Bộ nhớ máy chủ thông qua DIMM DDR5 4800 MHz Băng thông mạng lớn hơn gấp 10 lần được hỗ trợ bởi IPU hỗ trợ phần cứng của chúng tôi, ngăn giao tiếp GPU liên máy chủ chuyên dụng và tối ưu hóa NCCL
Thông báo này cũng củng cố mối quan hệ hợp tác giữa Google và NVIDIA về AI và điện toán dựa trên đám mây.
“Máy ảo A3 của Google Cloud, được cung cấp bởi GPU NVIDIA H100 thế hệ tiếp theo, sẽ đẩy nhanh quá trình đào tạo và cung cấp các ứng dụng AI tổng quát”, Ian Buck, phó chủ tịch mảng siêu quy mô cho biết và điện toán hiệu năng cao tại NVIDIA.”Nối gót các phiên bản G2 mới ra mắt gần đây của Google Cloud, chúng tôi tự hào tiếp tục hợp tác với Google Cloud để giúp chuyển đổi các doanh nghiệp trên toàn thế giới bằng cơ sở hạ tầng AI được xây dựng có mục đích.”