GPU Pusat Data utama NVIDIA, Hopper H100, telah digambarkan dalam semua kegemilangannya. (Kredit Imej: CNET)
Di GTC 2022, NVIDIA memperkenalkan GPU Hopper H100nya, sebuah kuasa pengiraan yang direka untuk pusat data generasi seterusnya. Sudah agak lama kita tidak bercakap tentang cip hebat ini tetapi nampaknya NVIDIA memberikan paparan dekat cip perdananya untuk memilih media.
GPU NVIDIA Hopper H100: Pertama Dengan Teknologi 4nm dan HBM3 Menjadi Tinggi-Gambar Res
CNET berjaya menguasai bukan sahaja papan grafik di mana GPU H100 digabungkan tetapi juga cip H100 itu sendiri. GPU H100 ialah cip raksasa yang didatangkan dengan teknologi 4nm terkini dan menggabungkan 80 Bilion transistor bersama-sama dengan teknologi memori HBM3 terdedah. Mengikut saluran keluar teknologi, H100 dibina di atas papan PCB PG520 yang mempunyai lebih 30 VRM kuasa & interposer integral besar-besaran yang menggunakan teknologi CoWoS TSMC untuk menggabungkan GPU Hopper H100 dengan reka bentuk HBM3 6 tindanan.
NVIDIA GeForce RTX 4090 Generasi Seterusnya Dengan GPU AD102 Teratas Boleh Menjadi Kad Grafik Permainan Pertama Yang Memecah 100 TFLOP Lepas
GPU NVIDIA Hopper H100 Digambarkan (Kredit Imej: CNET):
Daripada enam tindanan, dua tindanan disimpan untuk memastikan integriti hasil. Tetapi standard HBM3 baharu membenarkan sehingga 80 GB kapasiti pada kelajuan 3 TB/s yang sangat gila. Sebagai perbandingan, kad grafik permainan terpantas semasa, RTX 3090 Ti, menawarkan hanya 1 TB/s lebar jalur dan kapasiti VRAM 24 GB. Selain daripada itu, GPU H100 Hopper juga dimuatkan dalam format data FP8 terkini, dan melalui sambungan SXM baharunya, ia membantu menampung reka bentuk kuasa 700W yang direka bentuk oleh cip itu.
NVIDIA Hopper Spesifikasi GPU H100 Sekilas Pandang
Maka dari segi spesifikasi, GPU NVIDIA Hopper GH100 terdiri daripada susun atur cip besar 144 SM (Streaming Multiprocessor) yang ditampilkan dalam sejumlah 8 GPC.. GPC ini menghasilkan 9 TPC yang selanjutnya terdiri daripada 2 unit SM setiap satu. Ini memberi kami 18 SM bagi setiap GPC dan 144 pada konfigurasi 8 GPC yang lengkap. Setiap SM terdiri daripada sehingga 128 unit FP32 yang sepatutnya memberi kami sejumlah 18,432 teras CUDA. Berikut ialah beberapa konfigurasi yang boleh anda jangkakan daripada cip H100:
Pelaksanaan penuh GPU GH100 termasuk unit berikut:
CEO Intel Pat Gelsinger menjangkakan berakhirnya kekurangan cip menjelang 2024
8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM setiap GPU penuh 128 FP32 CUDA Cores setiap SM, 18432 FP32 CUDA Cores setiap GPU penuh 4 Teras Tensor Generasi Keempat bagi setiap SM, 576 setiap susunan GPU penuh 6 HBM3 atau HBM2e, 12 Pengawal Memori 512-bit 60 MB L2 Cache NVLink Generasi Keempat dan PCIe Gen 5
GPU NVIDIA H100 dengan papan SXM5 faktor bentuk termasuk unit berikut:
8 GPC, 66 TPC, 2 SM/TPC, 132 SM setiap GPU 128 Teras CUDA FP32 setiap SM, 16896 Teras CUDA FP32 setiap GPU 4 Teras Tensor Generasi Keempat setiap SM, 528 setiap GPU 80 GB HBM3, 5 tindanan HBM3, 10 Pengawal Memori 512-bit 50 MB L2 Cache NVLink Generasi Keempat dan PCIe Gen 5
Ini ialah peningkatan 2.25x berbanding konfigurasi GPU GA100 penuh. NVIDIA juga memanfaatkan lebih banyak teras FP64, FP16 & Tensor dalam GPU Hoppernya yang akan meningkatkan prestasi dengan pesat. Dan itu akan menjadi satu keperluan untuk menyaingi Ponte Vecchio Intel yang juga dijangka menampilkan 1:1 FP64.
Cache adalah satu lagi ruang di mana NVIDIA telah memberikan banyak perhatian, meningkatkan kepada 48 MB dalam GPU Hopper GH100. Ini ialah peningkatan sebanyak 20% berbanding cache 50 MB yang dipaparkan pada GPU Ampere GA100 dan 3x saiz GPU MCM Aldebaran perdana AMD, MI250X.
Mengbundarkan angka prestasi, GPU Hopper GH100 NVIDIA akan menawarkan 4000 TFLOP FP8, 2000 TFLOP FP16, 1000 TFLOP TF32 dan 60 TFLOP prestasi Pengiraan FP64. Angka-angka yang memecahkan rekod ini memusnahkan semua pemecut HPC lain yang datang sebelum itu. Sebagai perbandingan, ini adalah 3.3x lebih pantas daripada GPU A100 NVIDIA sendiri dan 28% lebih pantas daripada Instinct MI250X AMD dalam pengiraan FP64. Dalam pengiraan FP16, GPU H100 adalah 3x lebih pantas daripada A100 dan 5.2x lebih pantas daripada MI250X yang sememangnya membosankan.
Varian PCIe yang merupakan model potongan telah disenaraikan di Jepun baru-baru ini dengan harga lebih $30,000 AS jadi seseorang boleh bayangkan bahawa varian SXM dengan konfigurasi yang lebih baik akan berharga sekitar $50 grand.
NVIDIA Ampere GA100 GPU Berdasarkan Tesla A100 Specs:
(PCI-Express)Tesla(PCI-Express)(PCI-Express)(PCI-Express) Tesla K40
(PCI-Express) GPUGH100 (Hopper)GH100 (Hopper)GA100 (Ampere)GA100 (Ampere)GV100 (Volta)GV100 (Volta)GP100 (Pascal)GP100 (Pascal)GM200 (Maxwell (Kepler)110 Nod Proses4nm4nm7nm7nm12nm12nm16nm16nm28nm28nm Transistor80 Billion80 Billion54.2 Billion54.2 Billion21.1 Billion21.1 Billion15.3 Billion15.3 Billion8 Billion7.1 Billion1 mm18 Billion7.1 Billion18 mm2 GPUmm2 Saiz18mm2mm2 mm2551 mm2 SMs132114108108808056562415 TPCs66575454404028282415 FP32 CUDA Cores Per SM128128646464646464128192 FP64 CUDA Cores/SM128128323232323232464 FP32 CUDA Cores168961459269126912512051203584358430722880 FP64 CUDA Cores168961459234563456256025601792179296960 Tensor Cores528456432432640640N/AN/AN/AN/A Texture Units528456432432320320224224192240 Boost ClockTBDTBD1410 MHz1410 MHz1601 MHz1530 MHz1480 MHz1329MHz1114 MHz875 MHz TOPs (DNN/AI)2000 TOPs
4000 TOPs1600 TOPs
3200 TOPs1248 TOPs
2496 TOPs dengan Sparsity1248 TOPs
2496 TOPs dengan Sparsity130 TOPs125 TOPsN/AN/AN/AN/A 010 TFLOPs1/AN/AN/A 010 TFLOPs1 TFL2OPs
2496 TOPs br>624 TFLOP dengan Sparsity32.8 TFLOPs30.4 TFLOPs21.2 TFLOPs18.7 TFLOPsN/AN/A FP32 Compute1000 TFLOPs800 TFLOPs156 TFLOPs
(19.5 TFLOPs18.7 TFLOPsN/AN/A FP32 Compute1000 TFLOPs800 TFLOPs156 TFLOPs
(19.5 TFLOPs18.7 TFLOPs.standard)156 TFLOPs.156 TFLOPs.156 TFLOPs..6 TFLOP10.0 TFLOPs6.8 TFLOPs5.04 TFLOPs FP64 Compute60 TFLOPs48 TFLOPs19.5 TFLOPs
(9.7 TFLOPs standard)19.5 TFLOP s
(9.7 TFLOPs standard)8.2 TFLOPs7.80 TFLOPs5.30 TFLOPs4.7 TFLOPs0.2 TFLOPs1.68 TFLOPs Antara Muka Memori5120-bit HBM35120-bit HBM2e6144-bit HBM2e6144-bit HBM2e6BM244-bit4 HBM2e6BM244-bit4 HBM2e6BM244-bit bit HBM2384-bit GDDR5384-bit Saiz Memori GDDR5Sehingga 80 GB HBM3 @ 3.0 GbpsSehingga 80 GB HBM2e @ 2.0 GbpsSehingga 40 GB HBM2 @ 1.6 TB/s
Sehingga 80 GB HBM2 @ 1.6 TB/sUp Hingga 80 GB HBM2 @ 1.6 GB40s @ 1.6 TB/s
Sehingga 80 GB HBM2 @ 2.0 TB/s16 GB HBM2 @ 1134 GB/s16 GB HBM2 @ 900 GB/s16 GB HBM2 @ 732 GB/s16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s24 GB GDDR5 @ 288 GB/s12 GB GDDR5 @ 288 GB/s L2 Cache Size51200 KB51200 KB40960 KB40960 KB6144 KB6144 KB4096 KB4096 KB3072 KB1536 KB TDP700W350W400W250W250W300W300W250W250W235W