De nieuwste openbare code-patches op de mailinglijst van vandaag bereiden zich voor op nieuwere AMD heterogene servers die Aldebaran GPU-knooppunten zullen hebben die via xGMI-links zijn verbonden met de CPU(‘s) en de GPU sterft op zijn beurt met HBM2-geheugen.
Deze nieuwe heterogene AMD-systeemdetails zijn vandaag onthuld als onderdeel van een reeks patches die de AMD64 EDAC-kernelstuurprogrammacode (Error Detection And Correction) voorbereiden voor niet-CPU-knooppunten. Het AMD64 EDAC-stuurprogramma is bedoeld voor traditioneel omgaan met en corrigeren van DRAM ECC-fouten in het systeem, terwijl het nu wordt uitgebreid naar GPU-knooppuntgeheugen dat toegankelijk is vanaf de CPU’s via de xGMI high-speed interconnect.
De openbare patches geven aan dat er systemen zullen zijn met GPU-nodes die via xGMI-links zijn verbonden en dat de GPU-chips HBM2-geheugen hebben. De patches bevestigen dat die knooppunten Aldebaran zijn, de codenaam voor een next-gen AMD CDNA GPU/accelerator die aanvankelijke ondersteuning voor kernelstuurprogramma’s zag in Linux 5.13 en nog steeds meer open-source stuurprogramma’s eromheen ziet. Aldebaran is de schijnbare opvolger van MI100″Arcturus”en zal dus vermoedelijk debuteren als iets in de trant van de AMD Instinct MI200.
Deze patches die kort geleden zijn gepubliceerd, merken op dat Aldebaran heeft twee sterft (verdere bevestiging van Aldebaran als een MCM-ontwerp) met elk vier unified memory controllers (UMC’s). Elke unified memory controller beheert acht geheugenkanalen die elk zijn verbonden met 2 GB HBM2 (of HBM2E) geheugen.
De zeven geposte patches bereiden het EDAC-geheugenstuurprogramma voor op het idee van verbonden niet-CPU-knooppunten, herkennen het HBM Gen2-geheugentype, adresvertaling op Data Fabric versie 3.5 en gerelateerde aanpassingen. Het tijdig regelen van deze Linux-ondersteuning wordt gedreven door de dominantie van Linux in de HPC-ruimte en vooral met AMD’s toenemende overwinningen op het gebied van supercomputerontwerp. Met name Aldebaran en op zijn beurt is deze Linux-code waarschijnlijk wat we zullen zien in de aankomende Frontier exascale supercomputer, waar al is vermeld dat deze de coherente verbinding heeft tussen de EPYC-CPU’s en Radeon Instinct-GPU’s.
Gezien de timing van deze patches met het Linux 5.14-samenvoegvenster al open, zullen deze amd64_edac-toevoegingen waarschijnlijk voor Linux 5.15 uitkomen, tenzij ze worden uitgesteld door een uitgebreid beoordelingsproces.