Der AMD EDAC Linux-Treiber für die Fehlererkennung und-korrektur von AMD x86_64-CPU-/Speicherfehlern wird jetzt für die Handhabung von AMD-Rechenzentrums-GPUs wie der Instinct MI200-Serie und neuer erweitert, wobei alle Fehlerberichts-/Korrekturinformationen nun an diesen vorhandenen Treiber weitergegeben werden können.
Letzten Monat gab es mit dem Zusammenführungsfenster von Linux 6.4 AMD EDAC-Vorbereitungen für GPUs, während an diesem Montagmorgen die ersten AMD-Patches veröffentlicht wurden, um diesen EDAC-Treiber tatsächlich für die Abdeckung des AMD Instinct-Beschleunigers zu erweitern.
Die Patch-Serie erklärt:
“Dieses Set fügt GPU-Unterstützung für AMD64 EDAC hinzu, beginnend mit der MI200 (Aldebaran)-Serie.
…
Die Beschleuniger der AMD Instinct™ MI200-Serie sind die GPUs für Rechenzentren. Die Die Beschleunigergeräte der MI200-Serie (Aldebaran) umfassen Unified Memory Controller und eine Datenstruktur, die denen ähnelt, die in AMD x86-CPU-Produkten verwendet werden. Die Speichercontroller melden Fehler mithilfe von MCA, obwohl diese Fehler im Allgemeinen über GPU-Treiber behandelt werden, die das Beschleunigergerät direkt verwalten.In einigen Konfigurationen werden Speicherfehler dieser Geräte über MCA gemeldet und von x86-CPUs verwaltet. Vom Betriebssystem wird erwartet, dass es diese Fehler auf ähnliche Weise behandelt wie MCA-Fehler, die von Speichercontrollern auf x86-CPUs herrühren. Unter Linux ist dieser Ablauf so Beinhaltet die Weitergabe von MCA-Fehlern an eine Notifier-Kette mit Handlern im EDAC-Subsystem.
Das AMD64 EDAC-Modul benötigt Informationen von den Speichercontrollern und der Datenstruktur, um eine detaillierte Dekodierung von Speicherfehlern bereitzustellen. Die Informationen werden aus Hardwareregistern gelesen, auf die über Schnittstellen in der Datenstruktur zugegriffen wird.
Die Beschleuniger-Datenstrukturen sind für die Host-x86-CPUs sichtbar, da PCI-Geräte genau wie x86-CPU-Datenstrukturen bereits sichtbar sind. Die Beschleunigerstrukturen verfügen jedoch über neue und eindeutige PCI-IDs.
…
AMD Family 19h Model 30h-3Fh-Systeme können mit AMD MI200 Beschleuniger-/GPU-Geräten verbunden werden, sodass die CPU-und GPU-Datenstrukturen miteinander verbunden sind. In dieser Konfiguration verwaltet die CPU die Fehlerprotokollierung und-berichterstattung für MCA-Banken, die sich auf den GPUs befinden. Dazu gehören HBM-Speicherfehler, die von Unified Memory Controllern (UMCs) auf den GPUs gemeldet werden. Die GPU-Speicherfehler werden wie CPU-Speicherfehler behandelt.“
Für die Einrichtung des AMD64 EDAC-Treibers für die GPU-Nutzung im Rechenzentrum werden knapp 500 Zeilen Code benötigt für den Mainlining auf eine zukünftige Kernel-Serie.
Der Schwerpunkt dieser ersten Aktivierung liegt auf der AMD Instinct MI200-Serie, während die kommende Instinct MI300-Serie mit dieser EDAC-Integration weitgehend genauso funktionieren sollte.