Sterownik AMD EDAC dla systemu Linux do wykrywania i korygowania błędów procesora/pamięci AMD x86_64 jest teraz rozszerzany o obsługę procesorów graficznych AMD w centrach danych, takich jak seria Instinct MI200 i nowsze, dzięki czemu wszelkie informacje o raportowaniu/poprawianiu błędów mogą być teraz propagowane do tego istniejącego sterownika.
W zeszłym miesiącu wraz z oknem łączenia Linuksa 6.4 trwały przygotowania AMD EDAC dla procesorów graficznych, podczas gdy w ten poniedziałek rano opublikowano pierwsze łatki AMD faktycznie rozszerzające obsługę tego sterownika EDAC dla obsługi akceleratora AMD Instinct.
W serii poprawek wyjaśniono:
“Ten zestaw dodaje obsługę GPU do AMD64 EDAC począwszy od serii MI200 (Aldebaran).
…
Akceleratory serii AMD Instinct™ MI200 to procesory graficzne do centrów danych. Seria urządzeń akcelerujących MI200 (Aldebaran) obejmuje ujednolicone kontrolery pamięci i strukturę danych podobną do tych używanych w produktach z procesorami AMD x 86. Kontrolery pamięci zgłaszają błędy za pomocą MCA, chociaż te błędy są zazwyczaj obsługiwane przez sterowniki GPU, które bezpośrednio zarządzają urządzeniem akceleratorem.W niektórych konfiguracjach błędy pamięci z tych urządzeń będą zgłaszane przez MCA i zarządzane przez procesory x86. Oczekuje się, że system operacyjny będzie obsługiwał te błędy w podobny sposób, jak błędy MCA pochodzące z kontrolerów pamięci w procesorach x86. W systemie Linux ten przepływ obejmuje przekazywanie błędów MCA do łańcucha powiadomień z modułami obsługi w podsystemie EDAC.
Moduł AMD64 EDAC wymaga informacji z kontrolerów pamięci i struktury danych w celu szczegółowego zdekodowania błędów pamięci. Informacje są odczytywane z rejestrów sprzętowych, do których dostęp uzyskuje się za pośrednictwem interfejsów w strukturze danych.
Siatki danych akceleratora są widoczne dla procesorów hosta x86 tak samo, jak urządzenia PCI, podobnie jak struktury danych procesora x86. Jednak sieci światłowodowe akceleratorów mają nowe, unikatowe identyfikatory PCI.
…
Rodzina AMD 19h Modele 30h-3Fh Systemy można łączyć z akceleratorami/urządzeniami graficznymi AMD MI200 w taki sposób, że struktury danych procesora i karty graficznej są ze sobą połączone. W tej konfiguracji procesor zarządza rejestrowaniem błędów i raportowaniem dla banków MCA znajdujących się na procesorach graficznych. Obejmuje to błędy pamięci HBM zgłaszane przez ujednolicone kontrolery pamięci (UMC) w procesorach graficznych. Błędy pamięci GPU są obsługiwane tak samo, jak błędy pamięci procesora.”
Do skonfigurowania sterownika AMD64 EDAC do użycia procesora graficznego w centrum danych potrzeba mniej niż 500 linii kodu. Poprawki są obecnie weryfikowane do mainliningu w przyszłych seriach jądra.
To początkowe udostępnienie koncentruje się na serii AMD Instinct MI200, podczas gdy nadchodząca seria Instinct MI300 powinna działać tak samo z tą integracją EDAC.