Az AMD x86_64 CPU/memória hibáinak hibaészlésére és javítására szolgáló AMD EDAC Linux illesztőprogram most kibővül az AMD adatközponti GPU-k kezelésére, mint például az Instinct MI200 sorozat és újabbak, ahol a hibajelentési/javítási információk továbbíthatók erre a meglévő illesztőprogramra.
A múlt hónapban a Linux 6.4 egyesítési ablakával az AMD EDAC előkészületei voltak a GPU-k számára, míg ma hétfő reggel megjelentek a kezdeti AMD javítások az EDAC illesztőprogram kiterjesztésére az AMD Instinct gyorsító lefedettségéhez.
A patch sorozat a következőket magyarázza:
“Ez a készlet GPU-támogatást ad az AMD64 EDAC-hoz az MI200 (Aldebaran) sorozattól kezdve.
…
Az AMD Instinct™ MI200 sorozatú gyorsítók az adatközponti GPU-k. Az MI200 (Aldebaran) gyorsítóeszközök sorozata egyesített memóriavezérlőket és az AMD x86 CPU-termékekben használthoz hasonló adatszövetet tartalmaz. A memóriavezérlők MCA használatával jelentenek hibákat, bár ezeket a hibákat általában a gyorsítóeszközt közvetlenül kezelő GPU-illesztőprogramok kezelik.Bizonyos konfigurációkban az ezekből az eszközökből származó memóriahibákat az MCA jelenti, és x86-os CPU-k kezelik. Az operációs rendszer várhatóan hasonló módon kezeli ezeket a hibákat, mint az x86-os CPU-k memóriavezérlőiből származó MCA-hibákat. Linux esetén ez a folyamat magában foglalja az MCA-hibák átadását egy értesítőláncnak, amely az EDAC alrendszer kezelőivel rendelkezik.
Az AMD64 EDAC modulnak információra van szüksége a memóriavezérlőktől és az adatszövettől a memóriahibák részletes dekódolásához. Az információ az adatszövetben lévő interfészeken keresztül elérhető hardverregiszterekből kerül kiolvasásra.
A gyorsító adatszövetek láthatók a gazdagép x86 CPU-k számára, mint PCI-eszközök, akárcsak az x86-os CPU-adatszövetek. A gyorsítószövetek azonban új és egyedi PCI-azonosítókkal rendelkeznek.
…
AMD Family 19h Model 30h-3Fh rendszerek csatlakoztathatók AMD MI200 gyorsító/GPU eszközökhöz úgy, hogy a CPU és a GPU adatszövetek egymáshoz kapcsolódjanak. Ebben a konfigurációban a CPU kezeli a GPU-kon található MCA-bankok hibanaplózását és jelentését. Ez magában foglalja a GPU-kon lévő egyesített memóriavezérlők (UMC) által jelentett HBM memóriahibákat. A GPU-memóriahibákat úgy kezeljük, mint a CPU-memóriahibákat.”
Alig 500 sornyi kódra van szükség az AMD64 EDAC illesztőprogram adatközponti GPU-használathoz való beállításához. A javítások felülvizsgálata folyamatban van. egy jövőbeli kernelsorozathoz való fővonalazáshoz.
A kezdeti engedélyezés középpontjában az AMD Instinct MI200 sorozat áll, míg a hamarosan megjelenő Instinct MI300 sorozatnak nagyjából ugyanúgy kell működnie ezzel az EDAC-integrációval.