Az AMD x86_64 CPU/memória hibáinak hibaészlésére és javítására szolgáló AMD EDAC Linux illesztőprogram most kibővül az AMD adatközponti GPU-k kezelésére, mint például az Instinct MI200 sorozat és újabbak, ahol a hibajelentési/javítási információk továbbíthatók erre a meglévő illesztőprogramra.

A múlt hónapban a Linux 6.4 egyesítési ablakával az AMD EDAC előkészületei voltak a GPU-k számára, míg ma hétfő reggel megjelentek a kezdeti AMD javítások az EDAC illesztőprogram kiterjesztésére az AMD Instinct gyorsító lefedettségéhez.

A patch sorozat a következőket magyarázza:

“Ez a készlet GPU-támogatást ad az AMD64 EDAC-hoz az MI200 (Aldebaran) sorozattól kezdve.

Az AMD Instinct™ MI200 sorozatú gyorsítók az adatközponti GPU-k. Az MI200 (Aldebaran) gyorsítóeszközök sorozata egyesített memóriavezérlőket és az AMD x86 CPU-termékekben használthoz hasonló adatszövetet tartalmaz. A memóriavezérlők MCA használatával jelentenek hibákat, bár ezeket a hibákat általában a gyorsítóeszközt közvetlenül kezelő GPU-illesztőprogramok kezelik.

Bizonyos konfigurációkban az ezekből az eszközökből származó memóriahibákat az MCA jelenti, és x86-os CPU-k kezelik. Az operációs rendszer várhatóan hasonló módon kezeli ezeket a hibákat, mint az x86-os CPU-k memóriavezérlőiből származó MCA-hibákat. Linux esetén ez a folyamat magában foglalja az MCA-hibák átadását egy értesítőláncnak, amely az EDAC alrendszer kezelőivel rendelkezik.

Az AMD64 EDAC modulnak információra van szüksége a memóriavezérlőktől és az adatszövettől a memóriahibák részletes dekódolásához. Az információ az adatszövetben lévő interfészeken keresztül elérhető hardverregiszterekből kerül kiolvasásra.

A gyorsító adatszövetek láthatók a gazdagép x86 CPU-k számára, mint PCI-eszközök, akárcsak az x86-os CPU-adatszövetek. A gyorsítószövetek azonban új és egyedi PCI-azonosítókkal rendelkeznek.

AMD Family 19h Model 30h-3Fh rendszerek csatlakoztathatók AMD MI200 gyorsító/GPU eszközökhöz úgy, hogy a CPU és a GPU adatszövetek egymáshoz kapcsolódjanak. Ebben a konfigurációban a CPU kezeli a GPU-kon található MCA-bankok hibanaplózását és jelentését. Ez magában foglalja a GPU-kon lévő egyesített memóriavezérlők (UMC) által jelentett HBM memóriahibákat. A GPU-memóriahibákat úgy kezeljük, mint a CPU-memóriahibákat.”

Alig 500 sornyi kódra van szükség az AMD64 EDAC illesztőprogram adatközponti GPU-használathoz való beállításához. A javítások felülvizsgálata folyamatban van. egy jövőbeli kernelsorozathoz való fővonalazáshoz.
A kezdeti engedélyezés középpontjában az AMD Instinct MI200 sorozat áll, míg a hamarosan megjelenő Instinct MI300 sorozatnak nagyjából ugyanúgy kell működnie ezzel az EDAC-integrációval.

Categories: IT Info