Además de traer ayer soporte EDAC para CPU de cliente AMD Zen 4, el conjunto de actualizaciones de RAS”Fiabilidad, disponibilidad y capacidad de servicio”para el kernel de Linux 6.5 ha traído por separado soporte inicial para GPU/acelerador.
Este es el código que se ha estado trabajando en los últimos meses para extender el controlador EDAC de Linux para GPU de centros de datos. En particular, lograr que el controlador de detección y corrección de errores AMD64 funcione para las GPU AMD Instinct MI200 con HBM.
La solicitud de extracción de RAS enviada ayer para Linux 6.5 explica:
“Agregue soporte inicial para el hardware RAS que se encuentra en las GPU de servidor de AMD (MI200). Esas GPU y CPU están conectadas entre sí a través de la estructura coherente y los controladores de memoria de la GPU informan errores a través del MCA de x86, por lo que EDAC necesita El controlador amd64_edac ahora es compatible con HBM (memoria de alto ancho de banda) y, por lo tanto, con sistemas de controlador de memoria tan heterogéneos”.
Ese código ahora se fusionó para Linux 6.5. Si bien el enfoque inicial está en la serie MI200, también será importante para la próxima serie AMD Instinct MI300.