Além de ontem trazer suporte EDAC para CPUs de cliente AMD Zen 4, o conjunto de atualizações RAS”Confiabilidade, Disponibilidade e Capacidade de Manutenção”para o kernel Linux 6.5 trouxe separadamente suporte inicial para GPU/acelerador.
Este é o código que está sendo trabalhado nos últimos meses para estender o driver Linux EDAC para GPUs de data center. Em particular, obter o driver de detecção e correção de erros AMD64 funcionando para GPUs AMD Instinct MI200 com HBM.
A solicitação RAS enviada ontem para Linux 6.5 explica:
“Adicione suporte inicial para hardware RAS encontrado em GPUs de servidor AMD (MI200). Essas GPUs e CPUs são conectadas por meio da malha coerente e os controladores de memória da GPU relatam erros por meio do MCA do x86, portanto, o EDAC precisa O driver amd64_edac suporta agora HBM (High Bandwidth Memory) e, portanto, tais sistemas controladores de memória heterogêneos.”
Esse código agora foi mesclado para o Linux 6.5. Embora o foco inicial esteja na série MI200, também será importante para a futura série AMD Instinct MI300.