Le pilote AMD EDAC Linux pour la détection et la correction d’erreurs des erreurs CPU/mémoire AMD x86_64 est maintenant étendu pour gérer les GPU de centre de données AMD comme la série Instinct MI200 et les versions plus récentes où toute information de rapport/correction d’erreur peut désormais être propagée à ce pilote existant.
Le mois dernier, avec la fenêtre de fusion Linux 6.4, il y avait des préparations AMD EDAC pour les GPU, tandis que ce lundi matin, les premiers correctifs AMD ont été publiés pour étendre réellement ce pilote EDAC pour la couverture de l’accélérateur AMD Instinct.
La série de correctifs explique :
“Cet ensemble ajoute la prise en charge du GPU à AMD64 EDAC à partir de la série MI200 (Aldebaran).
…
Les accélérateurs de la série AMD Instinct™ MI200 sont les GPU des centres de données. La série d’accélérateurs MI200 (Aldebaran) comprend des contrôleurs de mémoire unifiés et une structure de données similaire à ceux utilisés dans les produits CPU AMD x 86. Les contrôleurs de mémoire signalent des erreurs à l’aide de MCA, bien que ces erreurs soient généralement gérées par des pilotes GPU qui gèrent directement l’accélérateur.Dans certaines configurations, les erreurs de mémoire de ces périphériques seront signalées via MCA et gérées par les processeurs x86. Le système d’exploitation est censé gérer ces erreurs de la même manière que les erreurs MCA provenant des contrôleurs de mémoire sur les processeurs x86. Sous Linux, ce flux inclut la transmission des erreurs MCA à une chaîne de notification avec des gestionnaires dans le sous-système EDAC.
Le module AMD64 EDAC nécessite des informations des contrôleurs de mémoire et de la structure de données afin de fournir un décodage détaillé des erreurs de mémoire. Les informations sont lues à partir de registres matériels accessibles via des interfaces dans la structure de données.
Les matrices de données de l’accélérateur sont visibles pour les processeurs x86 hôtes, tout comme les périphériques PCI, tout comme les matrices de données des processeurs x86 le sont déjà. Cependant, les matrices d’accélérateur ont de nouveaux ID PCI uniques.
…
Les systèmes de la famille AMD 19h modèle 30h-3Fh peuvent être connectés aux accélérateurs/GPU AMD MI200 de sorte que les tissus de données CPU et GPU soient connectés ensemble. Dans cette configuration, le CPU gère la journalisation des erreurs et les rapports pour les banques MCA situées sur les GPU. Cela inclut les erreurs de mémoire HBM signalées par les contrôleurs de mémoire unifiée (UMC) sur les GPU. Les erreurs de mémoire GPU sont traitées comme des erreurs de mémoire CPU.”
Un peu moins de 500 lignes de code sont nécessaires pour configurer le pilote AMD64 EDAC pour l’utilisation du GPU dans le centre de données. Les correctifs sont actuellement en cours de révision. pour l’intégration à une future série de noyaux.
L’accent avec cette activation initiale est pour la série AMD Instinct MI200 tandis que la prochaine série Instinct MI300 devrait fonctionner à peu près de la même manière avec cette intégration EDAC.