Driver AMD EDAC Linux untuk Error Detection And Correction of AMD x86_64 CPU/memory error sekarang diperluas untuk menangani GPU pusat data AMD seperti seri Instinct MI200 dan yang lebih baru di mana informasi pelaporan/koreksi error sekarang dapat disebarkan ke driver yang ada ini.
Bulan lalu dengan jendela penggabungan Linux 6.4 ada persiapan AMD EDAC untuk GPU sementara Senin pagi ini tambalan AMD awal diposting untuk benar-benar memperluas driver EDAC ini untuk cakupan akselerator AMD Instinct.
seri tambalan menjelaskan:
“Set ini menambahkan dukungan GPU untuk AMD64 EDAC dimulai dengan seri MI200 (Aldebaran).
…
Akselerator seri AMD Instinctâ„¢ MI200 adalah GPU pusat data. The Seri perangkat akselerator MI200 (Aldebaran) termasuk Pengontrol Memori Terpadu dan struktur data yang mirip dengan yang digunakan dalam produk CPU AMD x86. Pengontrol memori melaporkan kesalahan menggunakan MCA, meskipun kesalahan ini umumnya ditangani melalui driver GPU yang secara langsung mengelola perangkat akselerator.Dalam beberapa konfigurasi, kesalahan memori dari perangkat ini akan dilaporkan melalui MCA dan dikelola oleh CPU x86. OS diharapkan menangani kesalahan ini dengan cara yang mirip dengan kesalahan MCA yang berasal dari pengontrol memori pada CPU x86. Di Linux, alur ini termasuk meneruskan kesalahan MCA ke rantai pemberi tahu yang memiliki penangan di subsistem EDAC.
Modul AMD64 EDAC memerlukan informasi dari pengontrol memori dan struktur data untuk menyediakan dekode kesalahan memori yang mendetail. Informasi dibaca dari register perangkat keras yang diakses melalui antarmuka di struktur data.
Fabrik data akselerator dapat dilihat oleh CPU x86 host sebagai perangkat PCI seperti halnya fabrik data CPU x86 sudah ada. Namun, bahan akselerator memiliki ID PCI yang baru dan unik.
…
AMD Family 19h Model 30h-3Fh sistem dapat dihubungkan ke perangkat akselerator/GPU AMD MI200 sedemikian rupa sehingga struktur data CPU dan GPU terhubung bersama. Dalam konfigurasi ini, CPU mengelola pencatatan dan pelaporan kesalahan untuk bank MCA yang terletak di GPU. Ini termasuk kesalahan memori HBM yang dilaporkan dari Pengontrol Memori Terpadu (UMC) pada GPU. Kesalahan memori GPU ditangani seperti kesalahan memori CPU.”
Diperlukan kurang dari 500 baris kode untuk menyiapkan driver AMD64 EDAC untuk penggunaan GPU pusat data. Tambalan sekarang sedang ditinjau untuk mengarusutamakan ke seri kernel masa depan.
Fokus dengan pengaktifan awal ini adalah untuk seri AMD Instinct MI200 sedangkan seri Instinct MI300 yang akan datang akan bekerja hampir sama dengan integrasi EDAC ini.