用於錯誤檢測和糾正 AMD x86_64 CPU/內存錯誤的 AMD EDAC Linux 驅動程序現在正在擴展以處理 AMD 數據中心 GPU,如 Instinct MI200 系列和更新版本,其中任何錯誤報告/糾正信息現在都可以傳播到這個現有的驅動程序。

在上個月的 Linux 6.4 合併窗口中,AMD 為 GPU 準備了 EDAC,而本週一早上發布了最初的 AMD 補丁,用於實際擴展這個 EDAC 驅動程序以用於 AMD Instinct 加速器的覆蓋範圍。

補丁系列解釋說:

“該套件從 MI200 (Aldebaran) 系列開始為 AMD64 EDAC 添加了 GPU 支持。

AMD Instinct™ MI200 系列加速器是數據中心 GPU。 MI200 (Aldebaran) 系列加速器設備包括統一內存控制器和類似於 AMD x86 CPU 產品中使用的數據結構。內存控制器使用 MCA 報告錯誤,儘管這些錯誤通常通過直接管理加速器設備的 GPU 驅動程序處理。

在某些配置中,來自這些設備的內存錯誤將通過 MCA 報告並由 x86 CPU 管理。操作系統應該以與源自 x86 CPU 上的內存控制器的 MCA 錯誤類似的方式處理這些錯誤。在 Linux 中,此流程包括將 MCA 錯誤傳遞給在 EDAC 子系統中具有處理程序的通知程序鏈。

AMD64 EDAC 模塊需要來自內存控制器和數據結構的信息,以便提供內存錯誤的詳細解碼。從通過數據結構中的接口訪問的硬件寄存器中讀取信息。

加速器數據結構對主機 x86 CPU 可見,因為 PCI 設備就像 x86 CPU 數據結構一樣。但是,加速器結構具有新的和唯一的 PCI ID。

AMD 系列 19h 型號 30h-3Fh 系統可以連接到 AMD MI200 加速器/GPU 設備,以便 CPU 和 GPU 數據結構連接在一起。在此配置中,CPU 管理位於 GPU 上的 MCA 庫的錯誤記錄和報告。這包括從 GPU 上的統一內存控制器 (UMC) 報告的 HBM 內存錯誤。 GPU 內存錯誤的處理方式與 CPU 內存錯誤類似。”

為數據中心 GPU 使用設置 AMD64 EDAC 驅動程序僅需不到 500 行代碼。目前正在審查補丁
此初始啟用的重點是 AMD Instinct MI200 系列,而即將推出的 Instinct MI300 系列應該與此 EDAC 集成大致相同。

Categories: IT Info