Trình điều khiển AMD EDAC Linux dành cho Phát hiện lỗi và sửa lỗi CPU/bộ nhớ AMD x86_64 hiện đang được mở rộng để xử lý GPU trung tâm dữ liệu AMD như dòng MI200 Instinct và mới hơn, nơi mọi thông tin báo cáo/sửa lỗi hiện có thể được truyền tới trình điều khiển hiện có này.

Tháng trước với cửa sổ hợp nhất Linux 6.4, AMD đã chuẩn bị EDAC cho GPU trong khi sáng thứ Hai tuần này, các bản vá AMD ban đầu được đăng để thực sự mở rộng trình điều khiển EDAC này cho phạm vi phủ sóng của bộ tăng tốc AMD Instinct.

Chuỗi loạt bản vá giải thích:

“Bộ này bổ sung hỗ trợ GPU cho AMD64 EDAC bắt đầu với sê-ri MI200 (Aldebaran).

Bộ tăng tốc sê-ri AMD Instinct™ MI200 là GPU của trung tâm dữ liệu. Dòng thiết bị tăng tốc MI200 (Aldebaran) bao gồm Bộ điều khiển bộ nhớ hợp nhất và cấu trúc dữ liệu tương tự như dữ liệu được sử dụng trong các sản phẩm CPU AMD x86.

Trong một số cấu hình, lỗi bộ nhớ từ các thiết bị này sẽ được báo cáo thông qua MCA và được quản lý bởi CPU x86. Hệ điều hành dự kiến ​​sẽ xử lý các lỗi này theo cách tương tự như lỗi MCA bắt nguồn từ bộ điều khiển bộ nhớ trên CPU x86. Trong Linux, quy trình này bao gồm chuyển lỗi MCA tới chuỗi trình thông báo có trình xử lý trong hệ thống con EDAC.

Mô-đun AMD64 EDAC yêu cầu thông tin từ bộ điều khiển bộ nhớ và kết cấu dữ liệu để cung cấp khả năng giải mã chi tiết các lỗi bộ nhớ. Thông tin được đọc từ các thanh ghi phần cứng được truy cập thông qua các giao diện trong kết cấu dữ liệu.

Cấu trúc dữ liệu của bộ tăng tốc hiển thị với các CPU máy chủ x86 dưới dạng các thiết bị PCI giống như cấu trúc dữ liệu CPU x86 đã có. Tuy nhiên, các loại vải máy gia tốc có ID PCI mới và duy nhất.

Các hệ thống AMD Family 19h Model 30h-3Fh có thể được kết nối với các thiết bị GPU/bộ tăng tốc AMD MI200 sao cho kết cấu dữ liệu CPU và GPU được kết nối với nhau. Trong cấu hình này, CPU quản lý ghi nhật ký lỗi và báo cáo cho các ngân hàng MCA nằm trên GPU. Điều này bao gồm các lỗi bộ nhớ HBM được báo cáo từ Bộ điều khiển bộ nhớ hợp nhất (UMC) trên GPU. Lỗi bộ nhớ GPU được xử lý giống như lỗi bộ nhớ CPU.”

Chỉ cần dưới 500 dòng mã để thiết lập trình điều khiển AMD64 EDAC cho việc sử dụng GPU của trung tâm dữ liệu. Các bản vá hiện đang được xem xét để tạo tuyến chính cho một loạt nhân trong tương lai.

Categories: IT Info