ไดรเวอร์ AMD EDAC Linux สำหรับการตรวจจับข้อผิดพลาดและการแก้ไขข้อผิดพลาด CPU/หน่วยความจำ AMD x86_64 ขณะนี้ได้รับการขยายสำหรับการจัดการ GPU ศูนย์ข้อมูล AMD เช่น Instinct MI200 ซีรีส์และใหม่กว่า ซึ่งขณะนี้สามารถเผยแพร่ข้อมูลการรายงานข้อผิดพลาด/การแก้ไขไปยังไดรเวอร์ที่มีอยู่นี้ได้
เดือนที่แล้วด้วยหน้าต่างผสาน Linux 6.4 มีการเตรียม AMD EDAC สำหรับ GPU ในขณะที่เช้าวันจันทร์นี้เห็นแพตช์แรกของ AMD ที่โพสต์เพื่อขยายไดรเวอร์ EDAC นี้ให้ครอบคลุมตัวเร่งความเร็ว AMD Instinct
ชุดโปรแกรมแก้ไข อธิบาย:
“ชุดนี้เพิ่มการสนับสนุน GPU ให้กับ AMD64 EDAC โดยเริ่มจากซีรีส์ MI200 (Aldebaran)
…
ตัวเร่งความเร็วซีรีส์ AMD Instinct™ MI200 คือ GPU ของศูนย์ข้อมูล ชุดอุปกรณ์เร่งความเร็ว MI200 (Aldebaran) ประกอบด้วย Unified Memory Controllers และ data fabric ที่คล้ายกับที่ใช้ในผลิตภัณฑ์ AMD x86 CPU ตัวควบคุมหน่วยความจำรายงานข้อผิดพลาดโดยใช้ MCA แม้ว่าโดยทั่วไปแล้วข้อผิดพลาดเหล่านี้จะได้รับการจัดการผ่านไดรเวอร์ GPU ที่จัดการอุปกรณ์เร่งความเร็วโดยตรงในการกำหนดค่าบางอย่าง ข้อผิดพลาดของหน่วยความจำจากอุปกรณ์เหล่านี้จะถูกรายงานผ่าน MCA และจัดการโดย x86 CPU ระบบปฏิบัติการคาดว่าจะจัดการข้อผิดพลาดเหล่านี้ในรูปแบบเดียวกันกับข้อผิดพลาด MCA ที่มาจากตัวควบคุมหน่วยความจำบน x86 CPU ใน Linux ขั้นตอนนี้ รวมถึงการส่งข้อผิดพลาด MCA ไปยังสายการแจ้งเตือนที่มีตัวจัดการในระบบย่อย EDAC
โมดูล AMD64 EDAC ต้องการข้อมูลจากตัวควบคุมหน่วยความจำและแฟบริคข้อมูลเพื่อให้การถอดรหัสข้อผิดพลาดของหน่วยความจำโดยละเอียด ข้อมูลถูกอ่านจากการลงทะเบียนฮาร์ดแวร์ที่เข้าถึงได้ผ่านอินเทอร์เฟซในแฟบริคข้อมูล
โครงสร้างข้อมูลตัวเร่งสามารถมองเห็นได้บนโฮสต์ x86 CPU เนื่องจากอุปกรณ์ PCI เช่นเดียวกับโครงสร้างข้อมูล x86 CPU ที่มีอยู่แล้ว อย่างไรก็ตาม โครงสร้างตัวเร่งมี PCI ID ใหม่และไม่ซ้ำใคร
…
ระบบ AMD Family 19h รุ่น 30h-3Fh สามารถเชื่อมต่อกับอุปกรณ์เร่งความเร็ว/GPU ของ AMD MI200 เพื่อให้แฟบริคข้อมูล CPU และ GPU เชื่อมต่อเข้าด้วยกัน ในการกำหนดค่านี้ CPU จะจัดการการบันทึกข้อผิดพลาดและการรายงานสำหรับธนาคาร MCA ที่อยู่บน GPU ซึ่งรวมถึงข้อผิดพลาดของหน่วยความจำ HBM ที่รายงานจาก Unified Memory Controllers (UMCs) บน GPU ข้อผิดพลาดของหน่วยความจำ GPU ได้รับการจัดการเหมือนกับข้อผิดพลาดของหน่วยความจำ CPU”
จำเป็นต้องมีโค้ดไม่เกิน 500 บรรทัดในการตั้งค่าไดรเวอร์ AMD64 EDAC สำหรับการใช้ GPU ในศูนย์ข้อมูล ขณะนี้แพทช์อยู่ระหว่างการตรวจสอบ สำหรับการเมนไลน์ไปยังซีรีส์เคอร์เนลในอนาคต
จุดเน้นของการเปิดใช้งานครั้งแรกนี้มีไว้สำหรับซีรีส์ AMD Instinct MI200 ในขณะที่ซีรีส์ Instinct MI300 ที่กำลังจะมาถึงควรทำงานเหมือนกันกับการผสานรวม EDAC นี้