IT Info
Linuxは、HBM2を搭載したAldebaranGPUノードを搭載したAMDサーバーに対応
今日のメーリングリストの最新のパブリックコードパッチは、Aldebaran GPUノードがxGMIリンクを介してCPUに接続され、GPUがHBM2メモリを搭載して停止する新しいAMD異種サーバーの準備をしています。 これらの新しい異種AMDシステムの詳細は、非CPUノード用のAMD64 EDAC(エラー検出および訂正)カーネルドライバーコードを準備する一連のパッチの一部として本日明らかになりました。 AMD64 EDACドライバーは、従来、システムのDRAM ECCエラーを処理および修正するためのものであり、現在はxGMI高速相互接続を介してCPUからアクセス可能なGPUノードメモリに拡張されています。 パブリックパッチは、xGMIリンクを介して接続されたGPUノードを備えたシステムがあり、GPUダイにはHBM2メモリがあることに注意しています。パッチはさらに、これらのノードが次世代AMDのコードネームである Aldebaran であることを確認します。 Linux5.13で最初のカーネルドライバーのサポートが見られ、さらに多くのオープンソースドライバーがそれを回避するのを見続けているCDNA GPU/アクセラレーター。アルデバランはMI100「アークトゥルス」の後継機であるため、AMD InstinctMI200に沿ったものとしてデビューすると思われます。 これらのパッチは少し前に公開されたもので、アルデバランに注意してください。 2つのダイ(AldebaranをMCM設計としてさらに確認)があり、それぞれに4つの統合メモリコントローラー(UMC)があります。各ユニファイドメモリコントローラーは、それぞれが2GBのHBM2(またはHBM2E)メモリに接続されている8つのメモリチャネルを管理します。 投稿された7つのパッチは、接続された非CPUノードの概念、HBM Gen2メモリタイプの認識、Data Fabricバージョン3.5でのアドレス変換、および関連する配管のためにEDACメモリドライバを準備します。このLinuxサポートをタイムリーに二乗することは、HPCスペースにおけるLinuxの優位性、特にAMDのスーパーコンピューター設計の勝利の増加によって推進されています。特にアルデバラン、そして今度はこのLinuxコードは、EPYCCPUとRadeonInstinct GPUの間にコヒーレントな相互接続があることがすでに言及されている、次のフロンティアエクサスケールスーパーコンピューター内で見られるものである可能性があります。 Linux 5.14マージウィンドウがすでに開いている状態でこれらのパッチのタイミングを考えると、これらのamd64_edacの追加は、拡張レビュープロセスによって引き出されない限り、Linux5.15に適用される可能性があります。