Die DeepSparse AI-Inferenzlaufzeit von Neural Magic strebt weiterhin nach „Leistung der GPU-Klasse auf CPUs“ und liefert mit der neuen Version von DeepSparse 1.5 eine noch schnellere Leistung für CPU-Inferenz.
DeepSparse bietet führende CPU-basierte Inferenzleistung und ich habe es auf Intel-und AMD-CPUs hervorragend genutzt und verwende es häufig bei meinen CPU-Benchmarks Arsenal. Ich freue mich, dass es mit DeepSparse 1.5 noch mehr Leistungsverbesserungen gibt. In den Versionshinweisen zu DeepSparse 1.5 werden die folgenden Leistungsverbesserungen genannt:
– Die Inferenzlatenz für unstrukturierte, spärlich quantisierte CNNs wurde um das bis zu Zweifache verbessert.
-Der Inferenzdurchsatz und die Latenz für dichte CNNs wurden um bis zu 20 % verbessert.
-Inferenzdurchsatz und Latenz für dichte Transformatoren wurden um bis zu 30 % verbessert.
-Die folgenden Operatoren werden jetzt aus Leistungsgründen unterstützt:
Neg, Unsqueeze mit nicht konstanten Eingaben
MatMulInteger mit zwei nicht konstanten Eingaben
GEMM mit konstanten Gewichten und 4D-oder 5D-Eingaben
DeepSparse 1.5 fügt außerdem eine ONNX-Evaluierungspipeline für OpenPiPaf, YOLOv8-Segmentierungspipelines, Unterstützung für die Verwendung von hwloc zur Bestimmung der CPU-Topologie zur Verbesserung der Leistung innerhalb von Kubernetes-Clustern und verschiedene andere Verbesserungen hinzu. Der Nachteil ist, dass DeepSparse 1.5 Python 3.11 offenbar immer noch nicht unterstützt.
Downloads (falls kein Pip verwendet wird) und weitere Details zur DeepSparse 1.5-Version von Neural Magic über GitHub.