L’environnement d’exécution d’inférence DeepSparse AI de Neural Magic continue de rechercher des”performances de classe GPU sur les processeurs”et, avec la nouvelle version DeepSparse 1.5, offre des performances encore plus rapides pour l’inférence CPU.
DeepSparse offre des performances d’inférence basées sur le processeur de pointe et je l’ai largement utilisé sur les processeurs Intel et AMD et je l’utilise couramment parmi mes arsenal de benchmarks CPU. Je suis ravi de voir qu’avec DeepSparse 1.5, il y a encore plus d’améliorations des performances. Les notes de version de DeepSparse 1.5 appellent les améliorations de performances suivantes :
-La latence d’inférence pour les CNN non structurés à quantification éparse a été améliorée jusqu’à 2 x.
-Le débit d’inférence et la latence pour les CNN denses ont été améliorés jusqu’à 20 %.
– Le débit et la latence d’inférence pour les transformateurs denses ont été améliorés jusqu’à 30 %.
-Les opérateurs suivants sont désormais pris en charge pour les performances :
Neg, Unsqueeze avec des entrées non constantes
MatMulInteger avec deux entrées non constantes
GEMM avec des poids constants et des entrées 4D ou 5D
DeepSparse 1.5 ajoute également un pipeline d’évaluation ONNX pour OpenPiPaf, des pipelines de segmentation YOLOv8, la prise en charge de l’utilisation de hwloc pour déterminer la topologie du processeur afin d’améliorer les performances à l’intérieur des clusters Kubernetes et diverses autres améliorations. En revanche, DeepSparse 1.5 ne semble toujours pas prendre en charge Python 3.11.
Téléchargements (si vous n’utilisez pas pip) et plus de détails sur la version DeepSparse 1.5 de Neural Magic via GitHub.