Neural Magic’s DeepSparse AI-inferentie-runtime blijft”GPU-klasse prestaties op CPU’s”nastreven en levert met de nieuwe DeepSparse 1.5-release nog snellere prestaties voor CPU-inferentie.
DeepSparse biedt toonaangevende CPU-gebaseerde inferentieprestaties en ik heb er veel gebruik van gemaakt op Intel-en AMD-CPU’s en gebruik het vaak onder mijn CPU-benchmarks arsenaal. Ik ben verheugd om te zien dat er met DeepSparse 1.5 nog meer prestatieverbeteringen zijn. De release-opmerkingen van DeepSparse 1.5 noemen de volgende prestatieverbeteringen:
-Inferentielatentie voor ongestructureerde sparse-quantized CNN’s is tot 2x verbeterd.
-Inferentiedoorvoer en latentie voor dichte CNN’s is tot 20% verbeterd.
-Inferentiedoorvoer en latentie voor dichte transformatoren is tot 30% verbeterd.
-De volgende operators worden nu ondersteund voor prestaties:
Neg, Unsqueeze met niet-constante invoer
MatMulInteger met twee niet-constante invoer
GEMM met constante gewichten en 4D-of 5D-invoer
DeepSparse 1.5 voegt ook een ONNX-evaluatiepijplijn toe voor OpenPiPaf, YOLOv8-segmentatiepijplijnen, ondersteuning voor het gebruik van hwloc om de CPU-topologie te bepalen om de prestaties binnen Kubernetes-clusters te verbeteren, en diverse andere verbeteringen. Aan de andere kant lijkt DeepSparse 1.5 nog steeds geen ondersteuning te bieden voor Python 3.11.
Downloads (als je geen pip gebruikt) en meer informatie over de DeepSparse 1.5-release van Neural Magic via GitHub.