El tiempo de ejecución de inferencia de IA DeepSparse de Neural Magic continúa buscando un”rendimiento de clase GPU en CPU”y con la nueva versión DeepSparse 1.5 ofrece un rendimiento aún más rápido para la inferencia de CPU.

DeepSparse ofrece un rendimiento de inferencia basado en CPU líder y lo he utilizado mucho en CPU Intel y AMD y lo uso comúnmente entre mis Puntos de referencia de CPU arsenal. Estoy emocionado de ver que con DeepSparse 1.5 hay aún más mejoras de rendimiento. Las notas de la versión de DeepSparse 1.5 mencionan las siguientes mejoras de rendimiento:

: la latencia de inferencia para las CNN no estructuradas con cuantificación dispersa se ha mejorado hasta 2 veces.
-El rendimiento de inferencia y la latencia de las CNN densas se han mejorado hasta en un 20 %.
-El rendimiento de inferencia y la latencia para transformadores densos se han mejorado hasta en un 30 %.
-Los siguientes operadores ahora son compatibles para el rendimiento:
        Neg, Unsqueeze con entradas no constantes
        MatMulInteger con dos entradas no constantes
        GEMM con pesos constantes y entradas 4D o 5D

DeepSparse 1.5 también agrega una canalización de evaluación ONNX para OpenPiPaf, canalizaciones de segmentación YOLOv8, compatibilidad con el uso de hwloc para determinar la topología de la CPU para mejorar el rendimiento dentro de los clústeres de Kubernetes y varias otras mejoras. En el lado negativo, DeepSparse 1.5 todavía no parece ser compatible con Python 3.11.
Descargas (si no se usa pip) y más detalles sobre el lanzamiento de DeepSparse 1.5 de Neural Magic a través de GitHub.

Categories: IT Info