Runtime inferensi DeepSparse AI Neural Magic terus mengejar”kinerja sekelas GPU pada CPU”dan dengan rilis DeepSparse 1.5 yang baru memberikan kinerja yang lebih cepat untuk inferensi CPU.
DeepSparse menawarkan kinerja inferensi berbasis CPU yang terkemuka dan saya telah memanfaatkannya dengan sangat baik pada CPU Intel dan AMD dan umumnya menggunakannya di antara benchmark CPU gudang senjata. Saya senang melihat dengan DeepSparse 1.5 bahkan ada lebih banyak peningkatan kinerja. Catatan rilis DeepSparse 1.5 menyebutkan peningkatan kinerja berikut:
-Latensi inferensi untuk CNN berkuantisasi jarang yang tidak terstruktur telah ditingkatkan hingga 2x.
-Throughput inferensi dan latensi untuk CNN padat telah ditingkatkan hingga 20%.
-Throughput inferensi dan latensi untuk trafo padat telah ditingkatkan hingga 30%.
-Operator berikut sekarang didukung untuk performa:
Neg, Unsqueeze dengan input non-konstan
MatMulInteger dengan dua input non-konstan
GEMM dengan bobot konstan dan input 4D atau 5D
DeepSparse 1.5 juga menambahkan pipeline evaluasi ONNX untuk OpenPiPaf, pipeline segmentasi YOLOv8, dukungan penggunaan hwloc untuk menentukan topologi CPU guna meningkatkan kinerja di dalam kluster Kubernetes, dan berbagai peningkatan lainnya. Sisi negatifnya, DeepSparse 1.5 sepertinya masih belum mendukung Python 3.11.
Download (jika tidak menggunakan pip) dan detail lebih lanjut tentang rilis DeepSparse 1.5 Neural Magic melalui GitHub.