Ang DeepSparse AI inference runtime ng Neural Magic ay patuloy na humahabol sa”GPU-class performance sa mga CPU”at sa bagong DeepSparse 1.5 release ay naghahatid ng mas mabilis na performance para sa CPU inference.
Nag-aalok ang DeepSparse ng nangungunang pagganap ng hinuha na nakabatay sa CPU at nagamit ko ito nang husto sa mga Intel at AMD na CPU at karaniwang ginagamit ito sa aking mga benchmark ng CPU arsenal. Nasasabik akong makita sa DeepSparse 1.5 na mayroong higit pang mga pagpapahusay sa pagganap. Ang mga tala sa paglabas ng DeepSparse 1.5 ay tinatawag ang mga sumusunod na pagpapahusay sa pagganap:
-Ang latency ng hinuha para sa mga hindi nakabalangkas na kalat-kalat na mga CNN ay napabuti ng hanggang 2x.
-Ang inference throughput at latency para sa mga siksik na CNN ay napabuti ng hanggang 20%.
-Ang inference throughput at latency para sa mga siksik na transformer ay napabuti ng hanggang 30%.
-Sinusuportahan na ngayon ang mga sumusunod na operator para sa pagganap:
Neg, Unsqueeze na may mga hindi pare-parehong input
MatMulInteger na may dalawang hindi pare-parehong input
GEMM na may pare-parehong timbang at 4D o 5D na input
Nagdagdag din ang DeepSparse 1.5 ng pipeline ng pagsusuri ng ONNX para sa OpenPiPaf, mga pipeline ng segmentasyon ng YOLOv8, suporta para sa paggamit ng hwloc upang matukoy ang topology ng CPU upang mapabuti ang pagganap sa loob ng mga cluster ng Kubernetes, at iba pang mga pagpapahusay. Sa downside, mukhang hindi pa rin sinusuportahan ng DeepSparse 1.5 ang Python 3.11.
Mga pag-download (kung hindi gumagamit ng pip) at higit pang mga detalye sa paglabas ng DeepSparse 1.5 ng Neural Magic sa pamamagitan ng GitHub.