Con el lanzamiento la semana pasada de los procesadores de servidor Intel Xeon Scalable Sapphire Rapids de cuarta generación, Intel habló mucho sobre los nuevos y brillantes aceleradores y el gran potencial de rendimiento de AMX, pero no se mostró realmente y solo se escuchó a través de la vid: el mejorado AVX-512 implementación encontrada con estos nuevos procesadores. Con Sapphire Rapids, se reducen las penalizaciones por activar AVX-512, y para algunas instrucciones AVX-512, ya no hay un impacto medible, en comparación con los procesadores Xeon de la generación anterior. En este artículo, se analiza el rendimiento de una amplia variedad de cargas de trabajo con AVX-512 activado/desactivado, no solo para Sapphire Rapids, sino también para la generación anterior de Ice Lake, así como los nuevos procesadores EPYC 4.ª generación”Genoa”de AMD en los que han presentado AVX-512 por primera vez.

Oír sobre el manejo mejorado de AVX-512 con Sapphire Rapids me entusiasmó mucho considerando la cantidad de cargas de trabajo que hay ahora que pueden aprovechar AVX-512, en comparación con el estado inicial del software con los aceleradores, etc. Además, con la implementación del nuevo AMD Zen 4 AVX-512 bastante eficiente, estaba ansioso por ver cómo se compararía el cambio en el rendimiento.

Para el artículo de hoy, ejecuté pruebas comparativas de Intel Xeon Platinum 8490H (Sapphire Rapids ), procesadores Intel Xeon Platinum 8380 (Ice Lake) y AMD EPYC 965 (Génova), todos en dos configuraciones de CPU como los modelos insignia de cada gen. racionar. A partir de ahí, ejecuté una amplia variedad de puntos de referencia (en su mayoría del mundo real) con la compatibilidad con AVX-512 habilitada y luego deshabilitada/compilada.

Aparte de los servidores que cuentan con un conmutador AVX-512 en el BIOS, el El uso de AVX-512 también se puede manipular usando”clearcpuid=304″como una opción de arranque del kernel de Linux para borrar los indicadores de AVX-512 para que no sean utilizados por el kernel o expuestos como parte de la salida de/proc/cpuinfo para que las aplicaciones analicen eso para determinar Características de la CPU para habilitar. Y, además, para las aplicaciones creadas a partir de la compilación fuente con/sin las opciones AVX-512.

Además de observar el rendimiento bruto en Ice Lake/Sapphire Rapids/Génova con AVX-512 activado/desactivado, el Las temperaturas del núcleo de la CPU, el consumo de energía combinado de la CPU y la frecuencia máxima de la CPU (la más alta observada cada segundo en cualquiera de los núcleos de la CPU) se registraron como métricas de datos complementarios para cada punto de referencia.

Estos resultados de AVX-512 son bastante interesante, así que pasemos directamente a los datos.

Primero fue ejecutar el motor de inferencia basado en CPU DeepSparse de Neural Magic que es capaz de aprovechar AVX-512.

Inmediatamente con el Modelo de clasificación de texto NLP, vemos que la implementación AVX-512 de Sapphire Rapids produce un mayor impulso de AVX-512 en comparación con las otras CPU. El rendimiento de Ice Lake aumentó un 24 % con AVX-512, el rendimiento de EPYC 9654 2P aumentó un 20 % y el nuevo procesador Sapphire Rapids disfrutó de un aumento de rendimiento del 49 % gracias a AVX-512.

También fue una reducción significativa en la latencia con Sapphire Rapids AVX-512 habilitado.

Si bien algunos software de IA ya se han aprovechado de Advanced Matrix Extensions (AMX) o confiando en la biblioteca oneDNN de Intel, DeepSparse es usando ninguno al buscar a través de su último código de desarrollo. Será interesante ver si finalmente implementan la compatibilidad con AMX para obtener un rendimiento aún mayor.

Mientras que el servidor Xeon Platinum 8490H 2P disfrutaba de un aumento de rendimiento relativo mayor debido a la activación de AVX-512, el servidor AMD EPYC 9654 2P En general, el servidor ofrecía el mejor rendimiento general.

La mejora del rendimiento bruto de AVX-512 en el servidor Sapphire Rapids fue relativamente mayor que la de la generación anterior de Ice Lake y la competencia EPYC de 4.ª generación de AMD. En algunos casos excepcionales, el rendimiento de AMD Genoa retrocedió con AVX-512.

En muchos de los casos de prueba, la frecuencia máxima de la CPU Xeon Platinum 8490H fue similar tanto si AVX-512 estaba encendido como si no. Esas son buenas noticias, ya que, a diferencia de Ice Lake, donde se activó AVX-512, la frecuencia máxima fue a menudo 100 MHz o más inferior que la ejecución sin AVX-512.

Ice Lake con un uso intensivo de AVX-512 a veces también conduce a temperaturas centrales más altas.

En la amplia gama de pruebas realizadas con DeepSparse, AVX-512 habilitado con Sapphire Rapids condujo a una mejora relativa mayor que la observada con Ice Lake o AMD Zen 4.

Y lo que es más importante, no hubo un impacto negativo en la frecuencia máxima de la CPU al utilizar AVX-512 ahora con Sapphire Rapids, a diferencia de las CPU escalables Xeon de la generación anterior.

Para el motor de ajedrez LeelaChessZero con tecnología de redes neuronales, Sapphire Rapids disfrutó de un aumento de rendimiento relativo mayor con AVX-512 habilitado que Ice Lake o Génova. En este caso también fue suficiente para empujar al Xeon Platinum 8490H 2P por delante del EPYC 9654 2P.

Aunque en el caso del rendimiento por vatio, AMD Genoa estaba muy por delante de Sapphire Rapids con AVX-512 para Lczero.

Con la biblioteca de kernel de trazado de rayos Embree de Intel que habilita AVX-512 en Ice Lake obtuvo una mejora del 10 %, mientras que con Sapphire Rapids fue una mejora del 35 %. En el caso del aumento del EPYC 9654 AVX-512, fue del 20 %.

Con Embree AVX-512 en Ice Lake, puede ver dónde la frecuencia máxima se ve gravemente afectada en comparación con sin AVX-512. pero no fue el caso de Sapphire Rapids o Génova.

El uso de AVX-512 de Embree en Ice Lake también condujo a temperaturas más altas en el núcleo de la CPU, mientras que con Sapphire Rapids y Génova fue en realidad más baja cuando se usó la ruta AVX-512.

Embree hace un buen trabajo al mostrar el AVX-512 mejorado con Sapphire Rapids en comparación con los procesadores Xeon Scalable de tercera generación insignia anteriores.

Con la biblioteca de núcleo de volumen OpenVKL de Intel, todos las CPU disfrutaron de un 14~17 % más de rendimiento gracias al AVX-512.

Con la biblioteca Open Image Denoise de Intel, la actualización AVX-512 en el Xeon Platinum 8490H fue suficiente para impulsarlo por delante del servidor EPYC 9654 2P. Curiosamente, el uso de OIDN AVX-512 no resultó beneficioso en el servidor AMD EPYC Genoa.

Aunque, en cualquier caso, el servidor AMD EPYC Genoa ofrecía un mejor rendimiento por vatio que el de Sapphire Rapids incluso con su mejora superior respecto a AVX-512 en OIDN.

El motor de trazado de rayos OSPRay de Intel disfrutaba de un rendimiento un 57 % mejor en Sapphire Rapids con AVX-512 en comparación con el 52 % en Ice Lake, pero no alcanzaba el 70 % impulso visto con Genoa de AMD.

OSPRay Studio estaba disfrutando de buenas mejoras de velocidad desde AVX-512 en todos los procesadores probados.

La biblioteca de redes neuronales oneDNN de Intel estaba experimentando la mejora más significativa de AVX-512 en Sapphire Rapids.

Ice Lake tuvo un mayor uso de energía y temperatura de funcionamiento con el uso de AVX-512 oneDNN, a diferencia de Sapphire Rapids y Génova.

Con el minero cpuminer-opt y el algoritmo scrypt, la activación de AVX-512 en Sapphire Rapids produjo una mejora de 2,25 veces en Sapphire Rapids en comparación con 2,0 veces en Ice Lake o 1,63 veces el rendimiento con Génova. pero el servidor AMD EPYC 9654 fue en general el que ofreció el mejor rendimiento.

El impacto de la frecuencia máxima de la CPU fue menor con Sapphire Rapids en comparación con Ice Lake.

Cpuminer-opt fue uno de los raros casos en los que el uso de AVX-512 incrementó significativamente el uso de energía para los procesadores Genoa y Sapphire Rapids.

También en otros puntos de referencia de Cpuminer-opt, la mejora de Sapphire Rapids AVX-512 fue relativamente mayor que la observada con Ice Lake.

Para algunos de los algoritmos cpuminer-opt, la implementación AVX-512 de doble bombeo con Zen 4/Génova no había producido ninguna mejora.

OpenVINO tendía a ver el mayor mejora relativa de AVX-512 con Sapphire Rapids.

Con AMD Zen 4 ahora compatible con AVX-512 y Sapphire Rapids con una mayor eficiencia de AVX-512, es un buen momento para que los desarrolladores de software reconsideren admitir AVX-512 si anteriormente se han desanimado por la falta de soporte de CPU de varios proveedores o los desafíos de energía/térmicos con generaciones anteriores de X eon cuando encuentra instrucciones AVX-512.

En todos los puntos de referencia ejecutados con AVX-512 activado/desactivado, cuando AVX-512 estaba habilitado para el servidor Xeon Platinum 8380 2P”Ice Lake”y ejecutando estos Las cargas de trabajo pesadas de AVX-512 vieron una caída de ~ 175 MHz en promedio a la frecuencia máxima de la CPU. Ahora, con Sapphire Rapids, este ya no es el caso, pero la frecuencia máxima de la CPU fue similar con/sin AVX-512. Como se mostró anteriormente, AMD EPYC Genoa tampoco experimenta el downclocking AVX-512. Con Ice Lake no estuvo tan mal al principio, a diferencia de los días de Skylake con AVX-512.

Al observar el consumo de energía de la CPU en todas las evaluaciones comparativas de AVX-512 realizadas, al usar AVX-512 en el Xeon Platinum 8380 aumentó el consumo de energía promedio en un 24 % (365 frente a 451 vatios para las dos configuraciones de CPU). Mientras tanto, con el servidor Xeon Platinum 8490H, el consumo de energía promedio fue básicamente el mismo. No hubo los resultados EPYC 9654 aquí debido a una interrupción de la prueba, pero Zen 4 generalmente disfruta de un consumo de energía similar cuando AVX-512 está habilitado.

Al tomar la media geométrica de todos los puntos de referencia AVX-512 sin procesar En este artículo, el rendimiento del Xeon Platinum 8380 2P”Ice Lake”aumentó en un 34 % con la ejecución habilitada para AVX-512, mientras que el rendimiento del Xeon Platinum 8490H 2P”Sapphire Rapids”AVX-512 mejoró en un 44 % y el EPYC 9654 El rendimiento de 2P”Génova”aumentó un 21 % con AVX-512. Sapphire Rapids no solo disfrutó de un aumento mucho mayor de AVX-512 en comparación con Ice Lake, sino también una gran victoria en eficiencia energética.

La media geométrica también muestra cuán importante es AVX-512 para el éxito de 4th Gen EPYC Genoa en ser competitivo frente a 4th Gen Xeon Scalable para cargas de trabajo de HPC. Si Zen 4 no hubiera agregado AVX-512, los resultados deshabilitados de EPYC 9654 2P AVX-512 aparecieron justo detrás del Xeon Platinum 8490H 2P con AVX-512 habilitado. Un procesador de servidor Zen 4 sin AVX-512 habría sido una carrera de cuello a cuello entre Sapphire Rapids y Génova en más cargas de trabajo. Pero, en cambio, el EPYC 9654 2P con AVX-512 resultó un 19 % más rápido que los procesadores Xeon Platinum 8490H en este conjunto de pruebas comparativas.

Estoy bastante sorprendido de que Intel no haya promocionado más notablemente su AVX-512 con 4th Gen Xeon Scalable en el lanzamiento, pero en cualquier caso es bueno ver que AVX-512 brinda una mayor mejora sin tener el impacto significativo en el consumo de energía que se vio con las generaciones anteriores de procesadores AVX-512. Esto puede beneficiar inmediatamente a una gran cantidad de software existente en comparación con tener que adaptarse para utilizar AMX y los nuevos aceleradores. Con suerte, este AVX-512 más eficiente con Sapphire Rapids emparejado con CPU AMD Zen 4 que ahora tienen AVX-512 llevará a más desarrolladores de software a considerar las optimizaciones AVX-512 para su software.

Categories: IT Info