Cómo comparar correctamente los procesadores AMD Stream y los núcleos NVIDIA CUDA

La mejor respuesta

AMD ha puesto más peso en el paralelismo a nivel de subprocesos. Admite 40 subprocesos en curso por canalización de GPU.

Nvidia se ha centrado en un mejor rendimiento de la caché y la comunicación entre subprocesos. Por ejemplo, puede enviar datos de pipeline-1 a pipeline-2 directamente en 1 ciclo utilizando la instrucción warp shuffle. Si desea enviar datos de pipeline-1 a pipeline-1024, entonces necesita usar memoria caché / compartida que también es más rápida que su contraparte de Amd.

Para hacer un punto de referencia justo, lo haría

aumentar el número de elementos de trabajo enviados a la GPU de AMD para que llenen completamente sus tuberías
optimizar con warp shuffles, etc. para Nvidia.

Para un comparación directa de hardware, se deben considerar todas las series de GPU y sería una comparación muy compleja con muchas cosas en papel. La mejor manera de conocer el rendimiento es la evaluación comparativa.

Por ejemplo, si hay una evaluación comparativa de simulación de galaxias de N-cuerpos, tendría varios subprocesos por masa en AMD y 1 subproceso por masa en Nvidia. Entonces optimizaría ambos usando «mosaico» en la memoria compartida rápida. Pero en Nvidia, agregaría una segunda capa de «mosaico» usando warp shuffles. Warp shuffles comparte de manera efectiva el almacenamiento de registros con las canalizaciones vecinas para que la dependencia de la memoria disminuya y el rendimiento aumente. Pero es solo CUDA. OpenCL no depende de la plataforma porque intercambia un potencial de ganancia de rendimiento.

Respuesta

AMD actualmente vende procesadores con entre 2 y 64 núcleos de CPU. Aquí hay una lista de diferentes líneas y series de productos de CPU / APU de AMD (APUs son lo que AMD llama sus CPU con gráficos integrados) y su correspondiente recuento de núcleos.

Tenga en cuenta que cada una de estas líneas de productos contiene varios generaciones y modelos específicos o «SKU» (Unidades de mantenimiento de existencias) de CPU, por lo que, por ejemplo, un Ryzen 7 1700 es más lento que un Ryzen 7 3700X, aunque ambos son CPU Ryzen 7 de 8 núcleos:

Serie A (APU de baja potencia construidas sobre arquitecturas de «bulldozer» obsoletas e ineficientes. Por lo general, no vale la pena comprarlas):

A4 – 2 núcleos
A6 – 2 núcleos
A8 – 4 núcleos
A9 – 2 núcleos
A10 – 4 núcleos
A12 – 4 núcleos

Serie Athlon X (como la serie A, pero sin los gráficos. No comprar.)

Athlon X2 – 2 núcleos
Athlon X4 – 4 núcleos

FX-Series (CPU «bulldozer» similares a la serie A, pero sin gráficos integrados y un poco más rápidas. Difícil de enfriar lo suficiente. Por lo general, no vale la pena comprar )

FX 4xxx – 4 núcleos
FX 6xxx – 6 núcleos
FX 8xxx – 8 núcleos
FX 9xxx – 8 núcleos

Serie Athlon G (APU baratas construidas sobre arquitecturas modernas «Zen» con buenos gráficos integrados. Una buena opción de gama baja, ya que cada uno de los núcleos es mucho más rápido que dos núcleos de excavadora)

(todas las variantes) – 2 núcleos

Serie Ryzen (CPU «Zen» de gama media a alta, con alto rendimiento multinúcleo. También incluye algunas APU con gráficos integrados potentes, aquellos cuyo nombre de modelo termina en «G»)

Ryzen 3 – 4 núcleos
Ryzen 5 – 6 núcleos (4 núcleos para APU)
Ryzen 7 – 8 núcleos
Ryzen 9 – 12 o 16 núcleos
Ryzen Threadripper: de 8 a 64 núcleos (diseñado para estaciones de trabajo de alta gama)

Serie EPYC (CPU de servidor y HPC / supercomputadora «Zen». Se puede usar en computadoras de escritorio, pero no destinado para ello)

EPYC – 8 a 64 núcleos

La mejor respuesta

Respuesta

Deja una respuesta Cancelar la respuesta