Cómo comparar correctamente los procesadores AMD Stream y los núcleos NVIDIA CUDA


La mejor respuesta

AMD ha puesto más peso en el paralelismo a nivel de subprocesos. Admite 40 subprocesos en curso por canalización de GPU.

Nvidia se ha centrado en un mejor rendimiento de la caché y la comunicación entre subprocesos. Por ejemplo, puede enviar datos de pipeline-1 a pipeline-2 directamente en 1 ciclo utilizando la instrucción warp shuffle. Si desea enviar datos de pipeline-1 a pipeline-1024, entonces necesita usar memoria caché / compartida que también es más rápida que su contraparte de Amd.

Para hacer un punto de referencia justo, lo haría

  • aumentar el número de elementos de trabajo enviados a la GPU de AMD para que llenen completamente sus tuberías
  • optimizar con warp shuffles, etc. para Nvidia.

Para un comparación directa de hardware, se deben considerar todas las series de GPU y sería una comparación muy compleja con muchas cosas en papel. La mejor manera de conocer el rendimiento es la evaluación comparativa.

Por ejemplo, si hay una evaluación comparativa de simulación de galaxias de N-cuerpos, tendría varios subprocesos por masa en AMD y 1 subproceso por masa en Nvidia. Entonces optimizaría ambos usando «mosaico» en la memoria compartida rápida. Pero en Nvidia, agregaría una segunda capa de «mosaico» usando warp shuffles. Warp shuffles comparte de manera efectiva el almacenamiento de registros con las canalizaciones vecinas para que la dependencia de la memoria disminuya y el rendimiento aumente. Pero es solo CUDA. OpenCL no depende de la plataforma porque intercambia un potencial de ganancia de rendimiento.

Respuesta

AMD actualmente vende procesadores con entre 2 y 64 núcleos de CPU. Aquí hay una lista de diferentes líneas y series de productos de CPU / APU de AMD (APUs son lo que AMD llama sus CPU con gráficos integrados) y su correspondiente recuento de núcleos.

Tenga en cuenta que cada una de estas líneas de productos contiene varios generaciones y modelos específicos o «SKU» (Unidades de mantenimiento de existencias) de CPU, por lo que, por ejemplo, un Ryzen 7 1700 es más lento que un Ryzen 7 3700X, aunque ambos son CPU Ryzen 7 de 8 núcleos:

Serie A (APU de baja potencia construidas sobre arquitecturas de «bulldozer» obsoletas e ineficientes. Por lo general, no vale la pena comprarlas):

  • A4 – 2 núcleos
  • A6 – 2 núcleos
  • A8 – 4 núcleos
  • A9 – 2 núcleos
  • A10 – 4 núcleos
  • A12 – 4 núcleos

Serie Athlon X (como la serie A, pero sin los gráficos. No comprar.)

  • Athlon X2 – 2 núcleos
  • Athlon X4 – 4 núcleos

FX-Series (CPU «bulldozer» similares a la serie A, pero sin gráficos integrados y un poco más rápidas. Difícil de enfriar lo suficiente. Por lo general, no vale la pena comprar )

  • FX 4xxx – 4 núcleos
  • FX 6xxx – 6 núcleos
  • FX 8xxx – 8 núcleos
  • FX 9xxx – 8 núcleos

Serie Athlon G (APU baratas construidas sobre arquitecturas modernas «Zen» con buenos gráficos integrados. Una buena opción de gama baja, ya que cada uno de los núcleos es mucho más rápido que dos núcleos de excavadora)

  • (todas las variantes) – 2 núcleos

Serie Ryzen (CPU «Zen» de gama media a alta, con alto rendimiento multinúcleo. También incluye algunas APU con gráficos integrados potentes, aquellos cuyo nombre de modelo termina en «G»)

  • Ryzen 3 – 4 núcleos
  • Ryzen 5 – 6 núcleos (4 núcleos para APU)
  • Ryzen 7 – 8 núcleos
  • Ryzen 9 – 12 o 16 núcleos
  • Ryzen Threadripper: de 8 a 64 núcleos (diseñado para estaciones de trabajo de alta gama)

Serie EPYC (CPU de servidor y HPC / supercomputadora «Zen». Se puede usar en computadoras de escritorio, pero no destinado para ello)

  • EPYC – 8 a 64 núcleos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *