Cum să comparați corect între procesoarele AMD Stream și nucleele NVIDIA CUDA


Cel mai bun răspuns

AMD a pus mai multă greutate pe paralelismul la nivel de fir. Suportă 40 de fire în zbor pe fiecare conductă de GPU.

Nvidia s-a concentrat pe o performanță mai bună a cache-ului și pe o comunicare thread-thread. De exemplu, puteți trimite date de la pipeline-1 la pipeline-2 direct într-un ciclu folosind instrucțiunile warp shuffle. Dacă doriți să trimiteți date de la pipeline-1 la pipeline-1024, atunci trebuie să utilizați memoria cache / partajată, care este, de asemenea, mai rapidă decât omologul său Amd.

Pentru a face un punct de referință corect, aș face

  • creșteți numărul de elemente de lucru trimise către GPU AMD astfel încât să-i umple complet conductele
  • optimizați cu warp shuffles etc. pentru Nvidia.

Pentru o comparație hardware directă, fiecare serie de GPU-uri trebuie luate în considerare și ar fi o comparație foarte complexă cu multe lucruri pe hârtie. Cea mai bună modalitate de a cunoaște performanța este benchmarking-ul.

De exemplu, dacă există un benchmark de simulare a galaxiei N-body, aș avea mai multe fire pe masă în AMD și 1 fir pe masă în Nvidia. Apoi, le-aș optimiza pe ambele folosind „tiling” pe memoria partajată rapidă. Dar pe Nvidia, aș adăuga un al doilea strat de „placare” folosind amestecuri warp. Shuffle-urile Warp partajează în mod eficient stocarea registrului cu conductele vecine, astfel încât dependența de memorie să scadă și performanța să crească. Dar este doar CUDA. OpenCL nu depinde de platformă, tranzacționând un anumit potențial de câștig de performanță.

Răspuns

În prezent, AMD vinde procesoare cu orice, de la 2 la 64 de nuclee CPU. Iată o listă cu diferite linii și serii de produse AMD CPU / APU (APU-urile sunt ceea ce AMD numește CPU-urile lor cu grafică integrată), precum și numărul de nuclee corespunzător.

Rețineți că fiecare dintre aceste linii de produse conține mai multe generații și modele specifice sau „SKU-uri” (Unități de păstrare a stocurilor) de CPU, astfel încât, de exemplu, un Ryzen 7 1700 este mai lent decât un Ryzen 7 3700X, chiar dacă ambele sunt procesoare Ryzen 7 cu 8 nuclee:

Seria A (APU-uri cu putere redusă construite pe arhitecturi „buldozer” învechite și ineficiente. De obicei nu merită cumpărate):

  • A4 – 2 nuclee
  • A6 – 2 nuclee
  • A8 – 4 nuclee
  • A9 – 2 nuclee
  • A10 – 4 nuclee
  • A12 – 4 nuclee

seria Athlon X (cum ar fi seria A, dar fără grafică. Nu cumpărați.)

  • Athlon X2 – 2 nuclee
  • Athlon X4 – 4 nuclee

Seria FX (procesoare „buldozer” similare cu seria A, dar fără grafică integrată și ceva mai rapidă. Greu de răcit suficient. De obicei nu merită cumpărat )

  • FX 4xxx – 4 nuclee
  • FX 6xxx – 6 nuclee
  • FX 8xxx – 8 nuclee
  • FX 9xxx – 8 nuclee

seria Athlon G (APU-uri ieftine construite pe arhitecturi moderne „Zen” cu o grafică integrată bună. O bună opțiune low-end, deoarece fiecare dintre nuclee este mult mai rapid decât două nuclee buldozer)

  • (toate variantele) – 2 nuclee

Ryzen series (CPU-uri „Zen” de la gama medie la high-end, cu performanțe multicore ridicate. Include, de asemenea, unele APU-uri cu grafică integrată puternică – cele cu un nume de model care se termină cu „G”)

  • Ryzen 3 – 4 nuclee
  • Ryzen 5 – 6 nuclee (4 nuclee pentru APU-uri)
  • Ryzen 7 – 8 nuclee
  • Ryzen 9 – 12 sau 16 nuclee
  • Ryzen Threadripper – 8 până la 64 de nuclee (destinate computerelor cu stații de lucru high-end)

Seria EPYC (CPU și server „HP” / supercomputer „Zen”. Poate fi utilizat pe desktopuri, dar nu destinat acestuia)

  • EPYC – 8 până la 64 nuclee

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *