Hur man korrekt jämför mellan AMD Stream-processorer och NVIDIA CUDA-kärnor

Bästa svaret

AMD har lagt mer vikt på trådnivå-parallellitet. Den stöder 40 trådar under flygning per GPU-rörledning.

Nvidia har fokuserat på bättre cache-prestanda och tråd-trådkommunikation. Du kan till exempel skicka data från pipeline-1 till pipeline-2 direkt i en cykel med hjälp av warp shuffle-instruktioner. Om du vill skicka data från pipeline-1 till pipeline-1024 måste du använda cache / delat minne som också är snabbare än dess motsvarighet.

För att göra ett rättvist riktmärke skulle jag

öka antalet arbetsobjekt som skickas till AMD GPU så att de fyller sina rörledningar helt
optimerar med warp shuffles etc för Nvidia.

För en direkt hårdvarujämförelse, varje serie av GPU: er måste övervägas och det skulle vara en mycket komplex jämförelse med många saker på papper. Det bästa sättet att känna till prestanda är benchmarking.

Om det till exempel finns ett riktmärke för N-body-galaxsimulering skulle jag ha flera trådar per massa i AMD och 1 tråd per massa i Nvidia. Då skulle jag optimera båda med hjälp av ”tiling” på snabbt delat minne. Men på Nvidia skulle jag lägga till ett andra lager av ”plattsättning” med hjälp av varpblandningar. Warp shuffles delar effektivt registerlagring med grannrörledningar så att minnesberoendet minskar och prestandan ökar. Men det är bara CUDA. OpenCL är inte plattformsberoende genom att hantera en viss prestationsfördelningspotential.

Svar

AMD säljer för närvarande processorer med allt från 2 till 64 CPU-kärnor. Här är en lista över olika AMD CPU / APU (APU: er är vad AMD kallar deras CPU: er med integrerad grafik) produktlinjer och serier, och deras motsvarande kärnantal.

Observera att var och en av dessa produktlinjer innehåller flera olika generationer och specifika modeller eller ”SKU” (lagerhållningsenheter) av CPU, så till exempel är en Ryzen 7 1700 långsammare än en Ryzen 7 3700X, även om de båda är 8-kärniga Ryzen 7-processorer:

A-serien (lågeffektiva APU: er byggda på föråldrade och ineffektiva ”bulldozer” -arkitekturer. Vanligtvis inte värt att köpa):

A4 – 2 kärnor
A6 – 2 kärnor
A8 – 4 kärnor
A9 – 2 kärnor
A10 – 4 kärnor
A12 – 4 kärnor

Athlon X-serien (som A-serien, men utan grafiken. Köp inte.)

Athlon X2 – 2 kärnor
Athlon X4 – 4 kärnor

FX-Series (”bulldozer” -processorer som liknar A-serien, men utan integrerad grafik och lite snabbare. Svårt att svalna tillräckligt. Vanligtvis inte värt att köpa )

FX 4xxx – 4 kärnor
FX 6xxx – 6 kärnor
FX 8xxx – 8 kärnor
FX 9xxx – 8 kärnor

Athlon G-serien (billiga APU: er byggda på moderna ”Zen” -arkitekturer med bra integrerad grafik. Ett bra low-end-alternativ, eftersom var och en av kärnorna är mycket snabbare än två bulldozer-kärnor)

(alla varianter) – 2 kärnor

Ryzen-serien (mellanregister till avancerade ”Zen” -CPC: er, med hög flerkärnprestanda. Innehåller även vissa APU: er med kraftfull integrerad grafik – de med ett modellnamn som slutar på ”G”)

Ryzen 3 – 4 kärnor
Ryzen 5 – 6 kärnor (4 kärnor för APU)
Ryzen 7-8 kärnor
Ryzen 9-12 eller 16 kärnor
Ryzen Threadripper – 8 till 64 kärnor (avsedda för avancerade arbetsstations-datorer)

EPYC-serier (server och HPC / superdator ”Zen” -CPU: er. Kan användas i skrivbord, men inte avsedd för det)

EPYC – 8 till 64 kärnor

Bästa svaret

Svar

Lämna ett svar Avbryt svar