Vägen till RDNA 3 och chiplets för grafikkretsar

I oktober blev Nvidia först ut att lansera nästa generations grafikkort – Geforce RTX 4000-serien kodnamn "Ada Lovelace". Arkitektoniskt är nyheterna inte världsomvälvande jämfört mot föregående och ännu aktuella RTX 3000 "Ampere", utan det är tydligt en evolution. Det enorma lyftet sett till såväl prestanda som energieffektivitet kom istället från att Nvidia valde att förlägga tillverkningen hos TSMC på dess 4-nanometersteknik, vilket innebär ett gigantiskt tillverkningstekniskt kliv från den 8-nanometersprocess som RTX 3000-serien tillverkas på hos Samsung.

Två månader senare är det till slut dags för AMD att möta upp med Radeon RX 7000-serien och arkitekturen "RDNA 3". Här tar AMD ett betydligt mindre tillverkningstekniskt kliv än Nvidia, men introducerar istället betydligt fler nyheter arkitektoniskt. Som om inte det vore nog tar AMD till klivet att introducera en chiplet-design, där olika kretsar paketeras ihop för att ge kostnadsmässiga, och om det görs på rätt sätt, även prestandamässiga fördelar.

RDNA 3 Breakout Session-page-010.jpg
amd-2.jpg

Under värmespridaren på AMD Ryzen 3000-serien med en I/O-del tillverkad på 12 nanometer och en CCD-krets tillverkad på 7 nanometer.

Den som hängt med vet att AMD:s processorer med start i Ryzen 3000-serien "Matisse" sedan sommaren 2019 nyttjat en design enligt chiplet-devisen. Med denna och uppföljaren Ryzen 5000 "Vermeer" tillverkades processorkärnorna på TSMC:s 7-nanometersteknik, medan I/O-delen med komponenter som minneskontroller och PCI Express-anslutningar tillverkades på 12 nanometer från Globalfoundries. Med senaste Ryzen 7000 "Raphael" gick AMD över till 5 nanometer för kärnorna, medan I/O-delen tillverkas på 6 nanometer (en förbättrad variant av 7 nanometer).

Att AMD skulle ta konceptet över till grafiksidan är något det spekulerats om i åratal. Samtidigt har detta mötts av skepsis från flera håll, då en grafikkrets (GPU) är en helt annan typ av best än en processor (CPU). Kraven på såväl minnesbandbredd som latenser är betydligt högre, vilket gör att samma tillvägagångssätt som på CPU-sidan helt enkelt inte är möjlig. Självklart vore det möjligt, men prestandapåverkan hade varit minst sagt enorm.

Chiplets – ett nödvändigt ont

För att tala klarspråk är en chiplet-design inte något som egentligen är att eftersträva. När delar förflyttas längre ifrån varandra påverkar det prestanda, latenser, och desto längre ifrån saker är från varandra ju högre blir kostnaden i strömförbrukning, picojoules per överförd bit (pJ/b). Det är rent krasst ett nödvändigt ont när nya tillverkningstekniker blir allt dyrare och vissa typer av transistorer blir svårare att krympa. Halvledarindustrin jobbar febrilt för att motverka de skenande kostnaderna. Av allt att döma, oavsett vilka motmedel som tas fram, är tiden där nya tillverkningstekniker sänker kostnaderna radikalt ett minne blott.

Hela poängen med nya tillverkningstekniker är att möjliggöra högre transistortäthet, men det är inte så enkelt som att en transistor är en transistor. Skalningen för hur det är möjligt att krympa vissa typer av transistorer har planat ut. Med tillräckligt mycket tid går mycket att krympa ytterligare lite till, men arbetet som krävs för att åstadkomma detta är betydande och det är fabrikörer som TSMC, Samsung och Intel som behöver ta fram dessa transistorbibliotek för kunder som AMD att använda.

RDNA 3 Breakout Session-page-009.jpg

Analoga strukturer är notoriskt svåra att krympa och här planade kurvan ut för ett drygt decennium sedan. Skalningen för minnestransistorer, som exempelvis Static Random Access Memory (SRAM) som används för cacheminne, har börjat plana ut. Logiska transistorer som används för beräkningar, i exempelvis en grafikkrets eller kärnorna i en processor, är fortfarande relativt sett enkla att krympa med nya tillverkningstekniker.

För att ta ett mycket konkret exempel i närtid har TSMC nyligen gått in i produktion på 3 nanometer, som rymmer i runda slängar 70 procent fler logiska transistorer på en given ytarea jämfört med 5 nanometer. För SRAM är ökningen i densitet betydligt sämre med endast 20 procent, medan den för analoga strukturer är obefintlig eller rentutav negativ. I ekvationen ska det tas med att kostnaden för nya tillverkningstekniker numera går upp, kostnaden för en kiselplatta (eng. wafer) med tillverkning på 3 nanometer tros ligga cirka 25 procent över 5 nanometer. Med andra ord blir SRAM och i synnerhet analoga strukturer dyrare att tillverka på den nya teknik, medan den logiska biten blir billigare. Den här trenden kommer att accelerera – "Moores lag är död".

Med ovan i åtanke handlar en chiplet-design om att väga det nya nödvändiga ontet mot fördelarna. På processorsidan är latenser inte fullt lika viktigt och AMD har därför kunnat använda en relativt enkel design för sina chiplet-baserade processorer. Kretsarna med processorkärnorna kallade Core Complex Die (CCD) har kunnat kommunicera med en Input/Output-krets (I/O Die) på ett passivt och relativt billigt substrat. Det har en betydande negativ inverkan på energieffektivitet och prestanda, återigen latenser, men det här har AMD med framgång i stort kunnat kompensera för med bland annat stora L3-cacheminnen.

RDNA 3 Breakout Session-page-011.jpg

AMD Navi 31 – flaggskeppet med en plus sex kretsar

När konceptet ska flytta över till grafiksidan duger inte ovan. Kretsarna behöver placeras betydligt närmare varandra, bandbredden mellan kretsar behöver vara skyhög och ökningen i latens måste minimeras. Den billiga lösningen med ett passivt substrat behöver bytas ut mot ett aktivt. Ett aktivt substrat är i praktiken är en rejäl bit kisel, som tillverkas på liknande sätt som själva grafikkretsen, vilken alla chiplets placeras på.

Toppkretsen för RDNA 3 heter Navi 31 och grunden för denna är ett rejält aktivt substrat tillverkat på en skräddarsydd 65-nanometersteknik från TSMC. I mitten av denna placeras en Graphics Compute Die (GCD) tillverkad på 5 nanometer och längs sidorna placeras inget mindre än sex Memory Cache Die (MCD), vilka tillverkas på 6 nanometer. Att AMD tillverkar kretsen som utför själva beräkningarna på den mest avancerade tekniken och minnesdelen på en äldre är ingen slump – se avsnittet ovan.

RDNA 3 Breakout Session-page-012.jpg
RDNA 3 Breakout Session-page-013.jpg
RDNA 3 Breakout Session-page-014.jpg
RDNA 3 Breakout Session-page-015.jpg
RDNA 3 Breakout Session-page-016.jpg
RDNA 3 Breakout Session-page-017.jpg

Enligt AMD var skalningen för deras så kallade Infinity Cache, vilket är ett fint namn för vanligt cacheminne, närmast obefintlig när de skulle gå från 7 nanometer som används med RDNA 2 ned till 5 nanometer med RDNA 3. Vidare ska minneskontrollern knappt varit möjlig att krympa alls. Dessa fick därför flyttas ut till en egen krets, MCD, som nämnt ovan tillverkas på mer kostnadseffektiva 6 nanometer.

Varje MCD huserar ett Infinity Cache på 16 MB och en 64-bitars minnesbuss, vilket för Navi 31 innebär totalt 96 MB cacheminne och en minnesbuss på 384 bitar. Det är en rätt stor förändring jämfört med föregångaren Navi 21 som hade ett större Infinity Cache på 128 MB, vilket används för att kompensera för den för prestandasegmentet relativt snäva minnesbussen på 256 bitar. När AMD:s nya toppkrets Navi 31 får en större minnesbuss är behovet av ett lika stort cacheminne inte detsamma. Skyhög bandbredd om 5,3 TB/s och högre klockfrekvenser för cacheminnet ska också motverka de ökade latenser som är ofrånkomliga med en chiplet-design.

RDNA 3 Breakout Session-page-018.jpg

Som nämnt är chiplet-designen för RDNA 3 betydligt mer sofistikerad än på processorsidan och det är någonting som belyses av AMD. Med Ryzen 5000 "Vermeer" var energiförbrukningen per överförd bit 1,5 pJ/b medan Navi 31 med sitt dyrare och aktiva substrat ligger på endast 0,1 pJ/b. Som ett resultat av detta menar AMD att dataöverföringen mellan den mittersta GCD-kretsen och de sex MCD-kretsarna står för mindre än 5 procent av grafikkretsens totala energiförbrukning.