Construcția deceniului. Studiem arhitectura procesorului AMD Bulldozer. ⇡ Numărarea boabelor: opt sau patru

27.03.2020 Programe

Ce reprezintă performanța procesorului? Anterior, exista o formulă în uz care descria performanța ca fiind produsul dintre numărul de instrucțiuni executate pe ciclu de ceas și frecvența la care funcționează acest procesor. Acum un al treilea factor a apărut în această formulă - numărul de nuclee de calcul. Prin urmare, un dezvoltator de procesoare care dorește să lanseze un produs rapid are mai multe opțiuni pentru a face acest lucru.

Cu toate acestea, nu toate sunt atât de simple. Creșterea numărului de instrucțiuni executate de un nucleu de calcul per ciclu de ceas este o sarcină destul de dificilă. Codul de program clasic x86 presupune execuția secvențială a instrucțiunilor și, prin urmare, pentru a realiza procesarea lor paralelă, procesorul trebuie să fie echipat cu unități foarte eficiente de predicție a ramurilor și de reordonare a instrucțiunilor, a căror implementare necesită un efort ingineresc considerabil. În același timp, complicația microarhitecturii afectează dimensiunile fizice ale cristalului și duce la restricții la creșterea numărului de nuclee. Deci, dacă un producător va face un procesor cu un număr mare de nuclee, atunci microarhitectura ar trebui, dimpotrivă, să încerce să simplifice. Nici cu viteza ceasului nu este ușor. Un pariu pe creșterea acestuia va necesita din nou modificarea blocurilor interne ale procesorului și prelungirea conductei de execuție a acestuia. Rezultatul este următorul: pentru ca un procesor să câștige o medalie pentru performanță, dezvoltatorii săi trebuie să muncească din greu pentru a optimiza simultan o serie de parametri.

Problema constă și în faptul că oricare dintre modalitățile alese de îmbunătățire a performanței procesorului poate avea succes doar în cazuri speciale. Nu toate programele pot funcționa eficient o cantitate mare miezuri. Unii algoritmi nu vă permit să preziceți corect tranzițiile și să reordonați instrucțiunile. Și în unele cazuri, performanța nu crește chiar și cu o creștere a frecvenței de ceas, deoarece există și alte blocaje în sistem.

Găsirea echilibrului optim nu este ușoară și care este considerat criteriul optim? Putem compara doar performanța procesoarelor într-un număr finit de programe și să-l selectăm pe cel mai rapid pentru un anumit caz. Cu toate acestea, acest lucru nu garantează deloc că, folosind un set diferit de instrumente de testare, nu vom obține estimări complet opuse. O introducere atât de lungă este oferită aici, deoarece astăzi vom face cunoștință cu noua serie de procesoare AMD FX - produsul emblematic al AMD, larg cunoscut sub numele de cod Zambezi. Acest procesor se bazează pe foarte controversata microarhitectură Bulldozer, care a reușit deja să adune un buchet considerabil de recenzii nemăgulitoare. Dar ideea nu este că această microarhitectură este complet proastă. Atunci când au ales cel mai bun echilibru de caracteristici, dezvoltatorii au evaluat incorect nevoile majorității utilizatorilor și au pus accentul principal pe factorul greșit din „formula de bază”. Drept urmare, planul inițial de a lansa o soluție de înaltă performanță a unei noi generații a mers prost, iar adepții AMD, intrigați de promisiunile unei descoperiri, au primit ceva complet diferit de ceea ce se așteptau. Cu toate acestea, este acesta un motiv serios și obiectiv de dezamăgire? Vom vorbi despre asta în acest material.

⇡ Numărarea boabelor: opt sau patru?

În timp ce lucra la un nou design pentru procesoare de performanță, AMD a decis să prioritizeze numărul de nuclee de procesare. Aceasta este o alegere complet logică, bazată pe faptul că de-a lungul anilor multithreading software devine din ce în ce mai mare, iar dezvoltarea unei microarhitecturi concepute pentru dezvoltarea pe termen lung ar trebui să țină cont în primul rând nu de starea actuală a pieței, ci de tendințele observate. Opt nuclee, prevăzute în versiunea de bază a noului procesor, sunt ceea ce AMD urma să cucerească piața, unde până acum erau prezentate doar cipuri, numărul maxim de nuclee în care era limitat la șase. ( Aici vorbim doar despre computere desktop. — aproximativ ed. )

În același timp, dezvoltatorii nu au vrut să preia nucleele vechii microarhitecturi K10. Nu numai că sunt prea mari ca dimensiune fizică, dar, de asemenea, după cum poate fi judecat de Llano, nu sunt predispuse să funcționeze la temperaturi ridicate. vitezele ceasului chiar și după transferul la tehnologia modernă 32nm. În plus, nu acceptă multe caracteristici moderne, cum ar fi instrucțiunile AVX. Prin urmare, pentru a asambla procesoare cu opt nuclee, AMD a realizat o nouă microarhitectură - Bulldozer. Reprezentanții companiei preferă să spună că dezvoltarea acesteia a fost realizată cu tabula rasa, dar de fapt, în nucleele Bulldozer puteți găsi multe referințe la o altă microarhitectură prezentată anul acesta - Bobcat, care vizează utilizarea în dispozitive compacte și eficiente din punct de vedere energetic. Cu toate acestea, relația dintre Bulldozer și Bobcat este destul de îndepărtată și o menționăm doar pentru ca ideea generală să devină clară - Bulldozer combină multe miezuri relativ simple.

În același timp, nu vorbim despre combinația primitivă de opt nuclee simple pe un cip semiconductor. În această situație, procesorul rezultat ar avea performanțe foarte scăzute cu un singur thread, iar aceasta ar deveni o problemă destul de serioasă, deoarece nu sunt atât de puține programe care nu împart încărcarea în mai multe fire de calcul. Prin urmare, în primul rând, nucleele au fost optimizate pentru funcționarea la viteze mari de ceas. Și în al doilea rând, au fost împerecheate în module dual-core capabile să-și partajeze resursele pentru a servi un singur fir. Rezultatul este un design destul de interesant: partea de intrare a conductei de execuție a unui astfel de modul dual-core este comună, iar procesarea ulterioară a instrucțiunilor este împărțită între două seturi de dispozitive de execuție.

Baza designului Bulldozerului este ceea ce se numește în mod convențional un modul dual-core

Să reamintim că procesul de prelucrare a datelor într-un procesor modern include mai multe etape: preluarea instrucțiunilor x86 din memoria cache, decodarea lor - transpunerea lor în macro-operații interne, executarea lor, înregistrarea rezultatelor. Primele două etape din modulul Bulldozer sunt efectuate pentru o pereche de nuclee împreună, iar apoi pentru instrucțiunile întregi, execuția este distribuită pe două nuclee de cluster sau, în cazul aritmeticii reale, se realizează într-un bloc de operații în virgulă mobilă. comune la două nuclee.

Modulele buldozer sunt concepute pentru a procesa patru instrucțiuni pe ciclu de ceas și, datorită tehnologiei de fuziune macro, unele perechi de instrucțiuni x86 pot fi considerate de procesor ca o singură operație. Aceasta înseamnă că, în general, modulul dual-core Bulldozer este similar ca putere cu un singur nucleu al procesoarelor Intel moderne, care poate procesa, de asemenea, patru instrucțiuni pe ciclu de ceas și poate suporta, de asemenea, fuziuni macro.

Cu toate acestea, există diferențe semnificative între modulul Bulldozer și miezul Sandy Bridge care pot pune în discuție aproximativ aceeași viteză teoretică. Datorită faptului că modulul noilor procesoare AMD conține rămășițele a două nuclee egale, performanță maximă se poate demonstra doar atunci când procesează câteva fire. Dacă suportă o sarcină cu un singur thread, atunci viteza serviciului său va fi limitată de numărul de dispozitive de execuție dintr-un astfel de cluster. Și nu sunt atât de multe, având în vedere dorința AMD de a simplifica nucleele individuale - de o ori și jumătate mai puțin decât la procesoarele cu microarhitectură Sandy Bridge sau K10. Adică două ALU-uri aritmetice și două AGU-uri de adrese.

Așa arată structura funcțională a unui modul construit pe microarhitectura Bulldozer. Din două nuclee au mai rămas doar două seturi de actuatoare întregi

Blocul de operațiuni în virgulă mobilă comun pentru modulul procesorului este, de asemenea, relativ scăzut în complexitate. Include două unități de execuție FMAC pe 128 de biți, care pot fi combinate într-o singură unitate pentru a procesa instrucțiuni pe 256 de biți. S-ar părea că aici nu sunt atât de multe actuatoare, mai ales având în vedere că sunt împărțite într-o pereche de miezuri. Dar ele sunt mai universale decât în ​​microarhitecturile anterioare și concurente, care folosesc multiplicatori și sumatori separati. Și datorită acestui fapt, în anumite cazuri, când se lucrează cu numere reale, un modul Bulldozer dual-core poate oferi performanțe comparabile și chiar mai mari decât, de exemplu, un singur nucleu Sandy Bridge.

O idee similară de a combina dispozitive de 128 de biți pentru a lucra cu instrucțiuni de 256 de biți este utilizată în Sandy Bridge

Cu toate acestea, cele mai multe punctele forte Modulul Buldozer ar trebui să apară sub o sarcină cu două filete. Un nucleu Sandy Bridge este, de asemenea, capabil să proceseze două fire de calcul; pentru aceasta, are tehnologia Hyper-Threading. Cu toate acestea, toate instrucțiunile sunt trimise unui singur set de actuatoare, care în practică provoacă numeroase coliziuni. Modulul Bulldozer conține două grupuri întregi independente care pot executa fire de execuție în paralel, iar numărul total de dispozitive de execuție din ele depășește numărul de astfel de dispozitive din nucleul Sandy Bridge de o dată și jumătate.

În stânga este modulul Bulldozer, în dreapta este un nucleu concurent cu suport Hyper-Threading. De fapt, nu seamănă prea mult cu Sandy Bridge, dar ilustrația transmite esența problemei

Ca urmare, modulul Bulldozer are performanțe de vârf mai mari decât nucleul Sandy Bridge, dar această performanță este oarecum mai dificil de deblocat. Nucleul Sandy Bridge își încarcă în mod inteligent propriile resurse datorită logicii avansate pe cip care analizează în mod independent codul cu un singur thread și îl execută în paralel pe setul complet de dispozitive de execuție. În Bulldozer, sarcina utilizării efective a actuatoarelor este parțial transferată programatorului, care trebuie să-și împartă codul în două fire - numai atunci va deveni posibilă încărcarea completă a tuturor capacităților modulului.

Și asta este tipic. Când luăm în considerare modulul de procesor dual-core Bulldozer, l-am comparat constant cu un singur nucleu Sandy Bridge și, în același timp, am reușit să tragem paralele destul de corecte. Acest lucru ne face să ne întrebăm: natura „în opt nuclee” a noii microarhitecturi nu ar trebui considerată un produs al imaginației marketerilor? AMD spune că nucleele ar trebui să fie numărate după numărul de clustere întregi, argumentând că modulul poate oferi până la 80% din performanța a două nuclee independente. Totuși, nu trebuie să uităm că nucleele pe care se bazează Bulldozer sunt semnificativ mai simple decât nucleele altor procesoare. Prin urmare, numărul de module dual-core este o caracteristică care reflectă mult mai adecvat performanța Bulldozerului.

Găsiți numărul maxim de nuclee de procesor și obțineți un loc de muncă în departamentul de marketing AMD

⇡ Memoria cache

Organizarea memoriei cache în procesoarele Bulldozer este, de asemenea, „legată” nu atât de nuclee individuale, ci de module dual-core. De fapt, fiecărui nucleu i se alocă doar propriul cache de date de prim nivel; toate celelalte niveluri de memorie cache se referă fie la modul în ansamblu, fie la procesor:

  • Fiecare nucleu are propriul cache L1 pentru date. Volumul său este de 16 KB, iar arhitectura presupune prezența a patru canale asociative. Acest cache funcționează cu un algoritm de scriere, ceea ce înseamnă că este inclusiv.
  • Primul nivel cache pentru instrucțiuni este furnizat într-o singură copie pentru fiecare modul cu procesor dublu. Volumul său este de 64 KB, iar numărul de canale de asociativitate este de două.
  • Cache-ul de al doilea nivel este, de asemenea, implementat într-o singură instanță per modul. Dimensiunea sa este impresionantă de 2 MB, asociativitatea este de 16 canale, iar algoritmul de operare este exclusiv.
  • În plus, procesorul cu opt nuclee în ansamblu are un cache L3 de 8 megaocteți cu asociativitate pe 64 de canale. Particularitatea acestui cache este că funcționează la o frecvență semnificativ mai mică în comparație cu procesorul în sine, care este de aproximativ 2 GHz.

Următorul tabel descrie raportul dintre volumele de memorie cache pentru procesoarele Bulldozer cu opt nuclee, Sandy Bridge și Thuban cu șase nuclee (Phenom II X6 cu șase nuclee, construit pe microarhitectura K10).

Tipul cache Buldozer (8 miezuri/4 module) Podul de nisip (4 nuclee) Thuban (6 nuclee)
L1I (instrucțiuni) 4x64 KB 4x32 KB 6x64 KB
L1D (date) 8x16 KB 4x32 KB 6x64 KB
L2 4x2 MB 4x256 KB 6x512 KB
L3 8 MB, 2,0-2,2 GHz 8 MB, rulează la viteza procesorului 6 MB, 2,0 GHz

După cum puteți vedea din tabel, AMD s-a bazat pe cache mari niveluri superioare, care poate fi cu adevărat util în cazul unei sarcini de lucru multi-threaded serioase. Cu toate acestea, memoria cache a noilor procesoare este în general mai lentă decât cea a produselor anterioare și concurente. Acest lucru este ușor de detectat atunci când se măsoară latența practică.

Întârzierile mari la accesarea datelor în Bulldozer pot fi compensate doar de viteza mare de ceas a acestor procesoare. Ceea ce, însă, a fost planificat inițial - în ceea ce privește frecvențele, noile procesoare cu opt nuclee trebuiau să depășească Phenom II cu 30%. Cu toate acestea, AMD nu a fost niciodată capabilă să proiecteze cristale semiconductoare capabile să funcționeze stabil la frecvențe atât de înalte. Ca rezultat, o latență ridicată a cache-ului poate provoca daune semnificative sistemelor bazate pe Bulldozer.

AMD a decis să adopte o abordare complet diferită pentru noua arhitectură Bulldozer. S-a decis să se creeze module dual-core care împart unele resurse (cache L2, modul în virgulă mobilă), dar nu sunt complet independente unele de altele. (vezi poza de mai jos)
Potrivit AMD, acest lucru a fost făcut pentru a optimiza procesorul și, în același timp, pentru a reduce prețul procesorului. Optimizarea este cea obișnuită procesoare multi-core, unele module pot fi inactive, iar astfel de module pot fi combinate în arhitectura Bulldozer. Iar dacă există mai puține module, înseamnă că se va risipi mai puțin material, iar acest lucru, la rândul său, va avea un efect pozitiv asupra costurilor, economiilor de energie și reducerii căldurii.
Prin urmare, deși AMD va numi noile sale procesoare Bulldozer dual-core, în realitate acestea nu vor fi cu adevărat dual-core, deoarece nu vor avea nuclee complet independente. Si numele " procesor dual core» vor fi utilizate în scopuri de marketing.

Pentru crearea " procesoare quad core”, AMD folosește două dintre aceste unități, astfel încât procesorul are de fapt două „procesoare” în interior (cele două blocuri de construcție sunt prezentate în imaginea de mai jos), mai degrabă decât patru. AMD va continua să numească noile procesoare quad-core.


Procesor cu opt nuclee bazat pe arhitectura Bulldozer.

Acum să aruncăm o privire mai atentă la modulele Fetch și Decode utilizate în arhitectura Bulldozer.

Preluare și decodare module

Modulul Fetch este responsabil pentru preluarea instrucțiunilor pentru decodare din cache sau memorie cu acces aleator.

Preluare și decodare module.

După cum sa menționat deja, modulele de eșantionare folosesc două „nuclee” simultan. Cache-ul de instrucțiuni L1 este, de asemenea, utilizat de două nuclee simultan, dar fiecare nucleu de procesor are propriul cache de date L1.
AMD a anunțat deja că memoria cache de instrucțiuni L1 utilizată în arhitectura Bulldozer constă dintr-un cache asociat cu set dublu de 64 KB. Aceeași configurație este folosită la procesoarele cu arhitectura AMD64, dar diferența este că procesoarele AMD64 au un cache L1 per nucleu, în timp ce procesoarele Bulldozer vor avea un cache L1 pe pereche de nuclee. Cu toate acestea, memoria cache de date va avea doar 16 KB, ceea ce este semnificativ mai mic decât cei 64 KB per nucleu utilizat la procesoarele bazate pe arhitectura AMD64.

TLB-uri (Traducere Look-aside Buffer- buffer de memorie ultra-rapid). Dimensiunile TLB-urilor au fost dezvăluite. Acestea sunt buffere cu o cantitate mică de memorie, concepute pentru a converti adresele de memorie virtuală în adrese fizice.
Memoria virtuală, mai bine cunoscută ca fișier de pagină, este o tehnologie în care cantitatea de RAM este „creștetă” cu dosar special pe hard disk.

Programele de calculator sunt scrise folosind instrucțiuni x86, dar în prezent procesoarele înțeleg doar instrucțiunile RISC native. Modulul de decodare este responsabil pentru conversia instrucțiunilor programului x86 în microinstrucțiuni RISC. Arhitectura Bulldozerului are patru decodoare, dar acest moment AMD nu dezvăluie ce instrucțiuni execută fiecare decodor. De obicei, unul dintre aceste decodoare execută instrucțiuni complexe, folosind microcodul ROM furnizat („µcode” sau „microcode”). Decodificarea instrucțiunilor complexe este finalizată după câteva cicluri de ceas, după care acestea sunt convertite în mai multe microinstrucțiuni. În mod obișnuit, producătorii își optimizează procesoarele în așa fel încât atunci când decodează cele mai comune instrucțiuni, acestea sunt executate într-un singur ciclu de ceas.

Introducere Nu există nicio îndoială că noile procesoare de la AMD, bazate pe microarhitectura Bulldozer, sunt printre cele mai așteptate produse nu doar ale acestui an, ci cel puțin din cei cinci ani actuali. Există mai multe motive pentru aceasta, precum și pentru existența unei armate uriașe de fani pentru produsele AMD. Unii oameni au amintiri proaspete despre vremurile când procesoarele acestei companii erau mai bune decât Intel în toate privințele. Unii oameni iubesc produsele AMD pentru combinația lor echilibrată de preț și performanță. Iar unii au fost impresionați de poveștile emoționante ale AMD despre avantajele microarhitecturii dezvoltate în cadrul companiei. Toate acestea s-au adăugat la mulți ani de așteptare plictisitoare pentru lansarea procesoarelor din generația Bulldozer și iată rezultatul - citiți acest articol cu ​​mare atenție și interes nedisimulat.

Cu toate acestea, în mod clar merită. Situația de pe piața procesoarelor în următorii câțiva ani depinde de cât de reușită se dovedește a avea microarhitectura Bulldozer. La urma urmei, doar Intel are resursele de inginerie și producție pentru a lansa noi soluții de microarhitectură la fiecare doi sau trei ani. AMD este forțat să adere la un ritm mult mai măsurat în dezvoltare. Este înfricoșător de reținut, dar microarhitectura care este folosită în procesoarele Phenom II și Athlon II de astăzi datează din 1999, iar de atunci AMD a făcut doar modificări cosmetice. Prin urmare, nu ne facem iluzii speciale că ciclul de dezvoltare va deveni brusc mai activ odată cu lansarea Bulldozer. Este evident că Bulldozer va fi în centrul ofertelor de performanță ale AMD în următorii câțiva ani.

Pe Versiune curentă Planurile companiei pentru dezvoltarea acestei microarhitecturi sunt întocmite până în 2014, dar aproape sigur va continua în continuare.

Faptul că AMD promite o creștere de 10-15% a performanței în fiecare an este mai mult un simptom alarmant decât unul încurajator. Cel mai probabil, o astfel de creștere va fi asigurată în primul rând de o creștere a frecvențelor de ceas și abia apoi de unele noi îmbunătățiri microarhitecturale.

Cu alte cuvinte, succesul microarhitecturii Bulldozer în forma sa actuală va avea un impact decisiv asupra poziției viitoare a AMD, asupra competitivității produselor sale și, în cele din urmă, asupra situației generale de pe piața procesoarelor.

Desigur, nu se poate nega că Bulldozer pentru AMD nu este singurul produs cheie. Această microarhitectură vizează astăzi segmentul de desktop și server de înaltă performanță. În același timp, AMD are și alte propuneri pentru alte segmente de piață. De exemplu, procesoarele ieftine, rentabile, cu microarhitectura Bobcat sau APU-urile din familia Llano, lansate de companie la începutul acestui an, nu sunt domenii mai puțin importante pentru companie. Și aceste propuneri, după cum am văzut din rezultatele testelor, sunt soluții de succes care pot acționa în mod adecvat atât ca soluții pentru netbook-uri și netops, cât și ca bază pentru platforme integrate în intervale de preț medii.

Cu toate acestea, succesul sau eșecul Bulldozerului are implicații mult mai semnificative. În primul rând, această microarhitectură vizează segmente de piață cu marje de profit mult mai mari - servere și sisteme de productivitate desktop. Prin urmare, este capabil să aibă un impact mult mai puternic asupra situației financiare a AMD. În al doilea rând, succesul procesoarelor din seria AMD C, E și A nu este, sincer, deloc meritul inginerilor implicați în dezvoltarea designului de microprocesoare. Succesul pe piață al acestor procesoare (sau APU-uri, dacă rămânem la terminologia AMD) provine din prezența în ele a nucleelor ​​grafice ale familiei Radeon HD, care și-au găsit drum în procesoarele AMD datorită achiziționării la timp a ATI. Bulldozer este un fel de examen de calificare pentru o echipă de ingineri care lucrează în mod special pe microarhitectura nucleelor ​​de calcul. Și în al treilea rând, Bulldozer va deveni în cele din urmă baza întregii linii de procesoare AMD, cu excepția soluțiilor pentru platforme eficiente din punct de vedere energetic. Deci, în cele din urmă, această microarhitectură este cea care va ajunge la segmentele de piață inferioare, înlocuind K10 aproape peste tot, inclusiv procesoarele Llano.



Pe scurt, cu greu este posibil să supraestimăm importanța unei lansări de succes a procesoarelor cu microarhitectura Bulldozer. Acesta este un produs iconic atât la nivel emoțional, cât și materialist. Și de aceea îmi doresc foarte mult să vedem, la figurat vorbind, un nou K7 sau K8 în realitate.

Dar chiar și înainte de testare, putem spune că șansele de repetare a unui astfel de fenomen sunt mici. Intel însuși a ajutat AMD să-și apuce palma ultima dată, încercând să promoveze microarhitectura NetBurst, departe de a fi ideală. Apoi, inginerii Intel s-au concentrat pe creșterea vitezei de ceas, care în cele din urmă au întâlnit obstacole sub formă de curenți de scurgere gigantici, în timp ce AMD a oferit o microarhitectură mai echilibrată, menită să execute mai multe instrucțiuni pe ciclu de ceas. Dar după ce Intel și-a revizuit doctrina și a introdus o nouă microarhitectură Core, care vizează și executarea numărului maxim de instrucțiuni pe ciclu de ceas, AMD a revenit la poziția de lagward, unde fusese până acum.

Evident, depășește modernul procesoare Intel din punct de vedere al numărului de instrucțiuni executate pe ciclu de ceas este foarte dificil. Microarhitectura Sandy Bridge de astăzi este rezultatul a cel puțin trei cicluri de optimizare a unui design inerent eficient, așa că nu ne putem aștepta la o eficiență specifică de bază chiar mai mare de la AMD. Mai mult, inginerii AMD nici măcar nu și-au stabilit un astfel de obiectiv.

Ideea principală a Buldozerului se află în altă parte. Potrivit dezvoltatorilor, procesoarele construite pe această microarhitectură ar trebui să arate performanță bună datorită vitezei mari de ceas și unui număr mai mare de nuclee de calcul decât concurenții și predecesorii săi. În același timp, ar trebui să rămână destul de profitabile în producție, adică nu ar trebui să aibă un cristal semiconductor prea mare și să nu demonstreze o disipare prea mare a căldurii în ceea ce privește un miez individual.

Secretele de design AMD Multi-Core

Este destul de clar că o creștere a numărului de nuclee de procesor implică inevitabil o creștere a zonei cipului procesorului. Ca urmare, atât complexitatea producției, cât și costul produselor finale cresc. Prin urmare, de exemplu, procesoare cu număr maxim Nucleele de calcul sunt folosite astăzi doar pe segmentul de piață al serverelor - clienții corporativi plătesc mult mai bine decât utilizatorii individuali. Cursul ales de AMD pentru a crește numărul de nuclee menținând în același timp un cost acceptabil al procesoarelor rezultate trebuie să fie cuplat cu o simplificare a nucleelor ​​în sine. Cu toate acestea, pe de altă parte, simplificarea nucleelor ​​implică un efect nedorit - o scădere a performanței în aplicațiile cu sarcini slab paralelizate, dintre care încă există un număr suficient în acest moment.

Prin urmare, inginerii AMD au mers pe drumul lor. Microarhitectura nucleelor ​​individuale a devenit mai complexă, crescând numărul de instrucțiuni executate pe ceas ori de câte ori este posibil.



Însă s-a decis să se facă parte din resursele care sunt de obicei prezente în fiecare nucleu, dar în același timp excesiv de eficiente, împărțite între perechi de nuclee de calcul.



Ansamblul dual-core rezultat a devenit elementul de bază pentru procesoarele Bulldozer. Un astfel de nod, numit modul în terminologia AMD, are două seturi complete de actuatoare întregi. Dar, în același timp, unitatea în virgulă mobilă, dispozitivele de preîncărcare și decodare a instrucțiunilor, precum și memoria cache de al doilea nivel există într-o singură copie pentru câteva nuclee și își împart resursele între ele. Potrivit dezvoltatorilor, puterea acestor elemente este suficientă pentru două nuclee, deoarece la întreținerea unui singur nucleu în viata reala sunt inactivi destul de des. În plus, întârzierile în funcționarea lor neîntreruptă nu au un impact grav asupra performanței rezultate.

Potrivit AMD însuși, un modul dual-core proiectat în modul descris este capabil să ofere până la 80% din performanța unui procesor dual-core cu drepturi depline. În același timp, economiile în bugetul tranzistorului (și, în consecință, în zona cristalului semiconductor) ajung la 44%.

Datorită acestei compactări ingenioase a miezului, AMD a reușit să încorporeze un design cu opt nuclee (sau cu patru module) în designul de bază al matriței semiconductoare Bulldozer.



Mai mult, o parte destul de semnificativă a cristalului este dată memoriei cache. Cache-urile de al doilea nivel, partajate între perechi de nuclee în cadrul fiecărui modul de procesor, au o capacitate de 2 MB, iar memoria cache L3 totală pentru întregul procesor este de 8 MB. Astfel, ținând cont de organizarea tradițională exclusivă a cache-urilor AMD, putem spune că volumul total al acestora este de 16 MB pe procesor cu opt nuclee. În același timp, zona cristalului semiconductor Bulldozer rămâne în limite acceptabile, astfel încât dezvoltatorii AMD și-au atins pe deplin obiectivul.



În cifre absolute, aceasta înseamnă că buldozerele cu opt nuclee vor avea o matriță semiconductoare mai mică decât, de exemplu, procesoarele Thuban cu șase nuclee (Phenom II X6), construite pe microarhitectura K10. Cu toate acestea, trebuie avut în vedere că Bulldozerul va fi produs folosind un proces tehnic mai avansat, cu standarde de 32 nm. În comparație cu Intel Sandy Bridge-uri moderne quad-core, noile procesoare AMD cu opt nuclee vor avea doar cu 45% mai multă suprafață a matriței.

Cu toate acestea, procesoarele Sandy Bridge quad-core, datorită suportului tehnologiei Hyper-Threading, la fel ca Bulldozer, pot fi prezentate sistemului de operare ca procesoare cu opt nuclee. Acest lucru va da cu siguranță naștere la controverse cu privire la legalitatea de a numi procesoare cu opt nuclee Bulldozer cu drepturi depline. Cu toate acestea, trebuie înțeles că AMD și Intel au ajuns la permisiunea executării simultane a opt fire de calcul în moduri diferite. Dezvoltatorii Intel și-au înșurubat microarhitectura caracteristici suplimentare, permițând două fire să ruleze în interiorul unui nucleu, pe un set de unități de execuție. AMD, dimpotrivă, a tăiat piese „în plus” din două nuclee cu drepturi depline, dar în fiecare modul erau doar două seturi de actuatoare.



Drept urmare, tehnologia Intel Hyper-Threading crește performanța multi-threaded cu doar 15-20%, în timp ce soluția AMD oferă o creștere cu 80% a performanței atunci când trece de la 4 la 8 fire.

Deși, desigur, cristalul semiconductor al Buldozerului cu opt nuclee, datorită structurii sale modulare, este într-adevăr foarte asemănător cu cel cu patru nuclee.


Mai multe instrucțiuni pe ciclu?

Numai creșterea numărului de nuclee de procesor nu vă va duce departe. Acest lucru a devenit clar chiar și după lansarea procesoarelor Phenom II X6 cu șase nuclee, care sunt în general inferioare ca performanță față de Sandy Bridge cu patru nuclee. Prin urmare, dezvoltatorii AMD nu s-au limitat doar la modificări extinse de design. Microarhitectura de bază a Bulldozer-ului, în comparație cu K10, a fost reproiectată puțin mai puțin decât complet, ceea ce dă speranță pentru accelerarea funcționării sistemelor pe procesoarele AMD nu numai în sarcini multi-threaded, ci și în aplicații cu un nivel scăzut de paralelism. Mai mult, aceste speranțe se bazează pe circumstanțe complet obiective. În timp ce microarhitecturile AMD anterioare au fost concepute pentru a executa trei instrucțiuni pe ceas (pe un singur nucleu), microarhitectura Bulldozer presupune executarea a patru instrucțiuni pe ceas și este mai aproape în această caracteristică de procesoarele concurente cu microarhitectură Core.

Modificările calitative pot fi urmărite începând din primele etape ale conductei de execuție - din etapa de preîncărcare și decodare a instrucțiunilor. Aceste etape sunt comune perechilor de nuclee dintr-un singur modul, așa că AMD a avut o grijă deosebită pentru a se asigura că nu devin un blocaj microarhitectural. Instrucțiunile sunt preluate din memoria cache L1I pentru decodare în blocuri de 32 de octeți - de două ori mai mari decât la procesoarele cu microarhitectură Core (a doua generație). Cache-ul de instrucțiuni de primul nivel are o capacitate de 64 KB și asociativitate pe două canale. Instrucțiunile destinate decodării sunt încărcate în acesta din memoria cache de al doilea nivel în avans.

Blocul de predicție a ramurilor, care este cel mai direct implicat în procesul de eșantionare, conține două seturi de tampon care monitorizează în mod independent activitatea diferitelor nuclee. Astfel, atunci când prezice rezultatele ramurilor logice, Bulldozer nu se confundă între fire. Deoarece noua microarhitectură își propune să funcționeze la viteze mari de ceas, calitatea unității de predicție a ramurilor este de cea mai mare importanță. Prin urmare, algoritmii folosiți în ea au fost complet reproiectați, iar AMD speră că eficiența predicției ramurilor Bulldozer se va îmbunătăți.



Decodorul de instrucțiuni x86 de la Bulldozer își împarte resursele în două nuclee și este capabil să decodeze până la 4 instrucțiuni primite pe ciclu de ceas. Cu toate acestea, performanța sa se limitează la emiterea de doar patru instrucțiuni macro (rezultate din decodare în termeni AMD), în timp ce instrucțiunile x86 pot fi împărțite în 1-2 sau chiar mai multe instrucțiuni macro. Astfel, deși decodorul și-a crescut performanța cu o treime față de generația anterioară de microarhitectură, viteza sa poate să nu fie suficientă, având în vedere că are sarcina de a suporta două clustere de calcul întregi și unul real.

Trebuie remarcat faptul că un anumit analog al tehnologiei de fuziune a instrucțiunilor de macro-fuziune a fost folosit și în Bulldozer. Unele grupuri de instrucțiuni x86 pot fi combinate într-un singur întreg și trecute prin decodor ca o singură instrucțiune - AMD numește această Branch Fusion.

Macro-instrucțiunile decodificate sunt distribuite în trei grupuri de calcul, dintre care două sunt rămășițele nucleelor ​​de calcul cu drepturi depline și unul este numerotat real, împărțit între nuclee. Fiecare dintre aceste clustere are propria sa logică de reordonare a instrucțiunilor și propriul său planificator. Acest lucru înseamnă în mod evident că AMD își păstrează capacitatea de a înlocui complet sau completa unele dintre aceste clustere în produsele viitoare.

Reordonarea instrucțiunilor în fiecare dintre clustere se bazează pe utilizarea unui fișier de registru fizic, care stochează referințe la conținutul registrelor și elimină nevoia de transferuri constante de date în cadrul procesorului atunci când se rearanjează ordinea instrucțiunilor. Această abordare a înlocuit tamponul de reordonare în locul său, deoarece fișierul de registru fizic este nu numai mai eficient în ceea ce privește consumul de energie, ci și mai favorabil creșterii vitezei de ceas a procesorului.

Clusterele întregi conțin două unități de execuție aritmetică (ALU) și două unități de adresă de memorie (AGU). În comparație cu microarhitectura K10, numărul dispozitivelor a scăzut cu un ALU și un AGU, dar AMD asigură că acest lucru nu va reduce semnificativ performanța, dar zona centrală va economisi semnificativ. Credem cu ușurință că a avea mai mult de două ALU-uri și AGU-uri în fiecare cluster întreg nu are sens practic, deoarece nu pot ajunge mai mult de patru instrucțiuni macro per ciclu de ceas de la decodor pentru a fi executate de ambele clustere.



În același timp, actuatoarele au devenit mai universale; practic nu diferă în funcție de funcții.

Organizarea subsistemului memoriei cache s-a schimbat serios. Cache-ul L1D a fost redus de la 64 la 16 KB și a devenit inclusiv de scriere. În același timp, asociativitatea sa a crescut la 4 canale, pe lângă care a fost adăugat un „predictor de cale”. Reducerea dimensiunii cache-ului de date de la primul nivel este compensată de o creștere semnificativă a debitului său; acum poate deservi până la trei operațiuni pe 128 de biți simultan: două citiri și una de scriere.

Evident, modificările lățimii de bandă a cache-ului L1D sunt în mare măsură legate de necesitatea implementării instrucțiunilor AVX pe 256 de biți în microarhitectură, suport pentru care a apărut în unitatea FPU partajată între nuclee. Cu toate acestea, acest lucru nu înseamnă că actuatoarele cu număr real au devenit 256 de biți. De fapt, modulul Bulldozer are două dispozitive pe 128 de biți, iar instrucțiunile AVX sunt decodificate ca perechi legate de instrucțiuni pe 128 de biți. În consecință, pentru a le executa, dispozitivele FMAC (multiplicare-acumulare în virgulă mobilă) sunt combinate, iar performanța unui cluster cu numere reale este redusă la o comandă AVX per modul de procesor per ciclu de ceas.



FPU nu are propriul cache de prim nivel, așa că acest cluster funcționează cu date prin dispozitive întregi.

Deoarece inginerii AMD și-au asumat deja sarcina de a implementa suportul pentru instrucțiunile AVX propuse de Intel, la procesoarele Bulldozer au fost adăugate și alte seturi relevante: instrucțiuni SSE4.2 și AESNI care vizează accelerarea operațiunilor de criptare. În plus, AMD a introdus câteva dintre propriile comenzi: FMA4 cu trei operanzi de multiplicare-adunare și propria sa viziune asupra dezvoltării ulterioare a AVX - XOP.



Cache-ul L2 din Bulldozer este partajat în modulul procesorului și partajat între nuclee. Capacitatea sa este impresionantă de 2 MB, iar asociativitatea sa este de 16 canale. Cu toate acestea, latența cache-ului care funcționează conform acestei scheme a crescut la 18-20 de cicluri, în ciuda faptului că lățimea magistralei a rămas aceeași ca înainte - 128 de biți. Aceasta înseamnă că memoria cache L2 din Bulldozer, deși mare, nu este foarte rapidă; procesoarele concurente și precedente oferă cache L2 cu aproximativ jumătate din latență. Cuplat cu un mic cache L1D cu o latență de 4 cicluri (care este, de asemenea, mai mult decât în ​​microarhitectura K10), toate acestea nu arată foarte încurajatoare. Cu toate acestea, AMD susține că latența cache a fost crescută doar pentru a oferi Bulldozerului capacitatea de a funcționa la viteze mari de ceas.



În plus, inginerii AMD au implementat o unitate eficientă de preluare, care este concepută pentru a încărca datele necesare în cache-urile de primul și al doilea nivel înainte de timp. Se spune că performanța acestor blocuri a fost îmbunătățită, iar acum sunt chiar capabile să recunoască structurile neregulate de date.

În teorie, Bulldozer face o impresie bună. AMD și-a revizuit complet vechea abordare a microarhitecturii procesoarelor și a implementat un design complet reproiectat. Ceea ce, la prima vedere, pare foarte promițător, deoarece noua microarhitectură este optimizată pentru executarea a patru, mai degrabă decât trei, instrucțiuni per ciclu de ceas pe un nucleu de procesor. În plus, acceptă îmbinarea macro a instrucțiunilor în timpul procesului de decodare, ceea ce crește și mai mult performanța specifică.

Dar totul arată atât de bine doar atâta timp cât ne uităm la un singur nucleu și nu ne gândim la faptul că, în realitate, astfel de nuclee sunt combinate în perechi. Iar modulul Buldozer dual-core are prea multe părți comune pentru câteva nuclee. În special, datorită faptului că un astfel de modul are doar o unitate de preluare a instrucțiunilor și un decodor, numărul maxim de instrucțiuni executate pe ciclu de ceas rămâne egal cu patru pentru întregul ansamblu dual-core. Aceasta înseamnă că echivalentul logic pentru un singur nucleu Sandy Bridge în ceea ce privește performanța teoretică este modulul, și nu nucleul Bulldozer. Capacitatea modulului de a executa două fire în acest caz arată ca un răspuns complet logic de la AMD la tehnologia Hyper-Threading.

Bineînțeles, testarea procesoarelor reale va pune totul la locul său, dar deja în faza de luare în considerare a microarhitecturii suntem forțați să credem că poziționarea Bulldozer ca procesoare cu opt nuclee cu drepturi depline este un truc de marketing. O evaluare mai fiabilă a capacităților de calcul ale acestor procesoare ar trebui să se bazeze pe numărul de module, care, din punct de vedere al performanței teoretice, sunt perfect comparabile cu nucleele construite pe microarhitectură. Intel core a doua generație.

În acest sens, apare o întrebare complet logică - de ce s-a deranjat AMD chiar cu implementarea procesării dual-threaded în cadrul unui singur modul de procesor? De ce nu ar putea fi posibilă combinarea actuatoarelor distribuite pe două nuclee într-un singur cluster? Există mai multe motive pentru aceasta.

În primul rând, pentru a încărca simultan un număr mare de actuatoare cu lucru, în cazul general, este necesară o logică avansată intra-procesor. AMD, evident, nu a reușit să implementeze unități extrem de eficiente de predicție a ramurilor și instrucțiuni și preluare a datelor în microarhitectura Bulldozer. Prin urmare, sarcina paralelizării lucrărilor și a utilizării mai optime a dispozitivelor de execuție este transferată către producătorii de software, care trebuie să furnizeze produse cu suport multi-threading pentru Bulldozer.

În al doilea rând, creșterea numărului de fire executate concomitent nu este atât de rău. Dacă pentru utilizatorii de desktop și în special pentru jucători, opt nuclee Bulldozer destul de simple nu promit niciun avantaj special, atunci în aplicațiile de server o astfel de microarhitectură ar trebui să fie îndeplinită foarte favorabil. Deci, este foarte posibil ca obiectivul principal în dezvoltarea Bulldozer să nu fie satisfacerea aspirațiilor entuziaștilor, ci restabilirea poziției AMD pe piața serverelor.

Turbo Core și mai mult Turbo

Eficiența energetică este una dintre cele mai importante caracteristici procesoare moderne. De exemplu, în lor microarhitecturi viitoare Intel acordă atenție reducerii consumului de energie aproape în primul rând. AMD nu a ajuns încă în acest punct; inginerii acestei companii luptă în primul rând pentru performanță. Dar asta nu înseamnă că dezvoltatorilor nu le-a păsat deloc de caracteristicile termice și energetice ale Bulldozerului. Dimpotrivă, în urma lui Llano, abordări fundamental noi pentru creșterea eficienței energetice și-au găsit drum în procesoarele Bulldozer. Cu toate acestea, în acest caz, inginerii au folosit potențialul eliberat nu atât pentru a economisi bani, ci pentru a obține performanțe suplimentare prin creșterea frecvenței de ceas.

Desigur, noua tehnologie de producție a adus anumite îmbunătățiri în ceea ce privește consumul de energie și disiparea căldurii. Buldozerul folosește o tehnologie de proces de 32 nm folosind material cu dielectric înalt, tranzistori cu poartă metalică și tehnologie SOI. Cu alte cuvinte, acesta este același proces tehnic GlobalFoundries care produce procesoare Llano. Mulțumită tehnologie nouă Cu standarde de 32 nm, tensiunile de alimentare de operare ale procesoarelor seriale Bulldozer cu opt nuclee nu depășesc 1,4 V.

Cu toate acestea, principala inovație care a trecut de la Llano la Bulldozer sunt tranzistoarele Power Gate, concepute pentru a întrerupe puterea de la anumite părți ale procesorului. În Bulldozer, acestea vă permit să eliberați independent tensiunea de la modulele dual-core individuale și din memoria cache.



Când ambele nuclee de calcul din modul intră în starea de economisire a energiei C6, modulul este dezactivat. Din păcate, această tehnologie nu poate fi aplicată nucleelor ​​de procesor, deoarece pur și simplu nu există nuclee dedicate în interiorul Bulldozerului - ei împart unele dintre resurse cu vecinii lor de module.

Starile de economisire a energiei ale miezurilor C6 sunt controlate prin tehnologia Bulldozer si Turbo Core. În acele momente în care cel puțin jumătate dintre modulele procesorului Bulldozer sunt într-o stare oprită de economisire a energiei, acesta își mărește tensiunea de alimentare și frecvența de ceas. Acest mod de operare forțat se numește Max Turbo Boost.

Cu toate acestea, Max Turbo Boost nu este nimic nou; astfel de auto-overclocking a fost introdus de AMD în procesoarele Thuban construite pe microarhitectura K10. Ceea ce este cu adevărat nou este modul All Core Boost, în care viteza ceasului poate crește peste valoarea nominală chiar și atunci când toate nucleele procesorului sunt active. Versiunea îmbunătățită a Turbo Core introdusă în Bulldozer permite procesorului să judece cu o bună acuratețe consumul practic de energie și disiparea căldurii, pe baza informațiilor despre sarcina de lucru a anumitor blocuri. În consecință, dacă, conform acestei evaluări, disiparea de căldură curentă și consumul de energie este semnificativ sub limită, procesorul își poate crește tensiunea de alimentare și frecvența de ceas chiar dacă niciun nucleu nu este în stare pasivă.



Astfel, frecvența de funcționare a procesoarelor cu microarhitectura Bulldozer este o valoare extrem de variabilă. În funcție de „severitatea” algoritmilor executați și de numărul de nuclee implicate, acesta se poate schimba dinamic într-un interval foarte larg, ajungând la 900 MHz.

Platformă desktop actualizată

Odată cu introducerea noii microarhitecturi, AMD nu numai că nu a schimbat designul platformei, dar a menținut chiar și compatibilitatea procesoarelor Bulldozer cu infrastructura existentă. În consecință, la fel ca și predecesorii lor, noile procesoare conțin un pod de nord integrat, inclusiv un cache de nivel al treilea, un controler de memorie și un controler de magistrală Hyper-Transport. În același timp, în ciuda faptului că toate procesoarele AMD și Intel nou lansate au și un controler de magistrală grafică PCI Express construit în interior, Bulldozer nu are acest lucru.



La fel ca în procesoarele construite pe microarhitectura K10, Northbridge-ul încorporat în Bulldozer folosește propria frecvență de ceas, care diferite modele setat la 2,0-2,2 GHz. Rețineți că această frecvență are un anumit impact asupra performanței, deoarece afectează direct viteza cache-ului L3. Care în versiunea actuală de procesoare are un volum crescut la 8 MB și are asociativitate pe 64 de canale. Îndeplinind dorințele utilizatorilor întreprinderii, datele stocate în acest cache sunt protejate de codul de corectare a erorilor ECC.

Controlerul de memorie încorporat în Bulldozer nu are capabilități fundamentale noi. Ca și până acum, acceptă DDR3 SDRAM, folosește un design dual-channel și, de fapt, constă din două controlere independente cu un singur canal care pot funcționa fie în modul pereche, fie decuplat. AMD a adăugat suport doar pentru tipurile de memorie de viteză mai mare, declarând compatibilitatea cu DDR3-1867 și s-a ocupat de compatibilitatea cu modulele eficiente din punct de vedere energetic cu tensiuni de operare de 1,25 și 1,35 V.

Vorbind despre modificarea desktop-ului Bulldozer, care are propriul nume de cod Zambezi, trebuie remarcat că acesta vizează noua platformă Socket AM3+, cunoscută și sub numele de cod Scorpius. Socket-ul procesorului Socket AM3+ are 942 de pini, un pin mai mult decât Socket AM3. Dar, în ciuda acestui fapt, Zambezi rămâne compatibil cu plăcile mai vechi Socket AM3. Când instalați procesoare noi pe plăcile de bază vechi, de fapt, se pierd doar anumite funcții de gestionare a energiei. Astfel, viteza de comutare a frecvenței scade atunci când tehnologiile Turbo Core și Cool"n"Quiet funcționează și Vdrop nu funcționează.

Cu toate acestea, pentru lansarea lui Zambezi, AMD și producătorii de plăci de bază au pregătit o galaxie de produse noi bazate pe noile seturi logice din seria 900. Structura unui sistem tipic bazat pe procesorul Zambezi și construit pe noul chipset este prezentată în diagrama bloc de mai jos.


Diferențele dintre noul chipset AMD 990FX (și versiunile sale simplificate AMD 990X și AMD 970) constă numai în suportul pentru proprietățile electrice specifice ale Socket AM3+ și nu aduc cu ele nicio interfață nouă. La fel ca chipset-urile din seria 800, noul South bridge are șase porturi SATA 6 Gbps și paisprezece porturi USB 2.0. Indiferent cât de mult ne-am dori să vedem suport pentru specificația PCI Express 3.0 sau, în cel mai rău caz, porturi USB 3.0 în noile seturi logice de sistem, nici de această dată nu există nimic de acest fel în ele. Acest lucru, apropo, este foarte ciudat, deoarece suportul USB 3.0 a fost introdus în chipset-urile pentru platforma de nivel inferior Socket FM1.

Diferențele dintre modificările noii serii de seturi logice de sistem constau numai în suportul diferitelor configurații multi-GPU.


Gama de procesoare Zambezi

Lansarea procesoarelor Zambezi completează actualizarea gama de modele, oferit de AMD. Procesoarele desktop bazate pe microarhitectura Bulldozer vor deveni noua ofertă emblematică a acestui producător și vor înlocui rapid tot felul de modificări Phenom II de pe piață.

Subliniind inovația noii microarhitecturi, AMD va folosi un nou nume de marketing pentru procesoarele desktop Zambezi - FX. Pe de o parte, se încadrează perfect în noua nomenclatură, care presupune marcarea procesoarelor cu litere, iar pe de altă parte, este o referire la legendarele procesoare Athlon 64 FX, care în urmă cu șase sau șapte ani erau cele mai rapide procesoare desktop. Cu toate acestea, acele vremuri au dispărut irevocabil, așa că să vedem ce este gata AMD să ne ofere acum.

În viitorul apropiat, gama de procesoare din seria FX va include patru modele.



În ciuda faptului că diferența dintre modelele de procesoare Zambezi nu este doar în viteza de ceas, ci și în numărul de nuclee de calcul active, toate se vor baza pe același cip semiconductor unificat. Iată-l:



Pentru a obține procesoare cu mai puțin de opt nuclee, AMD va dezactiva unele dintre ele pe cipul semiconductor. Posibilitatea de a le debloca înapoi, așa cum a fost posibil cu procesoarele cu microarhitectura K10, este încă în discuție. Cu toate acestea, în BIOS-ul plăcilor de bază bazate pe seturi logice din seria 900 care au trecut prin laboratorul nostru, sunt prezente opțiunile corespunzătoare, așa că există speranță pentru o soluție favorabilă pentru această problemă.

Dezactivarea nucleelor ​​pentru a obține modificări ale procesoarelor cu șase și patru nuclee va avea loc „modul cu modul”. Adică toate modulele dual-core vor fi blocate, și nu „al doilea” nuclee din interiorul lor, deși o astfel de tactică ar fi mult mai benefică din punct de vedere al performanței. Cu toate acestea, lansarea procesoarelor cu șase și patru nuclee construite pe microarhitectura Bulldozer este explicată nu atât de considerente de marketing, cât de necesitatea implementării respingerii, care, având în vedere dimensiunile destul de mari ale cipului și noul proces tehnologic, va fi destul de mult.

În ciuda faptului că AMD a clarificat noua microarhitectură pentru a funcționa la frecvențe înalte de ceas, încă nu putem numi valorile obținute o descoperire impresionantă. Bariera de patru gigaherți rămâne neînvinsă, iar frecvența nominală a procesorului FX mai vechi este chiar mai mică decât, de exemplu, Phenom II X4 980. Am dori să sperăm că odată cu îmbunătățirea tehnologiei de producție, frecvențele Zambezi vor crește rapid. . Deși, dacă credeți că versiunea actuală a planurilor AMD, linia va fi accelerată nu mai devreme de primul trimestru al anului 2012.

Nu există nicio descoperire în ceea ce privește degajarea de căldură și consumul de energie. AMD a vorbit de mult despre cum microarhitectura Bulldozer va fi mai eficientă din punct de vedere energetic, dar, de fapt, modelele mai vechi cu opt nuclee au același nivel TDP ca și vechiul Phenom II. Adevărat, după ceva timp, compania ar trebui să adauge la ofertele sale o versiune de 95 de wați a FX-8120 și un procesor FX-8100 cu aceeași disipare a căldurii calculate.

Dar prețurile noilor procesoare din seria FX arată mai mult decât atractive. AMD nu vrea să se abată de la cursul său de a oferi platforme la un preț mai favorabil decât concurenții săi, așa că modelele mai vechi Zambezi cu opt nuclee se opun procesoarelor Intel Core i5 mai vechi. În general, AMD intenționează să adere la următoarea schemă de poziționare pentru produsele sale:



Cu alte cuvinte, AMD nu intenționează să concureze cu procesoarele cu șase nuclee ale Intel și cu platforma promițătoare LGA2011, ci vrea să se concentreze pe cucerirea segmentului de preț mediu.

Vestea bună pentru entuziaști va fi faptul că niciun multiplicator nu va fi blocat în toate procesoarele din seria FX. Toate Zambezi nu numai că pot fi overclockate cu ușurință prin simpla schimbare a multiplicatorului de bază, dar pot fi și reconfigurate în mod similar cu tehnologia Turbo Core. De asemenea, este disponibilă overclockarea subsistemului de memorie și frecvența podului de nord încorporat în procesor.

Procesor de testare: AMD FX-8150

AMD a trimis editorilor noștri procesorul senior al familiei Zambezi, FX-8150.



Are o viteză nominală de ceas de 3,6 GHz și mai mult informatii detaliate Caracteristicile sale pot fi obținute din captura de ecran dată a CPU-Z.



Vă rugăm să rețineți că procesorul se bazează pe pasul B2 - și aceasta nu este prima versiune. Modificările anterioare ale cristalului semiconductor au fost respinse de producător deoarece nu puteau funcționa la frecvențele de ceas planificate inițial. Acesta este ceea ce a provocat o oarecare întârziere în anunț, care a fost planificat inițial în primăvară, apoi în vară, dar de fapt s-a întâmplat la jumătatea lunii octombrie.

Cu toate acestea, frecvența de 3,6 GHz atinsă astăzi nu pare prea impresionantă. Atât AMD, cât și Intel au produse care funcționează cu mai multe de mare viteză. Cu toate acestea, FX-8150 are o tehnologie Turbo Core foarte promițătoare, care, la sarcină redusă, poate crește automat frecvența procesorului până la 4,2 GHz.



Este de remarcat faptul că o frecvență de 3,9 GHz poate fi atinsă chiar dacă sarcina este pe toate nucleele de calcul, dar în același timp lasă loc pentru auto-overclocking fără a depăși limitele consumului de energie și disipării căldurii.



Când este inactiv, tehnologia Cool"n"Quiet reduce frecvența lui FX-8150 la 1,4 GHz. Tensiunea de alimentare scade la 0,85 V.


Cum am testat

Noua opt nuclee procesor AMD Am comparat FX-8150, construit pe microarhitectura Bulldozer, cu unul dintre predecesorii săi, Phenom II X6 cu șase nuclee, și cu ofertele concurente (la preț) ale Intel, procesoarele quad-core Core i5-2500 și Core i7-2600. . În plus, pentru o mai mare claritate, indicatorii de performanță pentru procesorul Core i7-990X cu șase nuclee au fost adăugați la rezultate.

Ca urmare, compoziția sisteme de testare a inclus următoarele componente software și hardware:

Procesoare:

AMD FX-8150 (Zambezi, 8 nuclee, 3,6 GHz, 8 MB L2 + 8 MB L3);
AMD Phenom II X6 1100T (Thuban, 6 nuclee, 3,3 GHz, 3 MB L2 + 6 MB L3);
Intel Core i7-2600K (Sandy Bridge, 4 nuclee, 3,4 GHz, 1 MB L2 + 8 MB L3);
Intel Core i5-2500K (Sandy Bridge, 4 nuclee, 3,3 GHz, 1 MB L2 + 6 MB L3);
Intel Core i7-990X Extreme Edition (Gulftown, 6 nuclee, 3,46 GHz, 1,5 MB L2 + 12 MB L3).

Cooler CPU: NZXT Havik 140;
Plăci de bază:

Gigabyte 990FXA-UD5 (Socket AM3+, AMD 990FX + SB950);
ASUS P8Z68-V PRO (LGA1155, Intel Z68 Express);
Gigabyte X58A-UD5 (LGA1366, Intel X58 Express).

Memorie:

2 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Kingston KHX1600C8D3K2/4GX);
3 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Crucial BL3KIT25664TG1608).

Placa grafica: AMD Radeon HD 6970.
Hard disk: Kingston SNVP325-S2/128GB.
Alimentare: Tagan TG880-U33II (880 W).
Sistem de operare: Microsoft Windows 7 SP1 Ultimate x64.
Șoferi:

Driver pentru chipset Intel 9.2.0.1030;
Driver Intel Management Engine 7.1.10.1065;
Tehnologia Intel Rapid Storage 10.6.0.1022;
Driver de afișare AMD Catalyst 11.10.

Vă rugăm să rețineți că testarea a fost efectuată în versiunea actuală a sistemului de operare Windows 7, dar AMD indică faptul că managerul de activități al acestui sistem de operare nu distribuie firele de calcul în cel mai optim mod. Windows 7 preferă în primul rând să direcționeze firele către nuclee situate în module diferite. Și acest lucru oferă într-adevăr o performanță specifică mai mare, deoarece reduce sarcina pe blocurile împărțite în interiorul modulului. Cu toate acestea, această strategie împiedică includerea modurilor turbo, care ar putea fi folosite de procesor dacă unele dintre modulele dual-core ar fi în stare de economisire a energiei.

Viitorul sistem de operare Windows 8 va urma o tactică diferită, iar firele vor fi alocate mai întâi nucleelor ​​din același modul. Drept urmare, AMD promite că într-o serie de aplicații, performanța sistemelor bazate pe Zambezi poate crește cu până la 10%.

Performanţă

Evaluarea preliminară a eficacității microarhitecturii Bulldozer

Înainte de a începe testarea „adevărată” a procesoarelor, am decis să ne dăm seama la ce ne putem aștepta de la microarhitectura Bulldozer în principiu. Pentru a face acest lucru, am efectuat o mică comparație a unui procesor cu această microarhitectură cu alte procesoare cu microarhitecturi K10 și Sandy Bridge în condiții egale create artificial: la aceeași frecvență de ceas și cu același număr de nuclee activate.

Mai precis, am comparat AMD FX-8150, Phenom II X6 1100T și Core i7-2600 la 3,6 GHz cu doar două nuclee de procesare activate. Pentru puritatea experimentului, toate tehnologiile de economisire a energiei și de overclocking automat au fost dezactivate în mod natural. Ca instrument de testare, am ales un set de benchmark-uri sintetice simple incluse în utilitarul SiSoft Sandra 2011, în care am dezactivat forțat toate seturile de instrucțiuni mai vechi decât SSE3, deoarece nu sunt acceptate în microarhitectura K10.



Numerele din tabel vorbesc mai tare decât orice cuvânt. Performanța microarhitecturii Bulldozer a devenit mult mai scăzută decât cea a procesoarelor anterioare. Combinarea perechilor de nuclee într-un singur modul cu resurse partajate și simplificarea însoțitoare a microarhitecturii a condus la faptul că, la aceeași frecvență, performanța specifică a Bulldozerului per nucleu a scăzut cu 25-40% față de microarhitectura AMD din generația anterioară. Ca rezultat, miezurile Bulldozer sunt aproape la jumătate mai lente decât miezurile Sandy Bridge. Mai mult, performanța modulului de procesor Bulldozer, care include două nuclee, este chiar mai mică decât viteza unui singur nucleu Sandy Bridge cu tehnologia Hyper-Threading activată. Ar trebui să ne așteptăm la înregistrări de performanță de la un procesor construit pe o astfel de microarhitectură? Întrebarea este retorică.

Pe parcurs, să aruncăm o privire asupra caracteristicilor practice ale cache-urilor și ale subsistemului de memorie. Pentru a evalua viteza de funcționare a acestor unități funcționale, am efectuat teste în utilitarul Cachemem din pachetul Aida64. În toate cazurile, memoria DDR3-1600 a fost folosită cu latențe de 9-9-9-27-1T. La fel ca în cazul precedent, frecvențele procesorului au rămas aliniate la 3,6 GHz.



În Zambezi, în comparație cu procesoarele Phenom II, latențele practice atât ale tuturor cache-urilor, cât și ale subsistemului de memorie au crescut. Am vorbit despre asta când ne gândim la microarhitectura Bulldozer. Cu toate acestea, schimbând organizarea logică a memoriei cache, aceasta debitului crescut în aproape toate cazurile.

În același timp, cel mai rapid controler de memorie dual-channel și cel mai rapid subsistem cache sunt implementate în Sandy Bridge. Deși, bineînțeles, în ceea ce privește capacitatea de cache, procesorul Intel este oarecum inferior media de microarhitectură Bulldozer.

Performanța generală

Pentru a evalua performanța procesorului în sarcini obișnuite, folosim în mod tradițional testul Bapco SYSmark 2012, care simulează munca utilizatorului în mod obișnuit. programe de birouși aplicații pentru crearea și procesarea conținutului digital. Ideea testului este foarte simplă: produce o singură metrică care caracterizează viteza medie ponderată a computerului în aplicațiile comune.

Să ne amintim că în urmă cu ceva timp AMD a încercat să troleze SYSmark, răspândind acuzații că ar fi părtinitor din cauza utilizării setului „greșit” de aplicații reale. Cu toate acestea, în opinia noastră, o astfel de judecată nu este justificată, deoarece este vorba despre cele comune și realiste care sunt folosite pentru a evalua performanța. programe populare, contribuția fiecăruia dintre ele la rezultatul final este prezentată în următoarea diagramă:



Prin urmare, nu am abandonat utilizarea SYSmark 2012 și continuăm să folosim valorile acestuia pentru a evalua performanța comună.



Primul test este o astfel de dezamăgire. Rezultatul FX-8150 cu opt nuclee este cu doar 10% mai bun decât performanța lui Phenom II X6 1100T cu șase nuclee și, firește, nu atinge deloc performanța procesoarelor Intel quad-core. Deci tactica aleasă de AMD de a implementa un număr mare de nuclee cu performanțe specifice scăzute în procesor în locul unui număr moderat de complexe, în general, nu dă un rezultat pozitiv.

O înțelegere mai profundă a rezultatelor SYSmark 2012 poate oferi o perspectivă asupra scorurilor de performanță obținute în diferite scenarii de utilizare a sistemului.

Scenariul Office Productivity simulează munca tipică de birou: pregătirea textului, procesarea foilor de calcul, lucrul cu prin e-mailși vizitarea site-urilor de internet. Scriptul utilizează următorul set de aplicații: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Player 10.1, Microsoft Excel 2010, Microsoft Internet Explorer 9, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 și WinZip Pro 14.5.



Scenariul Media Creation simulează crearea unei reclame folosind imagini și videoclipuri digitale pre-înregistrate. În acest scop, sunt utilizate pachete populare Adobe: Photoshop CS5 Extended, Premiere Pro CS5 și After Effects CS5.



Dezvoltarea web este un scenariu în care se modelează crearea unui site web. Aplicatii folosite: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5 Mozilla Firefox 3.6.8 și Microsoft Internet Explorer 9.



Scenariului Date/Analiza financiară este dedicat analize statisticeși prognozarea tendințelor pieței, care sunt efectuate în Microsoft Excel 2010.



Scriptul de modelare 3D se referă la crearea de obiecte tridimensionale și la randarea scenelor statice și dinamice folosind Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 și Google SketchUp Pro 8.



Ultimul scenariu, System Management, presupune crearea de copii de rezervă și instalarea de software și actualizări. Mai mulți sunt implicați aici versiuni diferite Mozilla Firefox Installer și WinZip Pro 14.5.



Sub diferite modele de utilizare, un procesor cu microarhitectura Bulldozer demonstrează rezultate fundamental diferite. În unele cazuri se dovedește a fi chiar mai lent decât Phenom II X6, dar există și situații opuse. În general, regula generală este următoarea: avantajul FX-8150 devine deosebit de vizibil acolo unde volumul de lucru este multi-threaded și bine paralelizat, dar nu complex din punct de vedere computațional.

Cu toate acestea, chiar și în cele mai favorabile situații, FX-8150 rămâne în urmă cu Core i5-2500. Singurul scenariu în care aceste procesoare sunt comparabile ca viteză este randarea 3D. În medie, oferta Intel este în fața noului produs AMD cu o impresionantă 25%. Din nefericire.

Performanța jocurilor

După cum știți, performanța platformelor echipate cu procesoare de înaltă performanță în marea majoritate a jocurilor moderne este determinată de puterea subsistemului grafic. De aceea, atunci când testăm procesoarele, încercăm să efectuăm teste în așa fel încât să îndepărtăm cât mai mult posibil încărcarea de pe placa video: sunt selectate cele mai multe jocuri dependente de procesor, iar testele sunt efectuate fără a activa anti- aliasing și cu setări care nu sunt la cele mai înalte rezoluții. Adică, rezultatele obținute fac posibilă evaluarea nu atât a nivelului de fps realizabil în sistemele cu plăci video moderne, cât a cât de bine performează procesoarele cu o sarcină de joc în principiu. Prin urmare, pe baza rezultatelor prezentate, este foarte posibil să se speculeze cum se vor comporta procesoarele în viitor, când mai multe opțiuni rapide acceleratoare grafice.


















Jocurile nu aparțin categoriei de sarcini care generează o încărcare multi-threaded paralelizată. Prin urmare, pentru aplicațiile de gaming de astăzi sunt mai potrivite procesoarele cu patru nuclee, și nu acele monștri multi-core pe care le oferă AMD. Vedem o ilustrare clară a acestei afirmații în diagramele de mai jos. Noul FX-8150 cu opt nuclee nu este mai rapid decât predecesorul său cu șase nuclee, Phenom II X6.

În ceea ce privește raportul de performanță în jocuri între Zambezi și Sandy Bridge, AMD este încă mult mai pesimist pentru noul produs. Actuala microarhitectură a procesoarelor Intel gestionează mult mai bine volumul de lucru tipic generat de jocurile 3D și nu există nicio speranță că AMD va putea vreodată să ajungă din urmă procesoarelor concurenților din această categorie de sarcini. Cu alte cuvinte, utilizarea Bulldozerului în sistemele de jocuri poate avea sens numai atunci când există încredere că performanța unui anumit procesor este suficientă pentru un anumit subsistem video într-un anumit set de jocuri. Cu toate acestea, chiar și în acest caz, trebuie să realizați că odată cu următorul upgrade al acceleratorului video, este posibil să rămâneți într-un dezavantaj serios în comparație cu acei utilizatori care au preferat inițial platforma și procesoarele Intel moderne.

În plus față de teste de jocuri De asemenea, vom prezenta rezultatele benchmark-ului sintetic Futuremark 3DMark 11, lansat cu profilul Extreme.



Scopul adăugării acestor rezultate a fost acela de a arăta situația ideală pentru FX-8150, când subsistemul video nu permite ca puterea procesorului să fie realizată pe deplin. Aici sarcina principală cade pe placa video, iar procesorul joacă doar un rol de sprijin. În astfel de cazuri, putem vorbi despre performanța egală a procesoarelor Bulldozer și Sandy Bridge, deși, desigur, acest lucru nu este în întregime adevărat.



Cu toate acestea, FX-8150 arată bine (comparativ cu rezultatele anterioare) în testul fizic 3DMark 11. model fizic Noul procesor cu opt nuclee de la AMD rulează la viteze comparabile cu Core i5-2500 cu patru nuclee.

Teste în aplicații

În general, media ponderată a lui Bulldozer și performanța de joc pe desktop au fost cu mult sub așteptările noastre. Cu toate acestea, să nu disperăm și să încercăm să găsim acele cazuri în care noua microarhitectură AMD este capabilă să-și arate punctele forte.

Pentru a măsura viteza procesoarelor la comprimarea informațiilor, folosim arhivatorul WinRAR, cu ajutorul căruia arhivăm un folder cu diverse fișiere cu un volum total de 1,4 GB cu raportul de compresie maxim.



Rezultatul FX-8150 este aproape de Core i5-2500. WinRAR nu este una dintre aplicațiile care își pot paraleliza calculele în toate cele opt nuclee Bulldozer, dar memoria cache gigantică pare să salveze ziua.

Al doilea test similar pentru viteza de arhivare este efectuat în programul 7-zip, folosind algoritmul de compresie LZMA2.



În 7-zip, performanța lui FX-8150 este lăudabilă. Acest procesor cu opt nuclee reușește să se apropie de viteza quad-core Core i7-2600, care include suport pentru Hyper-Threading și care, la fel ca Bulldozer, poate executa opt fire simultan.

Performanța de criptare a procesoarelor este măsurată prin benchmark-ul încorporat al popularului utilitar criptografic TrueCrypt. Trebuie remarcat faptul că nu numai că este capabil să încarce eficient orice număr de nuclee cu lucru, dar acceptă și un set specializat de instrucțiuni AES.



Microarhitectura Bulldozer are nevoie de algoritmi întregi simpli, bine paraleli. În astfel de cazuri, după cum vedem, pot fi obținute performanțe foarte remarcabile. În special, când vine vorba de criptare, FX-8150 rămâne doar în urma lui Core i7-990X cu șase nuclee și este înaintea tuturor procesoarelor pentru platforma LGA1155.

La testarea vitezei de transcodare audio, se folosește utilitarul Apple iTunes, care convertește conținutul unui CD în format AAC. observa asta trăsătură caracteristică Acest program poate folosi doar câteva nuclee de procesor.



Este mai bine să păstrați programele care generează un număr mic de fire de calcul departe de Bulldozer. Unele nuclee ale acestui procesor sunt prea slabe pentru a arăta rezultate decente în astfel de cazuri.

Măsurăm performanța în Adobe Photoshop folosind propriul nostru test, care este o reelaborare creativ Test de viteză Photoshop pentru artiștii de retuşare, care implică procesarea tipică a patru imagini de 10 megapixeli realizate cu o cameră digitală.



În Photoshop, performanța lui FX-8150 nu este la fel de dezastruoasă ca cea a procesoarelor cu microarhitectură K10, dar este încă mult sub Core i5-2500. Evident, o memorie cache mare este un bun ajutor pentru microarhitectura Bulldozer în acest caz, dar numai asta nu te va duce departe. Eficiența și performanța specifică a nucleelor ​​de calcul este încă de o importanță capitală.

L-am testat și în programul Adobe. Photoshop Lightroom 3. Scenariul de testare include post-procesarea și exportul în JPEG a o sută de imagini de 12 megapixeli în format RAW.



Lightroom poate paraleliza procesarea foto pe orice număr de nuclee și, prin urmare, FX-8150 cu opt nuclee arată rezultate bune aici. Cu toate acestea, „nu e rău” este un concept relativ în acest caz; de fapt, performanța sa este comparabilă doar cu Core i5-2500. Aceasta înseamnă că două miezuri Bulldozer sunt egale cu un miez Sandy Bridge fără suport Hyper-Threading.

Performanța în Adobe Premiere Pro este testată prin măsurarea timpului de randare în format H.264 Blu-Ray al unui proiect care conține video HDV 1080p25 cu diferite efecte aplicate.



Procesoarele AMD au făcut față bine și transcodării video generatia precedenta. Microarhitectura Bulldozer a permis o ușoară creștere a performanței în aplicații de această natură și, ca urmare, FX-8150 este chiar mai rapid decât Core i5-2500.

Viteza de editare video folosind Adobe After Effects a fost evaluată prin măsurarea timpului de rulare a unui set predefinit de filtre și efecte, inclusiv estompare, crearea de denivelări, amestecarea cadrelor, crearea strălucirii, adăugarea de focalizare în mișcare, umbrire, manipulare 2D și 3D, inversare, etc.



În ciuda faptului că încărcarea este bine paralelizată, FX-8150 rămâne în urma concurenților Intel în After Effects.

Pentru a măsura viteza de transcodare video în format H.264 se folosește testul x264 HD, bazat pe măsurarea timpului de procesare a video sursă în format MPEG-2, înregistrat la rezoluție 720p cu un flux de 4 Mbit/sec. Trebuie remarcat faptul că rezultatele acestui test sunt de mare importanță practică, deoarece codecul x264 utilizat în acesta stă la baza numeroaselor utilitare de transcodare populare, de exemplu, HandBrake, MeGUI, VirtualDub etc.






La transcodarea video cu codecul x264, procesoarele AMD au arătat întotdeauna performanțe bune. Odată cu lansarea microarhitecturii cu opt nuclee, rezultatele lor au crescut și mai mult, iar acum FX-8150 depășește chiar și Core i7-2600 în a doua trecere de codare, cea mai consumatoare de resurse. Așa că, cu o dificultate considerabilă, am găsit în sfârșit o a doua aplicație, pe lângă TrueCrypt, unde performanța unui procesor cu microarhitectura Bulldozer merită recenzii măgulitoare.

Măsurăm performanța de calcul și viteza de randare în Autodesk 3ds max 2011 folosind testul specializat SPECapc. Începând cu această testare începem să folosim noua versiune profesională a SPECapc pentru 3ds Max 2011.






Redarea este, de asemenea, una dintre sarcinile supuse optimizării pentru microarhitecturile multi-core. Dar, în ciuda acestui fapt, FX-8150 este încă mai lent decât Core i5-2500 și Core i7-2600, ca să nu mai vorbim de Core i7-990X. Pe de altă parte, este o situație rușinoasă când procesor nou AMD pierde în fața predecesorului său, dar acest lucru nu se observă aici.

Medierea rezultatelor obținute în aplicatii individuale, putem spune că pe setul nostru de aplicații FX-8150 a fost cu aproximativ 14% mai rapid decât Phenom II X6 1100T. Și acest lucru i-a permis să funcționeze nu mai rău decât Core i5-2500 în puțin mai puțin de jumătate din cazuri. Cu toate acestea, decalajul cu următorul model Sandy Bridge, Core i7-2600, rămâne semnificativ și se ridică la peste 10%.

Consumul de energie

În ciuda faptului că am reușit să găsim un set de sarcini în care performanța Bulldozerului poate fi numită acceptabilă, procesoarele bazate pe noua microarhitectură nu par deloc revoluționare. Singura speranță rămâne pentru consumul de energie, pentru că anterior procesoarele AMD erau mai mult decât semnificativ inferioare concurenților lor în acest parametru. Acum, dacă credeți promisiunile dezvoltatorilor, microarhitectura a devenit mai concentrată pe eficiența energetică, iar noul proces tehnologic de 32 nm ar fi trebuit să contribuie la îmbunătățirea caracteristicilor electrice. Deci, să ne uităm la FX-8150 prin prisma performanței pe watt.

Următoarele grafice, dacă nu este menționat altfel, arată consumul total al sistemului (fără monitor), măsurat „după” sursa de alimentare și reprezentând suma consumului de energie al tuturor componentelor implicate în sistem. Eficiența sursei de alimentare în sine nu este luată în considerare în acest caz. În timpul măsurătorilor, sarcina procesoarelor a fost creată de versiunea pe 64 de biți a utilitarului LinX 0.6.4. În plus, pentru a estima corect consumul de energie inactiv, am activat toate tehnologiile disponibile de economisire a energiei: C1E, C6, AMD Cool"n"Quiet și Enhanced Intel SpeedStep.



Când sunt inactiv, consumul sistemelor cu procesoare construite pe microarhitectura Bulldozer a devenit mai mic decât cel al sistemelor similare cu procesoare din familia Phenom II. Cu toate acestea, sistemele moderne Intel LGA1155 consumă mult mai puțin în modul inactiv.



În cazul în care sarcina de calcul este single-threaded, consumul sistemelor Socket AM3+ crește brusc, evident datorită agresivității ridicate a tehnologiei Turbo Core. Acesta nu este cazul sistemelor construite pe procesoare Intel și se pot lăuda din nou cu o eficiență energetică semnificativ mai mare.



Cu o încărcare completă cu mai multe fire, situația nu este mult diferită. Este doar sistemul cu procesorul LGA1366 Core i7-990X care „a luat-o înainte”. În rest, totul este ca înainte. În ceea ce privește consumul de energie, FX-8150 nu se laudă cu un succes deosebit. A început să consume ceva mai puțin decât Phenom II X6 1100T, dar procesoarele Sandy Bridge sunt de cel puțin o dată și jumătate mai economice.

AMD a folosit toată eficiența energetică câștigată prin introducerea unei noi microarhitecturi pentru a crește frecvențele de ceas. Și, ca urmare, nu vedem niciunul nou nivel eficiență și nici performanță îmbunătățită fundamental. În consecință, în ceea ce privește performanța pe watt, Bulldozer, ca și predecesorii săi, este serios inferior microarhitecturilor concurente de la Intel.

Pentru referință, vă prezentăm consumul la sarcină maximă, măsurat separat în circuitele procesorului și de alimentare. placa de baza.






Consumul „pur” al FX-8150 cu opt nuclee este de aproximativ de două ori mai mare decât cel al procesoarelor Sandy Bridge. Având în vedere că ambele procesoare sunt fabricate folosind același proces tehnologic și au tensiuni de bază similare, devine incredibil de interesant ce a vrut să spună AMD când au vorbit despre eficiența energetică a microarhitecturii Bulldozer.

Overclockare

Platforma Socket AM3+ și procesoarele din seria FX sunt poziționate inițial ca overclockere. Acest lucru este evidențiat atât de deblocarea completă a tuturor multiplicatorilor, cât și de experimentele efectuate sub auspiciile AMD, în care a fost stabilit un record mondial de overclock folosind unul dintre procesoarele FX-8150. Declarațiile companiei că noua microarhitectură este optimizată pentru funcționarea la frecvențe înalte de ceas par, de asemenea, promițătoare. Chiar vom primi un nou miracol de overclocking de la AMD? Sa verificam.

Overclockarea oricărui procesor FX este foarte simplă; nu degeaba „Unlocked” este scris direct pe sigla lor. Frecvența de funcționare a procesorului poate fi modificată printr-un multiplicator sau prin Configurarea BIOS-ului, sau prin utilități specializate furnizate atât de AMD în sine (Overdrive Utility), cât și de producătorii de plăci de bază. În mod similar, în sistemele Socket AM3+, puteți overclocka Northbridge-ul și memoria integrată în procesor.

În timpul testării, am reușit să obținem o funcționare stabilă a FX-8150-ului nostru la o frecvență de 4,6 GHz. Pentru a asigura stabilitatea în această stare, tensiunea de alimentare a procesorului a trebuit să fie crescută la 1,475 V și, în plus, a fost necesară activarea funcției Load-Line Calibration. În timpul testelor de stabilitate, temperatura procesorului care funcționează la această frecvență nu a depășit 85 de grade conform senzorului socket sau 75 de grade conform senzorului încorporat în procesor. Pentru a elimina căldura, reamintim că a fost folosit un răcitor de aer eficient NZXT Havik 140.



Vă rugăm să rețineți că, în același timp, am încercat să overclockăm podul de nord încorporat în procesor, deoarece creșterea frecvenței sale are un efect pozitiv asupra vitezei cache-ului de nivel al treilea și a controlerului de memorie. Cu toate acestea, din păcate, overclockarea semnificativă a acestui nod de procesor a întâlnit o barieră invizibilă și nu a putut atinge o frecvență peste 2,4 GHz, deși am încercat simultan să-i creștem tensiunea de alimentare.

În orice caz, overclockarea FX-8150 la 4,6 GHz este un rezultat bun, mai ales având în vedere faptul că procesoarele AMD din familia Phenom II au fost rareori overclockate în aer peste 4,0 GHz. Cu alte cuvinte, microarhitectura Bulldozer a făcut de fapt posibilă împingerea limită de frecvență mai sus.

Cu toate acestea, overclockarea procesoarelor FX ar trebui comparată, în primul rând, nu cu vechiul Phenom II, ci cu procesoarele concurente Core i5 și Core i7 pentru sisteme LGA1155. Dar, în mod clar, nu se accelerează mai rău. De exemplu, un overclocking destul de tipic pentru Core i5-2500K cu creșterea tensiunii cu 0,15 V peste valoarea nominală și folosind răcitor de aer- aceasta este 4,7 GHz. Și pe acest fundal, rezultatul FX-8150 nu mai pare atât de strălucit.

Impresia de overclockare Zambezi se deteriorează și mai mult dacă comparăm performanța overclock-ului FX-8150 și overclock-ului Core i5-2500K (creșterea performanței față de modul nominal este indicată în paranteze):



În general, overclockarea nu schimbă calitatea rezultatelor. Dar acolo unde FX-8150 a fost mai rapid în modul nominal, decalajul sa redus. Și acolo unde Core i5-2500 era în frunte, și-a consolidat avantajul. Nu este surprinzător: frecvența lui FX-8150 la overclock a crescut cu 28%, în timp ce creșterea frecvenței a lui Core i5-2500K a fost de 42%. Și, în general, după cum se poate aprecia după mărimea câștigului de performanță din overclocking, microarhitectura Sandy Bridge reacționează mai sensibil la creșterea frecvențelor. Cu alte cuvinte, chiar dacă ținem cont de overclocking, procesoarele cu microarhitectura Bulldozer, deși overclockează destul de bine, nu arată mai puternice decât concurenții Intel.

concluzii

Succes sau eșec? Cu siguranță mulți dintre voi vor să vadă un verdict clar la sfârșitul articolului. Cu toate acestea, în acest caz, totul este foarte ambiguu, iar AMD a pus recenzenții într-o poziție foarte dificilă cu Bulldozer-ul său.

Faptul este că AMD a demonstrat o abordare complet non-standard a dezvoltării microarhitecturii. Având în vedere că performanța procesorului constă din trei componente: numărul de instrucțiuni executate în nucleul procesorului pe ciclu de ceas, frecvența și numărul de nuclee, dezvoltatorii și-au mutat prioritățile la numărul de nuclee. În același timp, performanța specifică a nucleelor ​​individuale a fost redusă, dar designul rezultat a deschis calea spre crearea de procesoare ieftine cu opt nuclee sau chiar mai complexe. Aceasta este o mișcare foarte puternică pentru piața de servere, unde încărcăturile multi-threaded domină locul și procesoarele cu un număr mare de nuclee sunt foarte solicitate. Deci, este foarte probabil ca noua microarhitectură Bulldozer să permită AMD să-și îmbunătățească semnificativ poziția pe piața serverelor de performanță.

Cu toate acestea, astăzi ne-am familiarizat cu procesorul FX, construit pe această microarhitectură, dar vizat computere desktop. Și aici a devenit pe deplin evidentă discrepanța dintre capacitățile hardware ale Bulldozer și sarcinile de lucru tipice pentru desktop. Este deosebit de dezamăgitor faptul că campania de marketing a fost structurată în așa fel încât mulți au crezut în Bulldozer ca o stea în ascensiune pe piața desktop-urilor. Cu toate acestea, aceste speranțe nu erau destinate să devină realitate.


Procesoarele FX, care se bazează pe microarhitectura Bulldozer, și-au putut demonstra punctele forte doar într-un mic subset de soluții rezolvate. utilizatorii obișnuiți sarcini. Printre aplicațiile obișnuite, nu există multe exemple care generează o sarcină de lucru cu mai multe fire întregi, iar performanța ridicată a Bulldozer este dezvăluită doar în acest caz. Drept urmare, în unele cazuri, Bulldozer s-a dovedit a fi nu numai mai lent decât soluțiile concurente de la Intel, ci chiar mai rău decât procesorul Phenom II X6, construit pe microarhitectura generației anterioare. Și asta înseamnă că AMD nu a reușit să producă un procesor desktop revoluționar.

De fapt, FX este doar următorul Phenom, care pare a fi destul de bun în sine, mai ales în comparație cu predecesorii săi. Procesoarele FX sunt în general mai rapide decât Phenom II, overclockează semnificativ mai bine și au un consum puțin mai mic, așa că pot fi considerate un bun înlocuitor pentru purtătorii microarhitecturii învechite K10.

Cu toate acestea, permiteți-ne să vă reamintim că AMD este în război nu numai cu sine, ci și cu Intel. Prin urmare, suntem încă forțați să exprimăm concluzia dezamăgitoare că procesoarele FX au un adevărat sens doar în acele desktop-uri care se concentrează pe procesarea și transcodarea video. În alte cazuri, în comparație cu procesoarele Sandy Bridge, performanța lor pare rareori încurajatoare. Același lucru se poate spune despre consumul de energie și overclocking. Separat, trebuie adăugat că procesoarele AMD FX, așa cum era de așteptat, s-au dovedit a fi o opțiune proastă pentru sistemele de jocuri, deoarece jocurile moderne 3D practic nu folosesc algoritmi cu adevărat multi-threaded. Cu toate acestea, fanii produselor AMD vor putea, probabil, să suporte acest lucru, având în vedere că numărul de cadre pe secundă în jocuri este adesea limitat de grafică, nu de procesor.

Cu alte cuvinte, perspectivele pieței pentru procesoarele FX vor depinde de doi factori: cât de mare este armata de adepți AMD; și despre cât de priceput va gestiona producătorul pârghia de preț. Cu toate acestea, procesoarele desktop cu microarhitectura Bulldozer nu sunt de așteptat să devină foarte populare.

După cum știți, Intel a aderat la strategia de dezvoltare „Tick-Tock” de mai bine de cinci ani, schimbând procesul de producție în ani impari și microarhitectura în ani pare. AMD urmează o politică complet diferită, îmbunătățindu-și modelele pe măsură ce noile tehnologii sunt gata. Asa de, Ultima actualizare Compania a realizat microarhitectură în urmă cu aproape patru ani, lansând CPU Phenom pe K10, care de atunci a stăpânit trei procese tehnice - 65 nm pentru Agena, 45 nm pentru Deneb și 32 nm pentru Llano. Totuși, mai devreme sau mai târziu potențialul oricărei dezvoltări se epuizează și necesitatea reînnoirii sale radicale devine urgentă.

Și, spre deosebire de Intel, care își reîmprospătează sistematic microarhitectura la fiecare doi ani, AMD preferă să facă acest lucru ceva mai rar, dar introducând mai multe modificări și îmbunătățiri. De fapt, de la apariția primului Athlon pe K7, au existat doar două actualizări, dar semnificative și radicale - K8, introdus în 2003 și care a devenit baza pentru Athlon 64, și deja menționatul K10, în Familiile Phenom și Athlon II. Da, compania a crescut ulterior frecvențele, cache-urile și numărul de nuclee din produsele sale, schimbate procese tehnologice, dar structura lor, care este baza și „inima” întregilor familii de procesoare, a rămas de neclintit.

Puțină teorie

Noua microarhitectură Bulldozer, care debutează în procesoarele AMD FX, diferă semnificativ de precedenta - K10 și, în plus, nu se încadrează în strategia actualizărilor anterioare, când inginerii au căutat să-și corecteze deficiențele și să-și sublinieze avantajele. Privind la K10, s-ar putea vedea în el contururile și topologia generală a K8 și K7, iar dacă facem același lucru cu Sandy Bridge, atunci în acesta din urmă se pot observa o serie de caracteristici ale Nehalem și Conroe anterioare.

Și dacă iei Bulldozer, observi imediat că este de fapt complet diferit atât de K10, cât și de alte microarhitecturi compatibile x86. În comparație cu predecesorii săi, noul produs arată nu mai puțin neobișnuit decât un avion împotriva unui elicopter. Să ne uităm la asta mai detaliat, dar voi face imediat o rezervă că voi încerca să explic esența și natura schimbărilor fără a intra în jungla tehnică și subtilități, deoarece pentru majoritatea este plictisitor și neinteresant, iar cei care au nevoie de ea știu deja unde să găsească informațiile de care sunt interesați.

Principala diferență între Bulldozer și alte microarhitecturi de procesoare actuale este aspectul nucleelor ​​x86, care sunt acum situate în perechi într-un „modul” și împart resursele rămase între ele - unitatea de calcul reală (FPU), cache-ul de al doilea nivel ( L2) și așa-numitul „front end”, acesta din urmă va fi discutat mai jos. Astfel, fiecare modul al noii microarhitecturi este ceva între un CPU dual-core convențional și un nucleu de procesor cu Hyper-Threading.

Într-un fel, aceasta este chiar o dezvoltare a ideii de Hyper-Threading, dar spre deosebire de aceasta, în care două fire „împart” aceeași cantitate de resurse hardware, în modulul Bulldozer două fire împărtășesc unele dintre resurse și unele le sunt date pentru uz propriu.Dar echilibrul ales corect, toate blocurile „grele” și „scumpe” (din punctul de vedere al bugetului tranzistorului) sunt distribuite între două nuclee, iar nucleele x86 în sine sunt duplicate, deoarece doar aproximativ 12% din numărul total de tranzistori din modul este cheltuit pentru fiecare dintre ele.

Din punctul de vedere al efectuării operațiilor cu numere întregi și adrese, fiecare modul reprezintă două nuclee cu drepturi depline și independente, între care resursele FPU sunt împărțite în timpul calculelor reale. Aceste aceleași nuclee servesc de fapt FPU, trimițându-i instrucțiuni pentru execuție, încărcare și descărcare a datelor, stocarea și eliminarea MOP-urilor, deoarece firele de execuție de calcul, mecanismele de execuție a comenzilor în afara ordinii și cache-urile de date de prim nivel (L1D) sunt legate de lor.

Evident, principalul avantaj al acestei scheme față de un singur nucleu este performanța crescută la sarcini multi-threaded, în special cu accent pe calculele întregi. Să încercăm să ne uităm la principalele blocuri ale Bulldozerului mai detaliat.

În față

De fapt, „front end” este un set de dispozitive logice care pregătesc instrucțiuni pentru execuție pe dispozitivele de calcul. Include unități de predicție a ramurilor, a căror precizie afectează cât de des va fi inactiv CPU-ul în timp ce așteaptă transferul datelor necesare din RAM sau cache, un cache de instrucțiuni de prim nivel (L1I) și un decodor care „traduce” instrucțiuni x86 în cele de înțeles.pentru actuatoare tipul este MOP-uri.

Modificările care au afectat aceste blocuri sunt controversate. Pe de o parte, acuratețea predicțiilor de tranziție a crescut. Când se decodifică din cache, datele sunt citite în bucăți de 32 de octeți, cum ar fi K10, care este bun și de două ori mai mult decât Sandy Bridge. Instrucțiunile sunt acum procesate de patru canale, în loc de trei, ca în K7-K10. Și aceasta este una dintre cele mai importante și mult așteptate îmbunătățiri ale microarhitecturii. Dar AMD a introdus abia acum un decodor cu patru canale, în timp ce Intel l-a introdus acum cinci ani în Conroe (Core2). În același timp, memoria cache de instrucțiuni are de fapt aceeași dimensiune și asociativitate (64 KB, 2-way) ca în K10, unde a migrat fără modificări speciale de la K7.

De asemenea, nu uitați că acum atât memoria cache de instrucțiuni, cât și decodorul vor fi necesare nu de unul, ci de două fire, astfel încât capacitățile lor pot fi împărțite condiționat la jumătate în timpul unei încărcări intensive cu mai multe fire. Pentru a rezuma, putem spune că noul „front end” arată mai bine în anumite privințe și mai rău în unele privințe decât predecesorii săi și își va demonstra punctele forte și punctele slabe în funcție de natura sarcinii.

nuclee X86

Aceste blocuri, în cantitate de două pe modul, sunt tocmai trăsătura distinctivă a Bulldozerului și permit unui modul să proceseze două fluxuri de instrucțiuni.De fapt, ele concentrează principalele dispozitive de nuclee x86 cu un mecanism de necomandă. executarea comenzilor (Out-of-Order Execution), și anume un buffer de MOP-uri primite de la decodor (Sheduler), un dispozitiv pentru retragerea instrucțiunilor executate (Retire), unitățile de execuție întregi în sine și dispozitivele de generare a adreselor (ALU și AGU), două bucăți per nucleu x86, precum și memoria cache de date de la primul nivel (L1D) și unitatea de descărcare de încărcare (LSU).

În multe privințe, miezul x86 Bulldozer seamănă cu blocul întreg K10, dar există o serie de modificări vizibile și controversate. În primul rând, numărul de ALU și AGU a fost redus de la trei la două, în comparație cu K10. Pe de o parte , aceasta este o scădere a performanței teoretice de vârf într-un timp și jumătate, pe de altă parte, este aproape imposibil să o stoarceți în practică, deci pierderea nu este mare, deși există. În al doilea rând, memoria cache a datelor a devenit de patru ori mai mic decât cel al lui K10, 16 KB în loc de 64 KB, dar asociativitatea sa a crescut de la două căi la patru.Deci putem numi acest lucru un schimb justificat de volum cu viteză.

Ei bine, LSU a devenit mai bun în toate, atât capacitatea nominală, cât și cea efectivă a bufferelor a crescut semnificativ, iar capacitatea de biți a operațiunilor de scriere s-a dublat.

FPU

Poate unul dintre cele mai importante blocuri ale procesorului - blocul de calcul real, este responsabil, după cum ați putea ghici, pentru efectuarea operațiunilor în virgulă mobilă, precum și pentru executarea seturilor de instrucțiuni SSE ale tuturor versiunilor, AVX, FMA și instrucțiuni individuale. De fapt, FPU-ul Bulldozer este cel mai puternic și mai funcțional astăzi și, în mare măsură, datorită acestuia, AMD speră să învingă soluțiile Intel concurente bazate pe microarhitectura Sandy Bridge.

Baza FPU Bulldozer sunt două dispozitive FMAC, fiecare cu o capacitate de 128 de biți. Spre deosebire de K10, unde erau operațiile de adunare și înmulțire diferite dispozitive, acestea sunt universale și sunt capabile să execute întreaga gamă de comenzi acceptate. Putem spune că AMD a trecut de la un design de actuator FPU asimetric la unul simetric. În cazul partajării resurselor între două nuclee x86, fiecare poate funcționa cu propriul dispozitiv FMAC.

Singura excepție este executarea comenzilor AVX pe 256 de biți, caz în care ambele dispozitive de calcul efectuează această operație ca o singură unitate. Mai mult decât atât, este de remarcat faptul că, dacă cu operațiunile AVX cu o capacitate de 256 de biți, performanța sa pe ciclu de ceas este egală cu FPU Sandy Bridge, atunci când capacitatea operațiunilor AVX este redusă la 128 de biți, viteza de execuție a acestora este de două ori mai mare. înalt.

Pe lângă viteză, merită să ne amintim funcționalitatea. După cum s-a menționat deja, blocul de calcul real Bulldozer acceptă comenzi FMA (fused multiply-add) de forma A = B x C + D. În plus, rezultatul înmulțirii nu este rotunjit înainte de adunare, ceea ce are un efect pozitiv asupra preciziei calcule.În general, putem spune că FPU-ul este mai bun din toate punctele de vedere decât în ​​microarhitecturile AMD anterioare, iar inginerii pot fi mândri de munca lor.

Caches și Northbridge

Subsistemul cache a suferit, de asemenea, câteva modificări importante în comparație cu K10. După cum sa menționat deja, memoria cache de date de la primul nivel (L1D) a tranzacționat capacitatea pentru asociativitate, iar memoria cache de instrucțiuni (L1I) a rămas practic neschimbată. Cache-ul de al doilea nivel (L2), care anterior era folosit doar de un nucleu, este acum partajat de două nuclee x86 ale modulului. În plus, dimensiunea cache-ului L2 a crescut de la 512 KB la 2 MB, comparativ cu K10. Nivelul de asociativitate a rămas același, cu 16 direcții.

Aceasta înseamnă că procesorul cu opt nuclee și patru module cu microarhitectura Bulldozer utilizează patru cache de nivel al doilea, cu o capacitate totală de 8 MB. Dar, cel mai probabil, creșterea volumului și nevoia de împărțire a resurselor între două nuclee au lăsat și o amprentă negativă asupra timpului de acces la cache-ul de al doilea nivel. Cache-ul de al treilea nivel și controlerul de memorie, precum K10, funcționează la frecvența proprie, mai mică decât frecvențele modulelor. Pentru procesoarele anuntate este de 2-2,2 GHz, in functie de model. Este mai puțin decât Sandy Bridge, unde controlerul de memorie integrat și memoria cache L3 funcționează la viteza de bază. Cache-ul de nivel al treilea al Bulldozerului este acum de 8 MB, iar asociativitatea sa este de 64 de căi, ceea ce este cu o treime mai mult decât cel al lui Deneb (6 MB și, respectiv, 48 de căi).

De asemenea, merită amintit că memoria cache a procesoarelor AMD este organizată conform așa-numitei scheme exclusive, atunci când datele din cache-urile de diferite niveluri nu sunt duplicate și volumul total al tuturor acestora poate fi considerat eficient. Rezumând cache-urile, voi spune că modificările în L1 și L2 sunt semnificative, dar ambigue, iar L3 arată ca o dezvoltare logică a dezvoltărilor K10.

Controlerul de memorie CPU AMD FX nu a suferit modificări semnificative; este încă dual-channel, iar frecvența suportată nativ a modulelor de memorie DDR3 a crescut la 1866 MHz.

Turbo Core 2.0

Tehnologia de auto-overclocking care a debutat în modelele AMD Phenom II X6 a fost îmbunătățită semnificativ și este mult similară cu cea găsită în linia Sandy Bridge. A apărut în procesor bloc special, care monitorizează consumul curent al procesorului și încărcarea nucleului și, pe baza acestor informații, modifică frecvențele nucleelor ​​modulelor. Dacă consumul CPU nu depășește TDP, atunci frecvențele tuturor nucleelor ​​pot fi crescute deasupra bazei cu o valoare dată.

De exemplu, pentru AMD FX-8150 frecvența crește de la 3,6 GHz standard la 3,9 GHz pentru toate cele opt nuclee. Iar atunci când consumul procesorului este sub TDP, iar unele dintre nuclee sunt și ele inactive, atunci frecvențele nucleelor ​​încărcate pot crește și mai mult, până la 4,2 GHz, în cazul AMD FX-8150. Pentru dreptate, merită să reamintim că o tehnologie similară este utilizată în AMD Llano, care ia în considerare consumul nu numai al nucleelor ​​CPU, ci și al procesorului grafic integrat.

Teorie – concluzie

Ce putem spune pentru a rezuma noua microarhitectură? După cum sa arătat deja mai sus, există o mulțime de schimbări, toate profunde și ambigue. Nu există nicio îndoială că Bulldozer este noua microarhitectură AMD. Acest lucru înseamnă, de asemenea, că se poate arăta foarte ambiguu, demonstrând în unele locuri performanțe puțin mai mici decât cele ale lui K10, iar în altele mult mai mult.

Cu toate acestea, din punctul de vedere al suportului pentru seturi de instrucțiuni moderne și tehnologii pentru creșterea automată a frecvențelor, țintind sarcini de lucru multi-threaded, noua dezvoltare a AMD nu este inferioară concurentului său - Sandy Bridge și, în unele cazuri, pare și mai profitabilă. Și deși se observă că Bulldozer are întreaga linie puncte slabe, acestea pot fi eliminate cu ușurință în viitor.

Aceasta va fi probabil baza strategiei companiei pentru anii următori. Buldozerul poate fi considerat o investiție în viitor; este scheletul următoarelor microarhitecturi care vor dobândi „carne” și vor oferi câștiguri de performanță. Conform planurilor actuale, AMD va actualiza anual, și nu la câțiva ani, microarhitectura procesoarelor sale, ceea ce ar trebui să aibă ca rezultat o creștere cu 10-15% a performanței și o eficiență energetică sporită a soluțiilor viitoare.

Separat, aș dori să menționez un punct privind distribuția firelor de calcul între nuclee. Windows 7 în forma sa actuală nu are optimizare pentru procesoarele cu microarhitectura Bulldozer și nu este capabil să distribuie corect firele de execuție, ceea ce duce în unele cazuri la pierderea performanței, deoarece procesorul nu poate folosi tehnologii de creștere a frecvenței sau firele de calcul dependente schimbă date prin L3 , și nu mai rapid L2, deoarece erau legați de nucleele diferitelor module.

AMD în materialele sale indică faptul că programatorul Windows 8 poate funcționa deja corect cu Bulldozer, iar avantajul de performanță față de Windows 7 poate ajunge în unele cazuri până la 10%, ceea ce, vedeți, este destul de mult. Cu toate acestea, poate că Microsoft va lansa un patch pentru „șapte”, care va învăța acest lucru popular sistem de operare distribuiți corect firele de execuție pentru noile procesoare AMD.

Acum este momentul să închei cu teoria și să vezi ce te poate mulțumi noua navă amiral AMD în practică.

Instrumente și metodologie de testare

Viteza combinației procesor-chipset-memorie a fost evaluată prin următoarele aplicații:

  • Cinebench 10;
  • Cinebench 11.5;
  • Pov-Ray Toate CPU Total secunde;
  • TrueCrypt Serpent-Twofish-AES;
  • wPrime 2.00;
  • x264 v3(versiune învechită, fără optimizări agresive pentru multithreading);
  • x264 v4 (o nouă versiune, bine optimizat pentru multithreading cu codecuri noi);
  • WinRAR;
  • Photoshop CS5 x64(folosind o secvență de câteva zeci de filtre);
  • Autodesk Revit Architecture 2012(vizualizarea unui desen 3D al unei case).

Stand de testare

Mai multe sisteme au participat la testare folosind un set mare de componente, inclusiv plăci de bază. Tabelul de mai jos vă va permite să vă familiarizați cu o descriere completă a standurilor, precum și cu modurile de funcționare ale configurațiilor.

maternă
a plati
N.B.ChipsetFrecvență
memorie
Cantitate
miezuri
Frecvență
cauciucuri
FactorTurboNumele procesorului
/mode
ASUS Crosshair V 2200 FX990 1333 8 200 21 4200 MHzFX 8150
3600 MHz
MSI 990FXA-GD80 2000 FX990 1333 6 200 16.5-18.5 3700 MHzFenomul II 1100
3300 MHz
MSI 990FXA-GD80 2000 FX990 1333 4 200 18.5 - Fenomul II 980
3700 MHz
MSI 990FXA-GD80 2000 FX990 1333 4 200 15.5 - Athlon II 645
3100 MHz
MSI A75MA-G55 - A75 1333 4 100 29 - A8 3850
2900 MHz
MSI A75MA-G55 - A75 1333 4 100 24-27 2700 MHzA8 3800
2400 MHz
MSI A75MA-G55 - A75 1333 4 100 26 - A6 3650
2600 MHz
MSI A75MA-G55 - A75 1333 3 100 21-24 2400 MHzA6 3500
2100 MHz
MSI A75MA-G55 - A75 1333 2 100 27 - A4 3400
2700 MHz
MSI Z68A-GD80 - Z68 1333 4 100 34-38 3800 MHzi7 2600K
3400 MHz
MSI Z68A-GD80 - Z68 1333 4 100 33-37 3700 MHzi5 2500
3300 MHz
MSI Z68A-GD80 - Z68 1333 4 100 31-34 3400 MHzi5 2400
3100 MHz
ASUS P6X58D 2667 X58 1333 4 133 23 3060 MHzi7 930
2800 MHz
MSI Z68A-GD80 - Z68 1333 2 100 31 - i3 2100
3100 MHz
ASUS Crosshair V 2200 FX990 1866 8 200 21 4200 MHzFX 8150
3600 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 29 - A8 3850
2900 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 24-27 2700 MHzA8 3800
2400 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 26 - A6 3650
2600 MHz 1866
MSI A75MA-G55 - A75 1866 3 100 21-24 2400 MHzA6 3500
2100 MHz 1866
MSI A75MA-G55 - A75 1866 2 100 27 - A4 3400
2700 MHz 1866
MSI Z68A-GD80 - Z68 1866 4 100 34-38 3800 MHzi7 2600K
3400 MHz 1866
MSI Z68A-GD80 - Z68 1866 4 100 33-37 3700 MHzi5 2500
3300 MHz 1866
ASUS Crosshair V 2200 FX990 1866 8 200 22.5 - FX 8150
4500 MHz
MSI 990FXA-GD80 2380 FX990 1820 6 340 12.5 - Fenomul II 1100
4250 MHz
MSI 990FXA-GD80 2400 FX990 1600 6 200 21 - Fenomul II 1100
4200 MHz
MSI 990FXA-GD80 2400 FX990 1600 4 200 22.5 - Fenomul II 980
4500 MHz
MSI 990FXA-GD80 2240 FX990 1500 4 280 16 - Fenomul II 980
4480 MHz
MSI A75MA-G55 - A75 2000 4 150 29 - A8 3850
4350 MHz
MSI A75MA-G55 - A75 2040 4 153 27 - A8 3800
4133 MHz
MSI A75MA-G55 - A75 1900 4 142 26 - A6 3650
3700 MHz
MSI A75MA-G55 - A75 1900 3 142 24 - A6 3500
3400 MHz
MSI A75MA-G55 - A75 2050 2 154 27 - A4 3400
4160 MHz
MSI 990FXA-GD80 2170 FX990 1650 4 310 12 - Athlon II 645
3720 MHz
MSI Z68A-GD80 - Z68 1866 4 100 48 5000 MHzi7 2600K
5000 MHz
MSI Z68A-GD80 - Z68 1866 4 100 45 - i7 2600K
4500 MHz
ASUS P6X58D 3200 X58 1600 4 200 21 - i7 930
4200 MHz

  • RAM: capacitate 8 GB, (2x4). Timpări 9-9-9-24-2T, frecvență de la 1333 MHz la 2050 MHz, în funcție de setări și condiții de testare;
  • Placa video: AMD HD 6790;
  • Hard disk: SSD Crucial M4 128 GB;
  • Alimentare: Tagan TG1100-U95 1100 W;
  • Sistem de operare: Microsoft Windows 7 x64 Sp1.

Și trei moduri de testare:
1. Frecvențe nominale procesor, memorie 1333 MHz.
2. Frecvențe nominale ale procesorului, memorie 1866 MHz.
3. Overclocking, memoria funcționează la frecvențe diferite în funcție de multiplicator.

Rezultatele testului

Punctul de plecare a fost o configurație constând dintr-o placă de bază bazată pe chipset-ul 990FX, un procesor AMD FX 8150 și memorie care funcționează la 1333 MHz cu timpi de 9-9-9-24-2T.

Cinebench 10

Setări:

  • Test mono-file și multi-fir.
  • Profilul CPU.

Puncte

Mod nominal: Performanță 1 CPU | CPU multiplu

Un test folosind atât unul cât și toate miezurile nu arată cea mai bună situație pentru un începător, care se simte deplasat dacă sarcina cade pe un singur miez. Odată ce programul folosește toate nucleele, situația se schimbă semnificativ și devine un concurent direct pentru Intel i5-2500. Totuși, exact așa își poziționează AMD CPU-ul cu indicele 8150. Și când compari performanța FX-ului cu i7-930, te poți convinge de superioritatea primului față de cel din urmă.

Puncte

Memorie la 1866 MHz: Performanță 1 CPU | CPU multiplu

Vă rugăm să activați JavaScript pentru a vedea graficele

Memoria overclockată are un efect redus asupra performanței oricărui procesor AMD modern, așa că nu este nevoie să alergați la magazin și să achiziționați module de înaltă frecvență.

Puncte

Overclocking: CPU de performanță 1 | CPU multiplu

Vă rugăm să activați JavaScript pentru a vedea graficele

FX 8150 este încă prost înțeles, iar overclockarea este însoțită de dificultăți în înțelegerea plăcii de bază și a procesorului. Din temperaturi reiese clar că Bulldozerul era capabil să funcționeze la o frecvență mai mare, dar alți multiplicatori nu s-au pornit. Cred că în timp, producătorii vor actualiza BIOS-ul de mai multe ori înainte ca componentele să devină mai prietenoase. Cu toate acestea, 4,5 GHz nu este o cifră rea și, datorită acestui overclockare, noul venit este cu încredere înaintea aproape tuturor procesoarelor Intel în testul multi-threaded, cu excepția i7-2600K overclockat.

Nume1 CPU%xCPU %In medie
FX 8150 3600 MHz 0 0 0
Fenomul II 1100 3300 MHz 2 -9 -4
Fenomul II 980 3700 MHz 5 -26 -11
Athlon II 645 3100 MHz -20 -46 -33
A8 3850 2900 MHz -18 -42 -30
A8 3800 2400 MHz -28 -51 -40
A6 3650 2600 MHz -27 -47 -37
A6 3500 2100 MHz -37 -66 -51
A4 3400 2700 MHz -28 -72 -50
i7 2600K 3400 MHz 52 12 32
i5 2500 3300 MHz 49 1 25
i5 2400 3100 MHz 34 -7 14
i7 930 2800 MHz 8 -15 -4
i3 2100 3100 MHz 23 -46 -11
FX 8150 3600 MHz 1866 0 1 0
A8 3850 2900 MHz 1866 -17 -40 -28
A8 3800 2400 MHz 1866 -27 -48 -37
A6 3650 2600 MHz 1866 -24 -46 -35
A6 3500 2100 MHz 1866 -36 -65 -50
A4 3400 2700 MHz 1866 -26 -72 -49
i7 2600K 3400 MHz 1866 52 16 34
i5 2500 3300 MHz 1866 50 1 25
FX 8150 4500 MHz 10 23 16
Fenomul II 1100 4250 MHz 20 14 17
Fenomul II 1100 4200 MHz 19 14 16
Fenomul II 980 4500 MHz 27 -11 8
Fenomul II 980 4480 MHz 26 -11 8
A8 3850 4350 MHz 23 -12 6
A8 3800 4133 MHz 17 -17 0
A6 3650 3700 MHz 6 -25 -10
A6 3500 3400 MHz -1 -49 -25
A4 3400 4160 MHz 13 -56 -22
Athlon II 645 3720 MHz -4 -34 -19
i7 2600K 5000 MHz 106 52 79
i7 2600K 4500 MHz 83 46 64
i7 930 4200 MHz 49 18 34

AMD se deda rareori cu arhitecturi proaspete de procesoare. Dacă Intel actualizează structura la fiecare doi ani, atunci concurentul a notat ultima dată în 2007, lansând K10, o versiune reproiectată a vechiului K8. Deci apariția unui nou buldozer este un eveniment semnificativ. În următorii câțiva ani, arhitectura va deveni baza pentru toate cristalele AMD, precum și primul pentru o lungă perioadă de timp o șansă de a concura cu Intel în cursa de performanță.

Mergem în cuplu

Prin crearea Bulldozer, inginerii AMD au abandonat strategia dovedită de îmbunătățire și copiere parțială a dezvoltărilor vechi. Structura pietrelor este fundamental diferită de ceea ce suntem obișnuiți să vedem în sistemele x86.

Prima și cea mai importantă inovație este aspectul original. Toate versiunile de top ale Bulldozerului sunt echipate oficial cu opt miezuri. Cu toate acestea, în realitate există patru module cu drepturi depline, fiecare cu două unități de calcul. Arată astfel: două grupuri aritmetice întregi (se numesc nuclee și sunt direct responsabile de calcule) au în comun un Front-End, un cluster în virgulă mobilă (FPU) și un cache de nivel al doilea crescut la 2 MB.

Avantajul unui astfel de tandem este economisirea spațiului, reducerea consumului de energie și a costurilor de producție. minus - partajarea aceleași seturi sunt dăunătoare pentru performanța finală. Sub sarcină mare, este posibil ca un front-end să nu poată face față cu două nuclee. AMD nu neagă pierderea de performanță: conform acesteia, duo-ul este cu aproximativ 20% mai slab decât un procesor dual-core cu drepturi depline.

Dificultăți de comunicare

Pentru a elimina blocajul, Front-End a trebuit să învețe cum să partajeze eficient resursele între cele două nuclee. Pentru a realiza acest lucru, au fost reproiectate unitatea de predicție a ramurilor și decodorul de comandă, care au primit un al patrulea canal pentru procesarea instrucțiunilor (ca în Sandy Bridge) și tehnologie Fuziunea ramurilor. Acesta din urmă vă permite să lipiți o parte din instrucțiuni într-o singură operație. Toate acestea ar trebui să accelereze lucrul Front-End-ului și să împiedice cristalul să rămână inactiv.

În ceea ce privește nucleele în sine, acesta este un set de out-of-order, încărcare/descărcare, cache L1 și două clustere de calcul. Unitatea de execuție nefuncțională are acum un registru fizic de fișiere. La fel ca și în Sandy Bridge, adresele pentru stocarea datelor de lucru sunt introduse în el, ceea ce vă permite să descărcați conducta principală Out-of-Order. Procesorul de încărcare/descărcare a primit un buffer crescut, a dublat capacitatea de biți și capacitatea de a lucra cu adrese virtuale, ceea ce ar trebui, teoretic, să mărească viteza de lucru cu cache-ul de date L1. Acesta din urmă în Bulldozer a devenit de patru ori mai mic: 16 față de 64 KB în K10. Pierderea a fost compensată de viteza de lucru. Asociativitatea L1 a crescut de la două la patru canale, ceea ce înseamnă de două ori O o mai mare eficiență a căutării.

Există trei clustere de calcul într-un singur modul: două întregi și unul pentru lucrul cu date în virgulă mobilă. În comparație cu K10, prima pereche a pierdut un ALU (angajat în calcule) și un AGU (lucrat cu adresele de memorie). În teorie, aceasta înseamnă o performanță de vârf redusă. În practică, schimbarea va fi practic inobservabilă: este dificil să încărcați complet clusterele întregi.

Principalele modificări au afectat FPU, care este responsabil pentru calculele complexe cu virgulă mobilă. În K10 a devenit mult mai puternic: a primit o pereche de dispozitive MMX și FMAC pe 128 de biți pentru efectuarea operațiilor de adunare și înmulțire. Spre deosebire de K10, FMAC-urile au fost universale: se pot înlocui reciproc, ceea ce are un efect pozitiv asupra vitezei de calcul. În plus, au învățat să combine operațiile într-o singură expresie, ceea ce a sporit acuratețea calculelor.

În plus, FPU a primit un set actualizat de instrucțiuni. În primul rând, procesorul funcționează acum cu AVX, care acceptă registre pe 256 de biți. Pentru calculele lor, ca și în Sandy Bridge, sunt combinate două FMAC. În al doilea rând, Bulldozer poate funcționa cu instrucțiuni SSE 4.2, AENSI, FMA4 și XOP. Ultimele două seturi sunt unice pentru AMD. Pentru tine și pentru mine, toate aceste modificări înseamnă un singur lucru - comenzile care au fost făcute anterior în mai multe cicluri de ceas vor fi acum calculate într-un singur lucru, iar acest lucru afectează direct performanța. Adevărat, pentru a experimenta creșterea vitezei, este necesar suportul pentru instrucțiunile din software.

Lipici și foarfece

Ca rezultat, fiecare modul Bulldozer constă dintr-un cache de date Front-End, L2 și L1, două grupuri întregi și un bloc pentru lucrul cu numere în virgulă mobilă. În total, o piatră poate conține până la patru astfel de seturi. În același timp, fiecare dintre ei are acces la un număr de elemente comune. Primul este un controler de memorie dual-channel cu suport pentru DDR3-1866 MHz. Al doilea este cache-ul L3, al cărui volum, în comparație cu K10, a crescut de la 6 la 8 MB, iar asociativitatea - de la 48 la 64 de canale. Rețineți că, spre deosebire de Sandy Bridge, frecvența cache-ului L3 nu coincide cu viteza nucleelor. Dacă modelul de top funcționează la o viteză de 3,6 GHz, atunci memoria celui mai recent nivel este la 2,2 GHz. Acest lucru duce la întârzieri vizibile care influențează negativ performanța. Potrivit AMD, acest sacrificiu a fost făcut de dragul unei funcționări stabile la frecvențe înalte.

Tadam!

În ciuda trucurilor arhitecturale și a tehnologiei de proces de 32 nm, Bulldozer ocupă o suprafață impresionantă de 315 de metri pătrați. milimetri. Acesta este de aproximativ o dată și jumătate mai mult decât Sandy Bridge quad-core și mai vechi Llano. Din fericire, consumul de energie a fost menținut în limite rezonabile - 125 W.

Pe lângă modelele cu opt nuclee, există versiuni cu șase și patru unități de calcul. Frații mai mici se bazează pe același design cu opt nuclee, dar au unul sau două module dezactivate.

Frecvența de bază variază de la 3,1 la 3,6 GHz. La fel ca Sandy Bridge, Bulldozer are tehnologie automată de overclocking. Un cip special responsabil pentru Turbo Core 2.0, monitorizează încărcarea curentă a nucleului și nivelul TDP și, de îndată ce apare oportunitatea, crește frecvența procesorului. În cazul unui cristal de sus, când toate modulele sunt folosite, viteza poate fi mărită cu 300 MHz. Dacă unele dintre resurse sunt inactive - la 600 MHz. La sarcini mici, buldozerul intră în modul de economisire a energiei, tehnologia este responsabilă pentru acest lucru Cool"n"Silențios.

Overclockarea manuală este simplă. În primul rând, întreaga linie are un multiplicator deblocat. În al doilea rând, nou-veniții câștigă bine altitudine: sub azot lichid, buldozerul mai vechi a stabilit un nou record mondial - 8429 MHz.

Însoțitorii

Buldozerul funcționează pe socket AM3+. În esență, acesta este un AM3 ușor îmbunătățit, cu un pin suplimentar. Se apelează chipset-urile cu un nou soclu de procesor 990FX, 990XȘi 970 . Ele diferă în controlerul PCIe 2.0. Modelul mai vechi este echipat cu 32 de linii, cele mai tinere - 16. Mai mult, 990FX și 990X suportă CrossFireX. Printre caracteristicile chipset-urilor, remarcăm șase porturi SATA Rev. 3 și 14 conectori USB 2.0. Nu există controler USB 3.0.

Rețineți că Bulldozerul poate funcționa și pe plăci mai vechi. Tot ce ai nevoie este un BIOS actualizat. Limitări: Turbo Core și Cool"n"Quiet au o viteză de răspuns redusă, iar unele funcții de economisire a energiei nu sunt disponibile.

Arhitectura procesorului Bulldozer s-a dovedit a fi interesantă. În cele din urmă, AMD a încetat să se copieze și a venit cu ceva cu adevărat nou. Din păcate, există puține avantaje clare față de concurenți. Nu există opt nuclee declarate. Într-un sens bun, avem modele quad-core cu un număr crescut de unități de calcul, ceva de genul Intel Hyper-Threading, dar la nivel hardware. Ideea este bună, dar performanța va depinde de cât de rapid este Front-End-ul. Avantajele reale ale Bulldozer includ doar un FPU puternic pentru calcule în virgulă mobilă și frecvențe de operare crescute în comparație cu K10.

Hai să-l lansăm! Să-l îngropăm!

AMD a anunțat planuri de a lansa următoarele linii de procesoare. Compania se așteaptă să actualizeze arhitectura anual, obținând aproximativ 15% câștiguri de performanță per watt de fiecare dată. Dacă AMD își ține planul, vom vedea arhitectura în 2012 Piledriver(„koper”), un an mai târziu - Roller cu aburi(„rolă cu abur”), iar 2014 va fi amintit pentru anunț Excavator. Așa sunt lucrările de construcție.

Ferestre greșite

Potrivit AMD, Windows 7 incapabil să dezlănțuie întregul potențial al noii creații: programatorul OS nu ia în considerare caracteristicile Bulldozer. De exemplu, pentru procesoare noi este important ca firele interconectate să fie alocate unui singur modul, altfel nucleele vor face schimb de date nu prin memoria cache L2 rapidă, ci prin intermediul memoriei de nivel al treilea. Unele fluxuri divizate sunt, de asemenea, tratate mai bine într-un mod similar pentru a îmbunătăți eficiența Turbo Core 2.0. În același timp sarcini specifice creați o sarcină mare pe bloc În fațăși este mai bine să le împrăștiați în diferite module. Mulțumită cooperării cu Microsoft aceste nuanțe vor fi luate în considerare în planificator Windows 8. Cu toate acestea, nu trebuie să vă așteptați la o creștere semnificativă a performanței.

Dicţionar

Cluster de calcul întreg- se ocupa de operatii cu numere intregi (1, 2, 10).

În față- bloc de preluare prealabilă. Primește comenzi de la program și le traduce într-un limbaj pe care procesorul îl înțeleg.

FPU- cluster de calcule de date în virgulă mobilă. Efectuează calcule cu numere fracționale (1.2345) și cu valori mari cu puteri (1.2345E-10).

Bloc de predicție de ramură- prezice din timp ce date și operațiuni poate avea nevoie programul în momentul următor. Nu permite procesorului să fie inactiv.

Decodor de comenzi- descompune programul în micro-operații, care sunt apoi utilizate de clustere de calcul.

Scos din uz- bloc de execuție extraordinară. S-a ocupat de distribuirea acțiunilor între nuclee. Trimite spre calcul numai acele comenzi pentru care există date.

Bloc de încărcare/descărcare (LSU) - monitorizează mișcarea datelor între ieșirea de la transportor și memoria cache de date L1.

Asociativitatea în cache- conectarea liniilor și coloanelor cache. Cu cât asociativitatea este mai mare, cu atât viteza de căutare este mai mică, dar eficiența acesteia este mai mare.

MMX- un set de blocuri pentru lucrul cu numere de până la 8 octeți.

Seturi de instrucțiuni- permite unei comenzi să efectueze o operație pe mai multe date.

tabelul 1

Specificațiile procesoarelor AMD Bulldozer

Numărul de nuclee de calcul

Frecvența de bază

Frecvența Turbo Core

Suport memorie

Consumul de energie

Proces tehnic

Pret din noiembrie 2011

necunoscut