Az évtized építése. Tanulmányozzuk az AMD Bulldozer processzor architektúráját. ⇡ Kernelek számlálása: nyolc vagy négy

27.03.2020 Programok

Mitől függ a processzor teljesítménye? Korábban volt egy képlet, amely a teljesítményt az órajel ciklusonként végrehajtott utasítások számának és a processzor működési frekvenciájának szorzataként írta le. Most egy harmadik tényező is megjelent ebben a képletben - a számítási magok száma. Ezért annak a processzorfejlesztőnek, aki egy gyors terméket szeretne kiadni, több lehetősége is van erre.

Azonban nem minden olyan egyszerű. A számítási mag által végrehajtott utasítások órajelenkénti növelése meglehetősen nehéz feladat. A klasszikus x86 programkód az utasítások szekvenciális végrehajtását feltételezi, ezért azok párhuzamos feldolgozása érdekében a processzort rendkívül hatékony elágazás-előrejelző és utasítás-átrendező egységekkel kell felszerelni, amelyek megvalósítása jelentős mérnöki erőfeszítést igényel. Ugyanakkor a mikroarchitektúra bonyolultsága befolyásolja a kristály fizikai méreteit, és korlátozásokhoz vezet a magok számának növelésekor. Tehát ha egy gyártó nagyszámú maggal rendelkező processzort készít, akkor a mikroarchitektúrát éppen ellenkezőleg, egyszerűsíteni kell. Az órajellel sem egyszerű. A növekedésre való fogadáshoz ismét meg kell változtatni a processzor belső blokkjait, és meg kell hosszabbítani a végrehajtási folyamatát. Az eredmény a következő: ahhoz, hogy egy processzor teljesítményérmet nyerjen, fejlesztőinek keményen kell dolgozniuk számos paraméter egyidejű optimalizálása érdekében.

A probléma abban is rejlik, hogy a processzor teljesítményének javítására választott módok bármelyike ​​csak speciális esetekben lehet sikeres. Nem minden program működik hatékonyan nagy mennyiség magok. Egyes algoritmusok nem teszik lehetővé az átmenetek helyes előrejelzését és az utasítások átrendezését. És bizonyos esetekben a teljesítmény még az órajel frekvenciájának növelésével sem nő, mert vannak más szűk keresztmetszetek a rendszerben.

Nem könnyű megtalálni az optimális egyensúlyt, és mi tekinthető optimális kritériumnak? Csak véges számú programban tudjuk összehasonlítani a processzorok teljesítményét és kiválasztani a leggyorsabbat egy adott esetre. Ez azonban egyáltalán nem garantálja, hogy más teszteszköz-készlet használatával nem kapunk teljesen ellentétes becsléseket. Egy ilyen hosszadalmas bevezetőt azért adunk itt, mert ma az AMD FX processzorok új sorozatával – az AMD zászlóshajójával, Zambezi kódnéven ismertté váltunk – ismerkedünk meg. Ez a processzor a nagyon ellentmondásos Bulldozer mikroarchitektúrán alapul, amely már eddig is jelentős csokorral összegyűjtött nem hízelgő véleményeket. De a lényeg nem az, hogy ez a mikroarchitektúra teljesen rossz. A jellemzők legjobb egyensúlyának kiválasztásakor a fejlesztők helytelenül mérték fel a felhasználók többségének igényeit, és az „alapképlet” rossz tényezőjére helyezték a fő hangsúlyt. Ennek eredményeként az új generációs nagyteljesítményű megoldás kiadásának kezdeti terve félresikerült, és az AMD hívei az áttörés ígéretei miatt egészen mást kaptak, mint amire számítottak. Ez azonban komoly és objektív oka a csalódásnak? Ebben az anyagban erről fogunk beszélni.

⇡ Kernelek számolása: nyolc vagy négy?

Miközben a nagy teljesítményű processzorok új dizájnján dolgozott, az AMD úgy döntött, hogy előnyben részesíti a processzormagok számát. Ez egy teljesen logikus választás, azon a tényen alapul, hogy az évek során többszálú szoftver egyre nagyobb, és a hosszú távú fejlesztésre tervezett mikroarchitektúra kialakításánál elsősorban nem a piac jelenlegi állapotát, hanem a megfigyelt trendeket kell figyelembe venni. Az új processzor alapverziójában található nyolc maggal akarta meghódítani az AMD a piacot, ahol eddig csak chipeket mutattak be, amelyekben a magok maximális számát hatban korlátozták. ( Itt csak az asztali számítógépekről beszélünk. — kb. szerk. )

Ugyanakkor a fejlesztők nem akarták átvenni a régi K10 mikroarchitektúra magjait. Nemcsak fizikai méretűek túl nagyok, de Llano szerint nem is hajlamosak a magas hőmérsékleten való működésre. órajelek a modern 32nm-es technológiára való átállás után is. Ezenkívül nem támogatnak sok modern funkciót, például az AVX utasításokat. Ezért a nyolcmagos processzorok összeállításához az AMD új mikroarchitektúrát készített - Bulldozer. A cég képviselői inkább azt mondják, hogy a fejlesztést együtt végezték tiszta lap, de valójában a Bulldozer magokban számos utalást találhatunk egy másik, idén bemutatott mikroarchitektúrára - a Bobcatre, amely a kompakt és energiatakarékos eszközökben való felhasználást célozza. A Bulldozer és a Bobcat kapcsolata azonban meglehetősen távoli, és csak azért említjük meg, hogy az általános elképzelés világos legyen - a Bulldozer sok viszonylag egyszerű magot egyesít.

Ugyanakkor nem beszélünk nyolc egyszerű mag primitív kombinációjáról egy félvezető chipen. Ebben a helyzetben a kapott processzor nagyon alacsony egyszálú teljesítményt nyújt, és ez meglehetősen komoly problémát jelentene, mivel nem olyan kevés program van, amely nem osztja fel a terhelést több számítási szálra. Ezért először is a magokat nagy órajelen való működésre optimalizálták. Másodszor pedig kétmagos modulokká párosították őket, amelyek képesek megosztani erőforrásaikat egyetlen szál kiszolgálása érdekében. Az eredmény egy meglehetősen érdekes konstrukció: egy ilyen kétmagos modul végrehajtási csővezetékének bemeneti része elterjedt, és a további utasításfeldolgozás két végrehajtó eszköz között oszlik meg.

A Bulldozer kialakításának alapja a hagyományosan kétmagos modul

Emlékezzünk vissza, hogy egy modern processzorban az adatfeldolgozási folyamat több szakaszból áll: x86-os utasítások lehívása a cache memóriából, dekódolásuk - belső makróműveletekké fordítása, végrehajtása, eredmények rögzítése. A Bulldozer modulban az első két szakaszt egy pár magra hajtják végre, majd az egész számú utasítások végrehajtását két fürtmag között osztják el, vagy valós aritmetika esetén lebegőpontos műveletek blokkjában hajtják végre. közös két maggal.

A Bulldozer modulokat úgy tervezték, hogy órajelenként négy utasítást dolgozzanak fel, és a makró összevonási technológiának köszönhetően néhány x86-os utasításpárt a processzor egy műveletnek tekinthet. Ez azt jelenti, hogy általában véve a kétmagos Bulldozer modul teljesítményében hasonló a modern Intel processzorok egyetlen magjához, amely órajelenként négy utasítást is képes feldolgozni, és támogatja a makró összevonásokat is.

A Bulldozer modul és a Sandy Bridge mag között azonban jelentős különbségek vannak, amelyek megkérdőjelezhetik megközelítőleg azonos elméleti sebességüket. Tekintettel arra, hogy az új AMD processzorok modulja két egyenlő mag maradványait tartalmazza, maximális teljesítmény csak pár szál feldolgozásakor tudja demonstrálni. Ha egyszálú terhelést visel, akkor szolgáltatásának sebességét az egy ilyen klaszteren belüli végrehajtó eszközök száma korlátozza. És nincs belőlük olyan sok, tekintettel az AMD azon vágyára, hogy egyszerűsítse az egyes magokat – másfélszer kevesebbet, mint a Sandy Bridge vagy K10 mikroarchitektúrával rendelkező processzorokban. Vagyis két aritmetikai ALU és két cím AGU.

Így néz ki a Bulldozer mikroarchitektúrára épített modul funkcionális felépítése. Két magból már csak két készlet egész számú működtetőelem maradt

A processzormodulban közös lebegőpontos műveletek blokkja szintén viszonylag alacsony bonyolultságú. Két 128 bites FMAC végrehajtó egységet tartalmaz, amelyek egyetlen egységbe kombinálhatók 256 bites utasítások feldolgozásához. Úgy tűnik, hogy itt nincs olyan sok működtető, különösen, ha figyelembe vesszük, hogy egy pár magra vannak osztva. De univerzálisabbak, mint a korábbi és egymással versengő mikroarchitektúrákban, amelyek külön szorzót és összeadót használnak. Ennek köszönhetően bizonyos esetekben, amikor valós számokkal dolgozunk, egy kétmagos Bulldozer modul összehasonlítható és még nagyobb teljesítményt tud nyújtani, mint például egyetlen Sandy Bridge mag.

Hasonló ötletet használ a Sandy Bridge, hogy a 128 bites eszközöket 256 bites utasításokkal kombinálják.

Azonban a legtöbb erősségeit A Bulldozer modulnak kettős menetes terhelés alatt kell megjelennie. Egy Sandy Bridge mag két számítási szál feldolgozására is képes, ehhez Hyper-Threading technológiával rendelkezik. Mindazonáltal minden utasítás egy szelepmozgató egységhez kerül elküldésre, ami a gyakorlatban számos ütközést okoz. A Bulldozer modul két független egész számú klasztert tartalmaz, amelyek párhuzamosan tud szálakat végrehajtani, és a bennük lévő végrehajtó eszközök száma másfélszeresen haladja meg a Sandy Bridge kernelben lévő ilyen eszközök számát.

A bal oldalon a Bulldozer modul, a jobb oldalon néhány versengő mag Hyper-Threading támogatással. Valójában nem nagyon hasonlít a Sandy Bridge-re, de az illusztráció átadja a probléma lényegét

Ennek eredményeként a Bulldozer modul csúcsteljesítménye magasabb, mint a Sandy Bridge magé, de ezt a teljesítményt valamivel nehezebb feloldani. A Sandy Bridge mag intelligensen betölti saját erőforrásait a fejlett on-chip logikának köszönhetően, amely önállóan elemzi az egyszálú kódot, és párhuzamosan végrehajtja azt a teljes végrehajtó eszközkészletén. A Bulldozerben az aktuátorok hatékony használatának feladata részben a programozóra hárul, akinek két szálra kell felosztania a kódját - csak ekkor válik lehetővé a modul teljes kapacitásának teljes betöltése.

És ez a jellemző. A kétmagos Bulldozer processzormodult tekintve folyamatosan egy Sandy Bridge maggal hasonlítottuk össze, ugyanakkor egészen korrekt párhuzamokat tudtunk vonni. Ez elgondolkodtat: vajon az új mikroarchitektúra „nyolcmagos” jellege nem tekinthető-e a marketingesek képzeletének termékének? Az AMD szerint a magokat az egész klaszterek számával kell számolni, azzal érvelve, hogy a modul két független mag teljesítményének akár 80%-át is képes biztosítani. Nem szabad azonban megfeledkezni arról, hogy a Bulldozer alapját képező magok lényegesen egyszerűbbek, mint más processzorok magjai. Ezért a kétmagos modulok száma olyan jellemző, amely sokkal megfelelőbben tükrözi a Bulldozer teljesítményét.

Találja meg a maximális számú processzormagot, és szerezzen munkát az AMD marketing osztályán

⇡ Gyorsítótár

A gyorsítótár-memória megszervezése a Bulldozer processzorokban szintén nem annyira az egyes magokhoz, hanem a kétmagos modulokhoz „kötött”. Valójában minden magnak csak a saját első szintű adatgyorsítótára van lefoglalva; a cache memória minden egyéb szintje vagy a modul egészéhez, vagy a processzorhoz kapcsolódik:

  • Minden magnak saját L1 gyorsítótára van az adatok számára. Kötete 16 KB, és az architektúra négy asszociatív csatorna jelenlétét feltételezi. Ez a gyorsítótár átírási algoritmussal működik, ami azt jelenti, hogy inkluzív.
  • Az utasítások első szintű gyorsítótára egyetlen példányban található minden kétprocesszoros modulhoz. Kötete 64 KB, az asszociativitási csatornák száma kettő.
  • A második szintű gyorsítótár modulonként egyetlen példányban valósul meg. Mérete lenyűgöző 2 MB, asszociativitása 16 csatornás, a működési algoritmus pedig exkluzív.
  • Ezen kívül a nyolcmagos processzor egésze 8 megabájtos L3 gyorsítótárral rendelkezik, 64 csatornás asszociativitással. Ennek a gyorsítótárnak az a sajátossága, hogy magához a processzorhoz képest lényegesen alacsonyabb frekvencián működik, ami körülbelül 2 GHz.

Az alábbi táblázat a nyolcmagos Bulldozer, négymagos Sandy Bridge és Thuban processzorok (hatmagos Phenom II X6, K10 mikroarchitektúrára épülő) gyorsítótár-memória mennyiségének arányát írja le.

Gyorsítótár típusa Bulldózer (8 mag/4 modul) Sandy Bridge (4 mag) Thuban (6 mag)
L1I (utasítások) 4x64 KB 4x32 KB 6x64 KB
L1D (adatok) 8x16 KB 4x32 KB 6x64 KB
L2 4x2 MB 4x256 KB 6x512 KB
L3 8 MB, 2,0-2,2 GHz 8 MB, processzorsebességgel fut 6 MB, 2,0 GHz

Amint a táblázatból is látható, az AMD nagy gyorsítótárra támaszkodott felsőbb szintek, ami komoly többszálú munkaterhelés esetén lehet igazán hasznos. Az új processzorok gyorsítótár-memóriája azonban általában lassabb, mint a korábbi és konkurens termékeké. Ez könnyen észlelhető a gyakorlati késleltetés mérésekor.

A Bulldozerben az adatok elérésekor jelentkező nagy késések csak ezeknek a CPU-knak a magas órajelével kompenzálhatók. Amit azonban eredetileg terveztek – a frekvenciákat tekintve az új nyolcmagos processzoroknak 30%-kal kellett volna meghaladniuk a Phenom II-t. Az AMD azonban soha nem tudott ilyen magas frekvencián stabilan működő félvezető kristályokat tervezni. Ennek eredményeként a gyorsítótár magas késleltetése jelentős károkat okozhat a Bulldozer alapú rendszerekben.

Az AMD úgy döntött, hogy teljesen más megközelítést alkalmaz az új Bulldozer architektúrához. Elhatározták, hogy olyan kétmagos modulokat hoznak létre, amelyek bizonyos erőforrásokon osztoznak (L2 cache, lebegőpontos modul), de nem teljesen függetlenek egymástól. (lásd az alábbi képet)
Az AMD szerint ez a processzor optimalizálása és egyben a processzor árának csökkentése érdekében történt. Az optimalizálás a szokásos többmagos processzorok, egyes modulok tétlenek lehetnek, és az ilyen modulok kombinálhatók a Bulldozer architektúrában. Ha pedig kevesebb a modul, az azt jelenti, hogy kevesebb anyag kerül pazarlásra, és ez pozitív hatással lesz a költségekre, az energiamegtakarításra és a hőcsökkentésre.
Ezért bár az AMD új Bulldozer processzorait kétmagosnak fogja hívni, a valóságban nem lesznek igazán kétmagosak, mivel nem lesznek teljesen független magok. És a név" kétmagos processzor» marketing célokra kerül felhasználásra.

létrehozásához " négymagos processzorok", az AMD ezek közül kettőt használ, tehát a processzorban valójában két "processzor" van (a két építőelem az alábbi képen látható), nem pedig négy. Az AMD továbbra is négymagosnak nevezi az új processzorokat.


Nyolcmagos, Bulldozer architektúrán alapuló processzor.

Most nézzük meg közelebbről a Bulldozer architektúrában használt Fetch és Decode modulokat.

Modulok lekérése és dekódolása

A Fetch modul feladata a dekódolási utasítások lekérése a gyorsítótárból ill véletlen hozzáférésű memória.

Modulok lekérése és dekódolása.

Mint már említettük, a mintavételi modulok két „magot” használnak egyszerre. Az L1 utasítás-gyorsítótárat egyidejűleg két mag is használja, de mindegyik processzormag saját L1 adatgyorsítótárral rendelkezik.
Az AMD már bejelentette, hogy a Bulldozer architektúrában használt L1 utasítás-gyorsítótár egy 64 KB-os kétirányú set-asszociatív gyorsítótárból áll. Ugyanezt a konfigurációt használják az AMD64 architektúrájú processzorok, de a különbség az, hogy az AMD64 processzorok egy L1 gyorsítótárral rendelkeznek magonként, míg a Bulldozer processzorok egy L1 gyorsítótárral rendelkeznek páronként. Az adatgyorsítótár azonban csak 16 KB-os lesz, ami lényegesen kevesebb, mint az AMD64 architektúrára épülő processzorokban használt 64 KB magonként.

TLB-k (Fordítás félretekintő puffer- ultragyors memóriapuffer). A TLB-k méreteit nyilvánosságra hozták. Ezek kis mennyiségű memóriával rendelkező pufferek, amelyeket arra terveztek, hogy a virtuális memóriacímeket fizikai címekké alakítsák.
A virtuális memória, ismertebb nevén oldalfájl, egy olyan technológia, amelynél a RAM mennyisége „megnő”. speciális fájl a merevlemezén.

A számítógépes programok x86-os utasításokkal íródnak, de jelenleg a processzorok csak a natív RISC-utasításokat értik. A dekódoló modul feladata az x86-os programutasítások RISC mikroutasításokká való konvertálása. A Bulldozer architektúrának négy dekódere van, de Ebben a pillanatban Az AMD nem hozza nyilvánosságra, hogy az egyes dekóderek mely utasításokat hajtják végre. Általában az egyik ilyen dekóder összetett, összetett utasításokat hajt végre a mellékelt ROM-mikrokód („µcode” vagy „mikrokód”) használatával. Az összetett utasítások dekódolása néhány óraciklus után befejeződik, majd ezek több mikroutasítássá alakulnak. A gyártók jellemzően úgy optimalizálják a processzoraikat, hogy a leggyakoribb utasítások dekódolása során csak egy órajelben hajtsák végre azokat.

Bevezetés Nem kétséges, hogy az AMD új, Bulldozer mikroarchitektúrára épülő processzorai nemcsak az idei, de legalábbis az elmúlt öt év legjobban várt termékei közé tartoznak. Ennek több oka is van, valamint az AMD-termékek iránti hatalmas rajongósereg létezése. Vannak, akiknek friss emlékei vannak azokról az időkről, amikor ennek a cégnek a processzorai minden tekintetben jobbak voltak az Intelnél. Vannak, akik szeretik az AMD termékeket az ár és a teljesítmény kiegyensúlyozott kombinációja miatt. Néhányakat pedig lenyűgözött az AMD érzelmes története a vállalaton belül kifejlesztett mikroarchitektúra előnyeiről. Mindez hozzáadódott a Bulldozer generációs processzorok megjelenésére való sokéves fárasztó várakozáshoz, és itt az eredmény - Ön nagy figyelemmel és leplezetlen érdeklődéssel olvassa ezt a cikket.

Azonban egyértelműen megéri. A processzorpiac helyzete a következő néhány évben attól függ, hogy a Bulldozer mikroarchitektúra mennyire lesz sikeres. Végül is csak az Intel rendelkezik a mérnöki és gyártási erőforrásokkal ahhoz, hogy két-három évente új mikroarchitektúra-megoldásokat vezessenek be. Az AMD sokkal mérsékeltebb fejlesztési tempót kénytelen betartani. Ijesztő visszaemlékezni, de a mai Phenom II és Athlon II processzorokban használt mikroarchitektúra egészen 1999-ig nyúlik vissza, és azóta az AMD csak kozmetikai változtatásokat hajt végre rajta. Ezért nincsenek különösebb illúzióink arról, hogy a fejlesztési ciklus a Bulldozer megjelenésével hirtelen aktívabbá válik. Nyilvánvaló, hogy a Bulldozer az AMD teljesítménykínálatának középpontjában áll a következő néhány évben.

Tovább jelenlegi verzió A cég tervei ennek a mikroarchitektúrának a fejlesztésére 2014-ig készülnek, de ez szinte biztos, hogy a továbbiakban is folytatódik.

Az a tény, hogy az AMD évente 10-15 százalékos teljesítménynövekedést ígér, inkább riasztó tünet, mint biztató. Valószínűleg az ilyen növekedést elsősorban az órajel-frekvenciák növelése fogja biztosítani, és csak ezt követően néhány új mikroarchitektúra-fejlesztés.

Vagyis a Bulldozer mikroarchitektúra jelenlegi formájában elért sikere döntő hatással lesz az AMD jövőbeni pozíciójára, termékeinek versenyképességére, végső soron pedig a processzorpiac általános helyzetére.

Természetesen nem tagadható, hogy a Bulldozer for AMD nem az egyetlen kulcsfontosságú termék. Ez a mikroarchitektúra a mai nagy teljesítményű asztali számítógépek és szerverek szegmensét célozza meg. Ugyanakkor az AMD-nek más piaci szegmensekre is vannak javaslatai. Például nem kevésbé fontos területek a cég számára az olcsó, költséghatékony, Bobcat mikroarchitektúrával rendelkező processzorok vagy a Llano családhoz tartozó APU-k, amelyeket a cég az év elején adott ki. És ezek a javaslatok, amint a teszteredményekből láttuk, sikeres megoldások, amelyek megfelelően működhetnek mind a netbookok és nettopok megoldásaként, mind pedig a közepes árkategóriájú integrált platformok alapjaként.

A Bulldozer sikerének vagy kudarcának azonban sokkal jelentősebb következményei vannak. Először is, ez a mikroarchitektúra sokkal magasabb haszonkulcsokkal rendelkező piaci szegmenseket céloz meg – szervereket és asztali termelékenységi rendszereket. Ezért sokkal erősebb hatással lehet az AMD pénzügyi helyzetére. Másodszor, az AMD C, E és A sorozatú processzorok sikere őszintén szólva egyáltalán nem a mikroprocesszor-tervezés fejlesztésében részt vevő mérnökök érdeme. Ezen CPU-k (vagy APU-k, ha ragaszkodunk az AMD terminológiához) piaci sikere a Radeon HD család grafikus magjainak meglétéből fakad, amelyek az ATI időben történő megvásárlásának köszönhetően jutottak el az AMD processzorokba. A Bulldozer egyfajta minősítő vizsga egy kifejezetten a számítástechnikai magok mikroarchitektúrájával foglalkozó mérnökcsapat számára. Harmadszor pedig, a Bulldozer az AMD processzorok teljes sorának alapja lesz, kivéve az energiahatékony platformokra szánt megoldásokat. Tehát végső soron ez a mikroarchitektúra az alacsonyabb piaci szegmensekbe kerül, és szinte mindenhol kiszorítja a K10-et, beleértve a Llano processzorokat is.



Röviden: aligha lehet túlbecsülni a Bulldozer mikroarchitektúrájú processzorok sikeres bevezetésének fontosságát. Ez egy ikonikus termék érzelmi és anyagi szinten egyaránt. És ezért nagyon szeretném, ha képletesen szólva egy új K7-et vagy K8-at lássunk a valóságban.

De már a tesztelés előtt is elmondhatjuk, hogy kicsi az esélye egy ilyen jelenség megismétlődésének. Legutóbb az Intel maga segítette az AMD-t, hogy megragadja a pálmát, és megpróbálta népszerűsíteni a távolról sem ideális NetBurst mikroarchitektúrát. Ezután az Intel mérnökei az órajelek növelésére összpontosítottak, ami végül óriási szivárgási áramok formájában akadályokba ütközött, míg az AMD kiegyensúlyozottabb mikroarchitektúrát kínált, amelynek célja több utasítás végrehajtása órajelciklusonként. Ám miután az Intel felülvizsgálta doktrínáját, és bevezetett egy új Core mikroarchitektúrát, amely szintén a maximális számú utasítás végrehajtását célozta meg óraciklusonként, az AMD visszaesett a lemaradó pozícióba, ahol eddig volt.

Nyilvánvalóan felülmúlja a modernt Intel processzorok az órajel ciklusonként végrehajtott utasítások számát tekintve nagyon nehéz. A mai Sandy Bridge mikroarchitektúra egy eredendően hatékony tervezés legalább három optimalizálási ciklusának eredménye, így nem várhatunk még nagyobb fajlagos maghatékonyságot az AMD-től. Ráadásul az AMD mérnökei nem is tűztek ki maguk elé ilyen célt.

A Bulldozer fő ötlete máshol rejlik. A fejlesztők szerint az erre a mikroarchitektúrára épített processzoroknak meg kell jelenniük jó teljesítmény a magas órajelnek és a versenytársnál és elődeinél nagyobb számú számítási magnak köszönhetően. Ugyanakkor meglehetősen nyereségesnek kell maradniuk a gyártásban, vagyis nem lehet túl nagy félvezető kristályuk, és nem mutathatnak túl nagy hőelvezetést az egyes magok tekintetében.

AMD többmagos tervezési titkok

Teljesen világos, hogy a processzormagok számának növekedése elkerülhetetlenül a processzorchip területének növekedésével jár. Ennek eredményeként mind a termelés összetettsége, mind a végtermékek költsége nő. Ezért például a processzorok maximális szám A számítástechnikai magokat ma már csak a szerverpiaci szegmensben használják – a vállalati ügyfelek sokkal szívesebben fizetnek ki, mint az egyéni felhasználók. Az AMD által választott, a magok számának növelésére és a kapott processzorok elfogadható költségének megőrzésére irányuló irányvonalat maguknak a magoknak az egyszerűsítésével kell párosítani. Másrészt azonban a kernelek egyszerűsítése nemkívánatos hatással jár – a teljesítmény csökkenésével a gyengén párhuzamos terhelésű alkalmazásokban, amelyekből jelenleg még elegendő szám van.

Ezért az AMD mérnökei a maguk útját járták. Az egyes magok mikroarchitektúrája összetettebbé vált, és lehetőség szerint növeli az óránként végrehajtott utasítások számát.



De úgy döntöttek, hogy a rendszerint az egyes magokban jelenlévő, ugyanakkor túlzottan hatékony erőforrások egy részét megosztják két számítástechnikai mag között.



Az így létrejött kétmagos szerelvény a Bulldozer processzorok alapvető építőköve lett. Egy ilyen csomópont, amelyet az AMD terminológiájában modulnak neveznek, két teljes egész számú működtetőelemet tartalmaz. Ugyanakkor a lebegőpontos egység, az utasítások előlekérő és dekódoló eszközök, valamint a második szintű gyorsítótár egyetlen példányban létezik néhány mag számára, és megosztják egymással erőforrásaikat. A fejlesztők szerint ezeknek az elemeknek az ereje elég két maghoz, mivel egyetlen mag szervizelésekor való élet elég gyakran tétlenek. Ezen túlmenően a megszakítás nélküli működésük késései nem befolyásolják komolyan a teljesítményt.

Maga az AMD szerint egy, a leírt módon tervezett kétmagos modul egy teljes értékű kétmagos processzor teljesítményének akár 80%-át is képes nyújtani. Ugyanakkor a tranzisztor költségvetésének megtakarítása (és ennek megfelelően a félvezető kristály területén) eléri a 44% -ot.

Ennek a zseniális magtömörítésnek köszönhetően az AMD nyolcmagos (vagy négymodulos) kialakítást tudott beépíteni a Bulldozer félvezető matrica alaptervébe.



Ezenkívül a kristály meglehetősen jelentős része a gyorsítótárnak van átadva. Az egyes processzormodulokon belül magpárok között megosztott második szintű gyorsítótárak kapacitása 2 MB, a teljes processzor L3 gyorsítótárának teljes kapacitása pedig 8 MB. Így a gyorsítótárak hagyományos AMD exkluzív felépítését figyelembe véve elmondhatjuk, hogy ezek teljes mennyisége 16 MB nyolcmagos processzoronként. Ugyanakkor a Bulldozer félvezető kristály területe elfogadható határokon belül marad, így az AMD fejlesztői teljes mértékben elérték céljukat.



Abszolút számokban ez azt jelenti, hogy a nyolcmagos buldózerek félvezető szerszámmal kisebbek lesznek, mint például a hatmagos Thuban processzorok (Phenom II X6), amelyek a K10 mikroarchitektúrára épülnek. Nem szabad azonban elfelejteni, hogy a Bulldozer gyártása fejlettebb műszaki eljárással, 32 nm-es szabványokkal történik. A modern négymagos Intel Sandy Bridges-hez képest az AMD új nyolcmagos processzorai csak 45%-kal nagyobb vágófelülettel rendelkeznek.

A négymagos Sandy Bridge processzorok azonban a Hyper-Threading technológia támogatásának köszönhetően a Bulldozerhez hasonlóan nyolcmagos processzorként is bemutathatók az operációs rendszernek. Ez minden bizonnyal vitára ad okot a Bulldozer teljes értékű nyolcmagos processzorainak nevezésének jogszerűségéről. Meg kell azonban érteni, hogy az AMD és az Intel elérte a nyolc számítási szál egyidejű, különböző módokon történő végrehajtásának megengedhetőségét. Az Intel fejlesztői becsavarták a mikroarchitektúrájukat további jellemzők, amely lehetővé teszi két szál futását egy magon belül, egy végrehajtó eszközkészleten. Ezzel szemben az AMD „extra” részeket vágott ki két teljes értékű magból, de mindegyik modulon belül csak két készlet volt működtetőelem.



Ennek eredményeként az Intel Hyper-Threading technológiája csak 15-20%-kal növeli a többszálú teljesítményt, míg az AMD megoldása 80%-os teljesítménynövekedést ad 4-ről 8 szálra való átálláskor.

Bár természetesen a nyolcmagos Bulldozer félvezető kristálya moduláris felépítése miatt tényleg nagyon hasonlít a négymagosra.


Több utasítás ciklusonként?

A processzormagok számának növelése önmagában nem vezet messzire. Ez még a hatmagos Phenom II X6 processzorok megjelenése után is világossá vált, amelyek teljesítménye általában gyengébb a négymagos Sandy Bridge-nél. Ezért az AMD fejlesztői nem korlátozódtak pusztán kiterjedt tervezési változtatásokra. A Bulldozer alap mikroarchitektúráját a K10-hez képest valamivel kevésbé, mint teljesen újratervezték, ami reményt ad az AMD processzorokon működő rendszerek működésének felgyorsítására nem csak a többszálas feladatokban, hanem az alacsony párhuzamossági szinttel rendelkező alkalmazásokban is. Ráadásul ezek a remények teljesen objektív körülményeken alapulnak. Míg a korábbi AMD mikroarchitektúrákat úgy tervezték, hogy óránként három utasítást hajtsanak végre (egy magon), a Bulldozer mikroarchitektúra órajelenként négy utasítás végrehajtását feltételezi, és ebben a tulajdonságában közelebb áll a Core mikroarchitektúrával rendelkező versenytárs processzorokhoz.

A minőségi változások nyomon követhetők a végrehajtási folyamat legelső szakaszától kezdve - az utasítások előzetes letöltésének és dekódolásának szakaszától kezdve. Ezek a szakaszok közösek az egyetlen modulon belüli magpároknál, ezért az AMD különös gondot fordított arra, hogy ne váljanak mikroarchitektúra szűk keresztmetszetévé. Az utasítások az L1I gyorsítótárból származnak a dekódoláshoz 32 bájtos blokkokban – kétszer akkora, mint a Core mikroarchitektúrájú processzorokban (második generáció). Maga az első szintű utasítás-gyorsítótár 64 KB kapacitással és kétcsatornás asszociativitással rendelkezik. A dekódolásra szánt utasítások előre a második szintű gyorsítótárból töltődnek be.

Az elágazás előrejelző blokk, amely a legközvetlenebbül vesz részt a mintavételi folyamatban, két pufferkészletet tartalmaz, amelyek egymástól függetlenül figyelik a különböző magok aktivitását. Így a logikai ágak eredményeinek előrejelzésekor a Bulldozer nem téved össze a szálak között. Mivel az új mikroarchitektúra nagy órajelen kíván működni, az elágazás előrejelző egység minősége rendkívül fontos. Ezért a benne használt algoritmusokat teljesen újratervezték, és az AMD reményei szerint javulni fog a Bulldozer ág-előrejelzésének hatékonysága.



A Bulldozer x86 utasításdekódere emellett két magra osztja az erőforrásait, és órajelenként akár 4 bejövő utasítást is képes dekódolni. Teljesítménye azonban csak négy makróutasítás kiadására korlátozódik (amely az AMD-ben kifejezett dekódolás eredménye), míg az x86-os utasítások 1-2 vagy még több makróutasításra oszthatók. Így bár a dekóder a teljesítményét harmadával növelte a mikroarchitektúra előző generációjához képest, a sebessége nem biztos, hogy elegendő, tekintve, hogy két egész és egy valósszámú számítási klaszter támogatása a feladata.

Meg kell jegyezni, hogy a makrofúziós utasítás-fúziós technológia egy bizonyos analógját a Bulldozerben is alkalmazták. Az x86-os utasítások egyes csoportjai egyetlen egésszé kombinálhatók, és egyetlen utasításként továbbíthatók a dekóderen – az AMD ezt Branch Fusion-nak nevezi.

A dekódolt makróutasítások három számítási klaszterbe vannak szétosztva, amelyek közül kettő teljes értékű számítási mag maradványa, egy pedig valós számozású, megosztva a magok között. Mindegyik fürtnek saját utasítás-újrarendezési logikája és ütemezője van. Ez nyilvánvalóan azt jelenti, hogy az AMD megtartja azt a képességét, hogy a jövőbeni termékekben teljes mértékben helyettesítse vagy kiegészítse egyes klasztereket.

Az utasítások átrendezése az egyes klaszterekben egy fizikai regiszterfájl használatán alapul, amely a regiszterek tartalmára vonatkozó hivatkozásokat tárol, és az utasítások sorrendjének átrendezése során kiküszöböli a processzoron belüli folyamatos adatátvitelt. Ez a megközelítés az újrarendezési puffert váltotta fel a helyére, mivel a fizikai regiszterfájl nem csak az energiafogyasztás szempontjából hatékonyabb, hanem a processzor órajelének növelésére is kedvezőbb.

Az egész számú klaszterek két aritmetikai végrehajtási egységet (ALU) és két memóriacímegységet (AGU) tartalmaznak. A K10-es mikroarchitektúrához képest egy ALU-val és egy AGU-val csökkent az eszközök száma, de az AMD biztosítja, hogy ez nem csökkenti jelentősen a teljesítményt, viszont a magterület jelentősen megtakarítható. Könnyen elhisszük, hogy kettőnél több ALU-nak és AGU-nak minden egész fürtben nincs gyakorlati értelme, mert óraciklusonként legfeljebb négy makróutasítás érkezhet a dekódertől mindkét fürt általi végrehajtásra.



Ugyanakkor az aktuátorok univerzálisabbá váltak, funkciójukban gyakorlatilag nem különböznek egymástól.

A gyorsítótár-memória alrendszer felépítése komolyan megváltozott. Az L1D gyorsítótár 64-ről 16 KB-ra csökkent, és átírhatóvá vált. Ezzel párhuzamosan asszociativitása 4 csatornára nőtt, ami mellé egy „út prediktor” is került. Az első szintű adatgyorsítótár méretének csökkenését az áteresztőképesség jelentős növekedése kompenzálja, jelenleg akár három 128 bites műveletet is képes egyszerre kiszolgálni: két olvasást és egy írást.

Nyilvánvaló, hogy az L1D gyorsítótár sávszélességében bekövetkezett változások nagyrészt a 256 bites AVX utasítások mikroarchitektúrában való megvalósításának szükségességével kapcsolatosak, amelyek támogatása a magok között megosztott FPU egységben jelent meg. Ez azonban nem jelenti azt, hogy a valósszámú működtetők 256 bitesek lettek volna. Valójában a Bulldozer modulnak két 128 bites eszköze van, és az AVX utasítások 128 bites utasításpárokként vannak dekódolva. Ennek megfelelően ezek végrehajtásához FMAC eszközöket (lebegőpontos szorzás-felhalmozás) kombinálnak, és egy valós számozású fürt teljesítményét processzormodulonként órajelciklusonként egy AVX parancsra csökkentik.



Az FPU-nak nincs saját első szintű gyorsítótára, így ez a fürt egész számú eszközökön keresztül működik az adatokkal.

Mivel az AMD mérnökei már felvállalták az Intel által javasolt AVX-utasítások támogatásának megvalósítását, a Bulldozer processzorokhoz további releváns készletek kerültek: SSE4.2 és AESNI utasítások, amelyek a titkosítási műveletek felgyorsítását célozzák. Ezenkívül az AMD bemutatott néhány saját parancsot: a három operandusból álló szorzás-összeadás FMA4-et és saját elképzelését az AVX - XOP továbbfejlesztéséről.



A Bulldozer L2 gyorsítótára meg van osztva a processzormodulon belül, és megosztva a magok között. Kapacitása lenyűgöző 2 MB, asszociativitása 16 csatorna. A séma szerint működő gyorsítótár késleltetése azonban 18-20 ciklusra nőtt, annak ellenére, hogy a busz szélessége ugyanaz maradt, mint korábban - 128 bit. Ez azt jelenti, hogy a Bulldozer L2 gyorsítótára, bár nagy, nem túl gyors; a versengő és korábbi processzorok körülbelül fele késéssel kínálják az L2 gyorsítótárat. Egy kis L1D gyorsítótárral párosítva, amelynek késleltetése 4 ciklus (ami szintén több, mint a K10 mikroarchitektúrában), mindez nem tűnik túl biztatónak. Az AMD azonban azt állítja, hogy a gyorsítótár késleltetését kizárólag azért növelték, hogy a Bulldozer képes legyen magas órajelen működni.



Ezenkívül az AMD mérnökei egy hatékony előletöltési egységet vezettek be, amely arra szolgál, hogy a szükséges adatokat idő előtt betöltse az első és a második szintű gyorsítótárba. Ezeknek a blokkoknak a teljesítménye állítólag javult, és ma már a szabálytalan adatstruktúrákat is képesek felismerni.

Elméletileg a Bulldozer jó benyomást kelt. Az AMD teljesen felülvizsgálta a processzor mikroarchitektúrájának régi megközelítését, és teljesen újratervezett dizájnt hajtott végre. Ami első ránézésre nagyon ígéretesnek tűnik, mert az új mikroarchitektúra órajelenkénti három helyett négy utasítás végrehajtására van optimalizálva egy processzormagon. Ezenkívül támogatja az utasítások makró összevonását a dekódolási folyamat során, ami tovább növeli a specifikus teljesítményt.

De minden csak addig néz ki olyan jól, amíg csak egy magot nézünk, és nem gondolunk arra, hogy a valóságban az ilyen magok párban egyesülnek. A kétmagos Bulldozer modulnak pedig túl sok közös alkatrésze van néhány maghoz. Különösen abból a tényből adódóan, hogy egy ilyen modul csak egy utasításlekérő egységgel és egy dekódolóval rendelkezik, az órajelciklusonként végrehajtott utasítások maximális száma a teljes kétmagos összeállításban négy marad. Ez azt jelenti, hogy az elméleti teljesítmény szempontjából egyetlen Sandy Bridge mag logikai megfelelője a modul, nem pedig a Bulldozer mag. A modul azon képessége, hogy két szálat hajtson végre ebben az esetben, teljesen logikus válasznak tűnik az AMD-től a Hyper-Threading technológiára.

Természetesen a valódi processzorok tesztelése mindent a helyére tesz, de már a mikroarchitektúra mérlegelésének szakaszában kénytelenek vagyunk azt gondolni, hogy a Bulldozert teljes értékű nyolcmagos processzorként pozicionálni marketingfogás. Ezeknek a processzoroknak a számítási képességeinek megbízhatóbb értékelését a modulok számán kell alapul venni, amelyek elméleti teljesítménye szempontjából tökéletesen összehasonlíthatók a mikroarchitektúrára épített magokkal. Intel Core második generáció.

Ezzel kapcsolatban teljesen logikus kérdés merül fel - miért foglalkozott az AMD a kétszálú feldolgozás egyetlen processzormodulon belüli megvalósításával? Miért ne lehetne a két magon elosztott aktuátorokat egyetlen klaszterbe egyesíteni? Ennek több oka is van.

Először is, ahhoz, hogy egyidejűleg nagyszámú működtetőt lehessen munkával terhelni, általában fejlett processzoron belüli logikára van szükség. Az AMD nyilvánvalóan nem volt képes rendkívül hatékony elágazás-előrejelzési és utasítási, valamint adat-előletöltő egységeket megvalósítani a Bulldozer mikroarchitektúrában. Ezért a munka párhuzamosítása és a végrehajtó eszközök optimálisabb használata a szoftvergyártókra hárul, akiknek a Bulldozerhez többszálas támogatással kell termékeket szállítaniuk.

Másodszor, az egyidejűleg végrehajtott szálak számának növelése nem olyan rossz. Ha az asztali felhasználók, és különösen a játékosok számára a nyolc meglehetősen egyszerű Bulldozer mag nem ígér különösebb előnyt, akkor a szerveralkalmazásokban egy ilyen mikroarchitektúrát nagyon kedvezően kell teljesíteni. Könnyen lehet tehát, hogy a Bulldozer fejlesztése során nem a rajongók vágyainak kielégítése volt a fő cél, hanem az AMD szerverpiaci pozíciójának helyreállítása.

Turbo Core még több Turbo

Az energiahatékonyság az egyik a legfontosabb jellemzőket modern processzorok. Például az övékben jövőbeli mikroarchitektúrák Az Intel szinte elsősorban az energiafogyasztás csökkentésére fordít figyelmet. Az AMD még nem jutott el idáig, ennek a cégnek a mérnökei elsősorban a teljesítményért küzdenek. De ez nem jelenti azt, hogy a fejlesztők egyáltalán nem törődtek a Bulldozer hő- és energiajellemzőivel. Éppen ellenkezőleg, Llano nyomán az energiahatékonyság növelésének alapvetően új megközelítései kerültek a Bulldozer processzorokba. Ebben az esetben azonban a mérnökök a felszabaduló potenciált nem annyira spórolásra használták fel, hanem arra, hogy az órajel-frekvenciák növelésével további teljesítményt csikarjanak ki.

Természetesen az új gyártási technológia bizonyos javulást hozott az energiafogyasztás és a hőleadás tekintetében. A Bulldozer 32 nm-es technológiai technológiát alkalmaz, nagy dielektromosságú anyagot, fém kaputranzisztorokat és SOI technológiát használ. Más szavakkal, ez ugyanaz a GlobalFoundries technikai folyamat, amely a Llano processzorokat gyártja. Köszönet új technológia A 32 nm-es szabványok mellett a soros nyolcmagos Bulldozer processzorok üzemi tápfeszültsége nem haladja meg az 1,4 V-ot.

A Llano-tól a Bulldozer-ig terjedő fő újítás azonban a power gate tranzisztorok, amelyeket arra terveztek, hogy lekapcsolják a processzor egyes részeiről az áramellátást. A Bulldozerben lehetővé teszik az egyes kétmagos modulok és a gyorsítótár-memória feszültségének független csökkentését.



Amikor a modul mindkét számítási magja C6 energiatakarékos állapotba kerül, a modul feszültségmentes lesz. Sajnos ez a technológia nem alkalmazható processzormagokra, mivel a Bulldozerben egyszerűen nincsenek dedikált magok – megosztják az erőforrások egy részét modulszomszédaikkal.

A C6 magok energiatakarékos állapotát Bulldozer és Turbo Core technológia szabályozza. Azokban a pillanatokban, amikor a Bulldozer processzormodulok legalább fele energiatakarékos kikapcsolt állapotban van, megnöveli a tápfeszültségét és az órajel frekvenciáját. Ezt a kényszerített üzemmódot Max Turbo Boostnak hívják.

A Max Turbo Boost azonban nem újdonság, ezt az automatikus túlhajtást az AMD vezette be a K10 mikroarchitektúrára épített Thuban processzorokban. Az igazán újdonság az All Core Boost mód, amelyben az órajel a névleges érték fölé emelkedhet akkor is, ha minden processzormag aktív. A Bulldozerbe bevezetett Turbo Core továbbfejlesztett változata lehetővé teszi a processzor számára, hogy bizonyos blokkok terhelésére vonatkozó információk alapján jó pontossággal ítélje meg gyakorlati energiafogyasztását és hőleadását. Ennek megfelelően, ha ezen értékelés szerint az aktuális hőleadás és fogyasztás jelentősen a határérték alatt van, akkor a processzor akkor is tudja növelni tápfeszültségét és órajel-frekvenciáját, ha egyetlen mag sincs passzív állapotban.



Így a Bulldozer mikroarchitektúrájú processzorok működési frekvenciája rendkívül változó érték. A végrehajtott algoritmusok „súlyosságától” és az érintett magok számától függően nagyon széles tartományban, akár 900 MHz-ig is dinamikusan változhat.

Frissített asztali platform

Az új mikroarchitektúra bevezetésével az AMD nemhogy nem változtatott a platform kialakításán, de még a Bulldozer processzorok kompatibilitását is megőrizte a meglévő infrastruktúrával. Ennek megfelelően az új processzorok elődeikhez hasonlóan integrált északi hidat tartalmaznak, amely magában foglal egy harmadik szintű gyorsítótárat, egy memóriavezérlőt és egy Hyper-Transport buszvezérlőt. Ugyanakkor annak ellenére, hogy az újonnan megjelent AMD és Intel processzorok mindegyikébe beépített PCI Express grafikus buszvezérlő is van, a Bulldozerben ez nem található meg.



A K10 mikroarchitektúrára épített processzorokhoz hasonlóan a Bulldozer beépített északi hídja is saját órajel-frekvenciát használ, ami különböző modellek 2,0-2,2 GHz-re állítva. Vegye figyelembe, hogy ez a frekvencia bizonyos hatással van a teljesítményre, mivel közvetlenül befolyásolja az L3 gyorsítótár sebességét. A processzorok jelenlegi verziójában a kötet 8 MB-ra nőtt, és 64 csatornás asszociativitással rendelkezik. A vállalati felhasználók kívánságait kielégítve az ebben a cache-ben tárolt adatokat ECC hibajavító kód védi.

A Bulldozerbe épített memóriavezérlő nem rendelkezik alapvetően új képességekkel. A korábbiakhoz hasonlóan támogatja a DDR3 SDRAM-ot, kétcsatornás kialakítást használ, és valójában két független egycsatornás vezérlőből áll, amelyek akár párosított, akár nem csatolt módban működhetnek. Az AMD csak a nagyobb sebességű memóriatípusok támogatását adta hozzá, deklarálva a DDR3-1867-tel való kompatibilitást, és gondoskodott az energiahatékony, 1,25 és 1,35 V üzemi feszültségű modulokkal való kompatibilitásról.

A saját Zambezi kódnévvel rendelkező Bulldozer asztali módosításáról szólva meg kell jegyezni, hogy az új Socket AM3+ platformot célozza meg, amely Scorpius kódnéven is ismert. A Socket AM3+ processzorfoglalat 942 érintkezős, eggyel több, mint a Socket AM3. Ennek ellenére a Zambezi továbbra is kompatibilis a régebbi Socket AM3 kártyákkal. Amikor új processzorokat telepít a régi alaplapokra, valójában csak bizonyos energiagazdálkodási funkciók vesznek el. Így a frekvenciaváltási sebesség csökken, ha a Turbo Core és a Cool"n"Quiet technológia fut, és a Vdrop nem működik.

A Zambezi kiadására azonban az AMD és az alaplapgyártók új termékek galaxisát készítettek elő, amelyek az új 900-as sorozatú logikai készletekre épülnek. Egy tipikus Zambezi processzorra épülő, új lapkakészletre épülő rendszer felépítését az alábbi blokkdiagram mutatja.


Az új AMD 990FX lapkakészlet (és az egyszerűsített AMD 990X és AMD 970 változatai) közötti különbségek kizárólag a Socket AM3+ speciális elektromos tulajdonságainak támogatásában rejlenek, és nem hoznak magukkal új interfészt. A 800-as sorozatú lapkakészletekhez hasonlóan az új déli híd hat SATA 6 Gbps portot és tizennégy USB 2.0 portot tartalmaz. Bármennyire is szeretnénk a PCI Express 3.0 specifikáció támogatását, vagy legrosszabb esetben az USB 3.0 portokat az új rendszerlogikai készletekben látni, ezúttal sincs bennük semmi ilyesmi. Ez egyébként nagyon furcsa, mert az alacsonyabb szintű Socket FM1 platform chipkészleteiben bevezették az USB 3.0 támogatást.

A rendszerlogikai készletek új sorozatának módosításai közötti különbségek kizárólag a különféle több GPU-s konfigurációk támogatásában rejlenek.


Zambezi processzorcsalád

A Zambezi processzorok kiadása befejezi a frissítést modellválaszték, amelyet az AMD kínál. A Bulldozer mikroarchitektúrán alapuló asztali processzorok lesznek a gyártó új zászlóshajója, és gyorsan kiszorítják a Phenom II mindenféle módosítását a piacról.

Az új mikroarchitektúra innovációját hangsúlyozva az AMD új marketingnevet használ a Zambezi asztali processzorokra - FX. Egyrészt tökéletesen illeszkedik az új nómenklatúrába, amely magában foglalja a processzorok betűkkel való jelölését, másrészt utalás a legendás Athlon 64 FX processzorokra, amelyek hat-hét éve még a leggyorsabb asztali CPU-k voltak. Ezek az idők azonban visszavonhatatlanul elmúltak, úgyhogy lássuk, mit kínál most nekünk az AMD.

A közeljövőben az FX sorozatú processzorok kínálata négy modellt fog tartalmazni.



Annak ellenére, hogy a Zambezi processzormodellek között nem csak az órajelben, hanem az aktív számítási magok számában is van különbség, mindegyik ugyanazon az egységes félvezető chipre épül majd. Itt van:



A nyolcmagnál kevesebb processzorok beszerzéséhez az AMD letilt néhányat a félvezető chipen. Még kérdéses a visszazárásuk lehetősége, ahogy az a K10 mikroarchitektúrájú processzoroknál lehetséges volt. A laboratóriumunkon átesett, 900-as sorozatú logikai készletekre épülő alaplapok BIOS-ában azonban a megfelelő opciók megvannak, így van remény a probléma kedvező megoldására.

A magok letiltása a hat- és négymagos processzorok módosításához „modulról modulra” történik. Azaz a teljes kétmagos modulok lesznek blokkolva, és nem a bennük lévő „második” magok, pedig egy ilyen taktika sokkal előnyösebb lenne a teljesítmény szempontjából. A Bulldozer mikroarchitektúrára épített hat- és négymagos processzorok megjelenését azonban nem annyira marketing megfontolások magyarázzák, mint inkább az elutasítás megvalósításának szükségessége, amely a chip meglehetősen nagy méreteit és az új technológiai folyamatot tekintve elég sok lesz.

Annak ellenére, hogy az AMD élesíti az új mikroarchitektúrát, hogy magas órajel-frekvencián működjön, az elért értékeket még nem nevezhetjük lenyűgöző áttörésnek. A négy gigahertzes gát továbbra is leküzdhetetlen, a régebbi FX processzor névleges frekvenciája pedig még alacsonyabb, mint például a Phenom II X4 980-é. Reméljük, hogy a gyártástechnológia fejlődésével a Zambezi frekvenciák gyorsan felfelé fognak menni . Bár, ha hisz az AMD terveinek jelenlegi verziójában, a vonal legkorábban 2012 első negyedévében fog felgyorsulni.

A hőleadás és az energiafelhasználás tekintetében nincs áttörés. Az AMD régóta beszél arról, hogy a Bulldozer mikroarchitektúrája energiahatékonyabb lesz, de valójában a régebbi nyolcmagos modellek TDP-szintje megegyezik a régebbi Phenom II-vel. Igaz, egy idő után a cégnek fel kell vennie kínálatát az FX-8120 95 wattos változatával és egy FX-8100 processzorral, ugyanolyan számított hőelvezetéssel.

De az új FX-sorozatú processzorok árai több mint vonzónak tűnnek. Az AMD nem kíván eltérni a versenytársaknál kedvezőbb árú platformok kínálatától, ezért a régebbi nyolcmagos Zambezi modellek szembehelyezkednek a régebbi Intel Core i5 processzorokkal. Az AMD általában a következő pozicionálási sémát tervezi betartani termékeinél:



Vagyis az AMD nem az Intel hatmagos processzoraival és az ígéretes LGA2011 platformmal kíván felvenni a versenyt, hanem a közepes árkategóriás szegmens meghódítására kíván koncentrálni.

Jó hír a rajongóknak, hogy egyetlen FX sorozatú processzorban sem blokkolnak szorzót. Az összes Zambezi nem csak egyszerűen túlhajtható az alapszorzó egyszerű megváltoztatásával, hanem hasonlóan át is konfigurálható Turbo Core technológiával. Valamint elérhető a memória alrendszer túlhajtása és a processzorba épített északi híd frekvenciája.

Tesztprocesszor: AMD FX-8150

Az AMD elküldte szerkesztőinknek a Zambezi család vezető processzorát, az FX-8150-et.



Névleges órajele 3,6 GHz, és több részletes információk Jellemzői a CPU-Z adott screenshotjából nyerhetők.



Felhívjuk figyelmét, hogy a processzor a B2 léptetésen alapul – és nem ez az első verzió. A félvezető kristály korábbi módosításait azért utasította el a gyártó, mert nem tudtak az eredetileg tervezett órajel-frekvenciákon működni. Ez okozott némi késést az eredetileg tavasszal, majd nyáron tervezett, de valójában október közepén megtörtént bejelentésben.

A ma elért 3,6 GHz-es frekvencia azonban nem tűnik túl lenyűgözőnek. Az AMD-nek és az Intelnek is vannak olyan termékei, amelyek többel is működnek Magassebesség. Az FX-8150 azonban nagyon ígéretes Turbo Core technológiával rendelkezik, amely alacsony terhelés mellett képes automatikusan 4,2 GHz-re növelni a processzor frekvenciáját.



Figyelemre méltó, hogy a 3,9 GHz-es frekvencia akkor is elérhető, ha az összes számítási magot terhelik, ugyanakkor teret hagynak az automatikus túlhajtásnak anélkül, hogy túllépnék az energiafogyasztás és a hőleadás határait.



Üresjáratban a Cool"n"Quiet technológia 1,4 GHz-re csökkenti az FX-8150 frekvenciáját. A tápfeszültség 0,85 V-ra csökken.


Hogyan teszteltük

Új nyolcmagos AMD processzorÖsszehasonlítottuk a Bulldozer mikroarchitektúrára épülő FX-8150-et egyik elődjével, a hatmagos Phenom II X6-tal, valamint az Intel versengő (árazott) kínálatával, a négymagos Core i5-2500 és Core i7-2600 processzorokkal. . Ezenkívül a nagyobb áttekinthetőség érdekében a hatmagos Core i7-990X processzor teljesítménymutatóit is hozzáadták az eredményekhez.

Ennek eredményeként a kompozíció tesztrendszerek a következő szoftver- és hardverkomponenseket tartalmazza:

Processzorok:

AMD FX-8150 (Zambezi, 8 mag, 3,6 GHz, 8 MB L2 + 8 MB L3);
AMD Phenom II X6 1100T (Thuban, 6 mag, 3,3 GHz, 3 MB L2 + 6 MB L3);
Intel Core i7-2600K (Sandy Bridge, 4 mag, 3,4 GHz, 1 MB L2 + 8 MB L3);
Intel Core i5-2500K (Sandy Bridge, 4 mag, 3,3 GHz, 1 MB L2 + 6 MB L3);
Intel Core i7-990X Extreme Edition (Gulftown, 6 mag, 3,46 GHz, 1,5 MB L2 + 12 MB L3).

CPU hűtő: NZXT Havik 140;
Alaplapok:

Gigabyte 990FXA-UD5 (Socket AM3+, AMD 990FX + SB950);
ASUS P8Z68-V PRO (LGA1155, Intel Z68 Express);
Gigabyte X58A-UD5 (LGA1366, Intel X58 Express).

Memória:

2 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Kingston KHX1600C8D3K2/4GX);
3 x 2 GB, DDR3-1600 SDRAM, 9-9-9-27 (Crucial BL3KIT25664TG1608).

Grafikus kártya: AMD Radeon HD 6970.
Merevlemez: Kingston SNVP325-S2/128GB.
Tápegység: Tagan TG880-U33II (880 W).
Operációs rendszer: Microsoft Windows 7 SP1 Ultimate x64.
Illesztőprogramok:

Intel lapkakészlet-illesztőprogram 9.2.0.1030;
Intel Management Engine Driver 7.1.10.1065;
Intel Rapid Storage Technology 10.6.0.1022;
AMD Catalyst 11.10 kijelző illesztőprogram.

Felhívjuk figyelmét, hogy a tesztelést a Windows 7 operációs rendszer jelenlegi verziója alatt végezték, de az AMD jelzi, hogy ennek az operációs rendszernek a feladatkezelője nem a legoptimálisabb módon osztja el a számítási szálakat. A Windows 7 elsősorban a különböző modulokban található kernelekhez irányítja a szálakat. Ez pedig valóban magasabb fajlagos teljesítményt biztosít, mivel csökkenti a modulon belül felosztott blokkok terhelését. Ez a stratégia azonban megakadályozza a turbó üzemmódok beiktatását, amelyeket a processzor használhatna, ha néhány kétmagos modul energiatakarékos állapotban lenne.

A közelgő Windows 8 operációs rendszer más taktikát fog követni, és ott a szálak először ugyanazon a modulon belüli magokhoz lesznek hozzárendelve. Ennek eredményeként az AMD azt ígéri, hogy számos alkalmazásban a Zambezi alapú rendszerek teljesítménye akár 10%-kal is növekedhet.

Teljesítmény

A Bulldozer mikroarchitektúra hatékonyságának előzetes értékelése

Mielőtt elkezdtük a processzorok „valódi” tesztelését, úgy döntöttünk, hogy kitaláljuk, mit is várhatunk elvileg a Bulldozer mikroarchitektúrától. Ennek érdekében egy ilyen mikroarchitektúrával rendelkező processzor kis összehasonlítását végeztük más K10 és Sandy Bridge mikroarchitektúrával rendelkező CPU-kkal, mesterségesen létrehozott egyenlő feltételek mellett: azonos órajel frekvencián és ugyanannyi aktivált maggal.

Pontosabban, összehasonlítottuk az AMD FX-8150, a Phenom II X6 1100T és a Core i7-2600 3,6 GHz-en, mindössze két processzormaggal. A kísérlet tisztasága érdekében az összes energiatakarékos és automatikus túlhajtási technológiát természetesen deaktiváltuk. Teszteszközként a SiSoft Sandra 2011 segédprogramban található egyszerű szintetikus benchmark készletet választottuk, amelyben erőszakkal letiltottuk az SSE3-nál régebbi utasításkészleteket, mivel azokat a K10 mikroarchitektúra nem támogatja.



A táblázatban szereplő számok minden szónál hangosabban beszélnek. A Bulldozer mikroarchitektúra teljesítménye jóval alacsonyabb lett, mint a korábbi processzoroké. A magpárok egy modulba való egyesítése megosztott erőforrásokkal és az ezzel járó mikroarchitektúra egyszerűsítése oda vezetett, hogy ugyanazon a frekvencián a Bulldozer magonkénti fajlagos teljesítménye 25-40%-kal esett vissza az előző generációs AMD mikroarchitektúrához képest. Ennek eredményeként a Bulldozer magok majdnem fele olyan lassúak, mint a Sandy Bridge magjai. Ráadásul a két magot tartalmazó Bulldozer processzormodul teljesítménye még alacsonyabb, mint egyetlen Sandy Bridge mag sebessége a Hyper-Threading technológiával. Várjunk-e teljesítményrekordokat egy ilyen mikroarchitektúrára épített processzortól? A kérdés költői.

Útközben vessünk egy pillantást a gyorsítótárak és a memória alrendszer gyakorlati jellemzőire. Ezen funkcionális egységek működési sebességének értékeléséhez teszteket végeztünk az Aida64 csomag Cachemem segédprogramjában. Minden esetben DDR3-1600 memóriát használtak 9-9-9-27-1T késleltetéssel. Csakúgy, mint az előző esetben, a processzorfrekvenciák 3,6 GHz-en maradtak.



Zambeziben a Phenom II processzorokhoz képest mind az összes gyorsítótár, mind a memória alrendszer gyakorlati késleltetése megnőtt. Erről beszéltünk, amikor a Bulldozer mikroarchitektúráját vizsgáltuk. A cache-memória logikai felépítésének megváltoztatásával azonban az áteresztőképesség szinte minden esetben növekedett.

Ugyanakkor a Sandy Bridge-ben megvalósul a leggyorsabb kétcsatornás memóriavezérlő és a leggyorsabb gyorsítótár alrendszer. Bár természetesen a gyorsítótár kapacitását tekintve az Intel processzor valamivel alacsonyabb, mint a Bulldozer mikroarchitektúrás adathordozója.

Összteljesítményét

A processzor teljesítményének értékelésére a gyakori feladatokban hagyományosan a Bapco SYSmark 2012 tesztet használjuk, amely szimulálja a felhasználói munkát a hétköznapi modern eszközökben. irodai programok valamint digitális tartalom létrehozására és feldolgozására szolgáló alkalmazások. A teszt ötlete nagyon egyszerű: egyetlen metrikát állít elő, amely jellemzi a számítógép súlyozott átlagsebességét a gyakori alkalmazásokban.

Emlékezzünk arra, hogy az AMD valamivel ezelőtt megpróbálta trollkodni a SYSmarkot, és olyan vádakat terjesztett, hogy az elfogult a valódi alkalmazások „rossz” halmazának használata miatt. Véleményünk szerint azonban egy ilyen megítélés nem indokolt, hiszen a teljesítmény értékelésére általános és reális ítéletek szolgálnak. népszerű programok, mindegyikük hozzájárulását a végeredményhez a következő diagram mutatja:



Ezért nem hagytuk fel a SYSmark 2012 használatát, és továbbra is a mérőszámait használjuk a közös teljesítmény értékelésére.



Az első teszt nagy csalódás. A nyolcmagos FX-8150 eredménye mindössze 10%-kal jobb a hatmagos Phenom II X6 1100T teljesítményénél, és természetesen egyáltalán nem éri el a négymagos Intel processzorok teljesítményét. Tehát az AMD által választott taktika, hogy nagyszámú, alacsony fajlagos teljesítményű magot építsen be a processzorba a közepes számú összetett helyett, általában nem ad pozitív eredményt.

A SYSmark 2012 eredményeinek mélyebb megértése betekintést nyújthat a különféle rendszerhasználati forgatókönyvek során elért teljesítménypontszámokba.

Az Office Productivity forgatókönyv a tipikus irodai munkát szimulálja: szövegkészítés, táblázatok feldolgozása, munkavégzés emailbenés internetes oldalak látogatása. A szkript a következő alkalmazáskészletet használja: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash player 10.1, Microsoft Excel 2010, Microsoft internet böngésző 9, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 és WinZip Pro 14.5.



A Médialétrehozási forgatókönyv egy reklám létrehozását szimulálja, előre rögzített digitális képek és videók felhasználásával. Erre a célra a népszerű Adobe csomagokat használják: Photoshop CS5 Extended, Premiere Pro CS5 és After Effects CS5.



A webfejlesztés egy olyan forgatókönyv, amelyen belül a webhely létrehozását modellezik. Felhasznált alkalmazások: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5 Mozilla Firefox 3.6.8 és Microsoft Internet Explorer 9.



Az Adat/Pénzügyi elemzés forgatókönyve az Statisztikai analízis valamint a piaci trendek előrejelzése, amelyeket a Microsoft Excel 2010 programban hajtanak végre.



A 3D modellezési szkript háromdimenziós objektumok létrehozásáról, valamint statikus és dinamikus jelenetek megjelenítéséről szól az Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 és Google SketchUp Pro 8 segítségével.



Az utolsó forgatókönyv, a Rendszerkezelés, magában foglalja a biztonsági mentések létrehozását, valamint a szoftverek és frissítések telepítését. Többen érintettek itt különböző verziók Mozilla Firefox Installer és WinZip Pro 14.5.



Különböző használati modellek esetén a Bulldozer mikroarchitektúrájú processzor alapvetően eltérő eredményeket produkál. Néhány esetben még a Phenom II X6-nál is lassabbnak bizonyul, de vannak fordított helyzetek is. Általánosságban az általános szabály a következő: az FX-8150 előnye különösen akkor válik szembetűnővé, ha a munkaterhelés többszálú és jól párhuzamosított, de számításilag nem bonyolult.

Az FX-8150 azonban még a legkedvezőbb helyzetekben is lemarad a Core i5-2500 mögött. Az egyetlen forgatókönyv, ahol ezek a processzorok sebessége összehasonlítható, a 3D-s renderelés. Az Intel ajánlata átlagosan lenyűgöző 25%-kal előzi meg az AMD új termékét. Szomorúan.

Játékteljesítmény

Mint ismeretes, a modern játékok túlnyomó többségében a nagy teljesítményű processzorokkal felszerelt platformok teljesítményét a grafikus alrendszer ereje határozza meg. Éppen ezért a processzorok tesztelésekor igyekszünk olyan teszteket végezni, hogy a lehető legjobban eltávolítsuk a videokártya terhelését: a leginkább processzorfüggő játékokat választjuk ki, és a teszteket az anti-teszt bekapcsolása nélkül hajtjuk végre. álnévvel és nem a legnagyobb felbontású beállításokkal. Vagyis a kapott eredmények nem annyira a modern videokártyás rendszerekben elérhető fps-szint értékelését teszik lehetővé, hanem azt, hogy a processzorok elvileg mennyire teljesítenek játékterhelés mellett. Ezért a bemutatott eredmények alapján nagyon is feltételezhető, hogy a processzorok hogyan fognak viselkedni a jövőben, amikor gyors opciók grafikus gyorsítók.


















A játékok nem tartoznak a párhuzamosított többszálú terhelést generáló feladatok kategóriájába. Ezért a mai játékalkalmazásokhoz a négymagos processzorok alkalmasabbak, nem pedig az AMD által kínált többmagos szörnyek. Ennek az állításnak világos szemléltetését látjuk az alábbi ábrákon. Az új nyolcmagos FX-8150 nem gyorsabb, mint hatmagos elődje, a Phenom II X6.

Ami a Zambezi és a Sandy Bridge játékteljesítményének arányát illeti, az AMD még mindig sokkal pesszimistább az új termékkel kapcsolatban. A jelenlegi Intel processzorok mikroarchitektúrája sokkal jobban kezeli a 3D-s játékok által generált tipikus terhelést, és nincs remény arra, hogy az AMD valaha is utolérje a versenytárs processzorokat ebben a feladatkategóriában. Más szóval, a Bulldozer játékrendszerekben való használatának csak akkor van értelme, ha biztosak vagyunk abban, hogy egy adott processzor teljesítménye elegendő egy adott videoalrendszerhez egy adott játékkészletben. Azonban még ebben az esetben is be kell látni, hogy a következő videógyorsító frissítéssel komoly hátrányban maradhat azokkal a felhasználókkal szemben, akik kezdetben a platformot és a modern Intel processzorokat preferálták.

Továbbá játék tesztek Bemutatjuk az Extreme profillal elindított Futuremark 3DMark 11 szintetikus benchmark eredményeit is.



Az eredmények összeadásának célja az volt, hogy bemutassuk az FX-8150 esetében az ideális helyzetet, amikor a videó alrendszer nem teszi lehetővé a processzorteljesítmény teljes megvalósítását. Itt a fő terhelés a videokártyára esik, és a processzor csak támogató szerepet játszik. Ilyen esetekben a Bulldozer és a Sandy Bridge processzorok egyenlő teljesítményéről beszélhetünk, bár ez természetesen nem teljesen igaz.



Az FX-8150 azonban a 3DMark 11 fizikai tesztjén is jól néz ki (a korábbi eredményekhez képest). fizikai modell Az AMD új nyolcmagos processzora a négymagos Core i5-2500-hoz hasonló sebességgel fut.

Tesztek alkalmazásokban

Összességében a Bulldozer súlyozott átlaga és játékteljesítménye az asztalon jóval elmaradt a várakozásainktól. Azonban ne essünk kétségbe, és próbáljuk megtalálni azokat az eseteket, amikor az új AMD mikroarchitektúra képes megmutatni erősségeit.

A processzorok sebességének mérésére az információk tömörítésekor a WinRAR archiválót használjuk, amellyel a maximális tömörítési arány mellett archiválunk egy mappát különféle fájlokkal, összesen 1,4 GB-os méretben.



Az FX-8150 eredménye közel áll a Core i5-2500-hoz. A WinRAR nem tartozik azon alkalmazások közé, amelyek párhuzamosítani tudják a számításait mind a nyolc Bulldozer magon, de úgy tűnik, hogy a gigantikus cache memória megmenti a helyzetet.

Az archiválási sebesség második hasonló tesztjét a 7-zip programban, az LZMA2 tömörítési algoritmus segítségével hajtják végre.



7-zip-ben az FX-8150 teljesítménye dicséretes. Ez a nyolcmagos processzor képes megközelíteni a négymagos Core i7-2600 sebességét, amely magában foglalja a Hyper-Threading támogatását, és amely a Bulldozerhez hasonlóan nyolc szálat tud egyszerre végrehajtani.

A processzorok titkosítási teljesítményét a népszerű TrueCrypt kriptográfiai segédprogram beépített referenciaértéke méri. Meg kell jegyezni, hogy nem csak tetszőleges számú mag hatékony betöltésére képes, hanem egy speciális AES utasításkészletet is támogat.



A Bulldozer mikroarchitektúrának jól párhuzamosított, egyszerű egész algoritmusokra van szüksége. Ilyen esetekben, mint látjuk, nagyon kiemelkedő teljesítmény érhető el. A titkosítás terén az FX-8150 csak a hatmagos Core i7-990X mögött van, és megelőzi az LGA1155 platform összes processzorát.

A hang átkódolási sebességének tesztelésekor az Apple iTunes segédprogramot használják, amely a CD tartalmát AAC formátumba konvertálja. vegye észre, az jellemző tulajdonság Ez a program csak néhány processzormagot képes használni.



A kisszámú számítási szálat generáló programokat jobb távol tartani a Bulldozertől. Ennek a CPU-nak néhány magja túl gyenge ahhoz, hogy ilyen esetekben megfelelő eredményeket mutasson.

Az Adobe Photoshop teljesítményét saját tesztünkkel mérjük, amely egy kreatívan átdolgozott Retusáló művészek Photoshop sebességteszt, amely négy, digitális fényképezőgéppel készített 10 megapixeles kép tipikus feldolgozását foglalja magában.



A Photoshopban az FX-8150 teljesítménye nem olyan vészes, mint a K10 mikroarchitektúrájú processzoroké, de még így is messze elmarad a Core i5-2500-tól. A Bulldozer mikroarchitektúrájához ebben az esetben nyilván jó segítség a nagy cache memória, de ezzel önmagában nem lehet messzire vinni. A számítási magok hatékonysága és fajlagos teljesítménye továbbra is kiemelten fontos.

Az Adobe programban is teszteltük. Photoshop Lightroom 3. A tesztforgatókönyv magában foglalja száz 12 megapixeles kép utófeldolgozását és exportálását JPEG formátumba RAW formátumban.



A Lightroom tetszőleges számú magon keresztül képes párhuzamosítani a fotófeldolgozást, ezért a nyolcmagos FX-8150 itt jó eredményeket mutat. A „nem rossz” azonban ebben az esetben relatív fogalom, valójában a teljesítménye csak a Core i5-2500-hoz hasonlítható. Ez azt jelenti, hogy két Bulldozer mag egy Sandy Bridge magnak felel meg Hyper-Threading támogatás nélkül.

Az Adobe Premiere Pro teljesítményét a HDV 1080p25 videót tartalmazó projekt H.264 Blu-Ray formátumban történő megjelenítési idejének mérésével tesztelik, különféle effektusokkal.



Az AMD processzorok a videó átkódolással is jól megbirkóztak előző generáció. A Bulldozer mikroarchitektúrája lehetővé tette a teljesítmény enyhe növelését az ilyen jellegű alkalmazásokban, és ennek eredményeként az FX-8150 még a Core i5-2500-nál is gyorsabb.

Az Adobe After Effects segítségével végzett videószerkesztés sebességét előre meghatározott szűrők és effektusok futási idejének mérésével értékelték, beleértve az elmosódást, egyenetlenség létrehozását, képkocka keverését, ragyogás létrehozását, mozgás defókusz hozzáadását, árnyékolást, 2D és 3D manipulációt, inverziót, stb.



Annak ellenére, hogy a terhelés jól párhuzamos, az FX-8150 lemarad az Intel versenytársai mögött az After Effectsben.

A videó H.264 formátumba történő átkódolási sebességének mérésére az x264 HD tesztet használják, amely az MPEG-2 formátumú, 720p felbontásban, 4 Mbit/sec adatfolyammal rögzített forrásvideó feldolgozási idejének mérésén alapul. Meg kell jegyezni, hogy ennek a tesztnek az eredményei nagy gyakorlati jelentőséggel bírnak, mivel a benne használt x264 kodek számos népszerű átkódoló segédprogram mögött áll, például a HandBrake, MeGUI, VirtualDub stb.






A videó átkódolásakor az x264 kodekkel az AMD processzorok mindig jó teljesítményt mutattak. A nyolcmagos mikroarchitektúra megjelenésével az eredményeik tovább nőttek, és most az FX-8150 még a második, leginkább erőforrásigényes kódolási lépésben is felülmúlja a Core i7-2600-at. Így aztán nagy nehézségek árán végre találtunk egy második alkalmazást a TrueCrypt mellett, ahol a Bulldozer mikroarchitektúrájú processzor teljesítménye hízelgő kritikákat érdemel.

Az Autodesk 3ds max 2011-ben a számítási teljesítményt és a renderelési sebességet a speciális SPECapc teszt segítségével mérjük. Ezzel a teszteléssel kezdjük használni a SPECapc új professzionális verzióját a 3ds Max 2011-hez.






A renderelés is azon feladatok közé tartozik, amelyeket többmagos mikroarchitektúrák esetén optimalizálni kell. De ennek ellenére az FX-8150 még mindig lassabb, mint a Core i5-2500 és Core i7-2600, nem beszélve a Core i7-990X-ről. Másrészt szégyenletes helyzet, amikor új processzor Az AMD veszít elődjével szemben, de ez itt nem észrevehető.

ban kapott eredményeket átlagolva egyedi alkalmazások, elmondhatjuk, hogy a mi alkalmazásainkon az FX-8150 körülbelül 14%-kal gyorsabb volt, mint a Phenom II X6 1100T. Ez pedig az esetek valamivel kevesebb mint felében tette lehetővé, hogy nem rosszabbul teljesített, mint a Core i5-2500. A következő Sandy Bridge modellel, a Core i7-2600-zal szembeni különbség azonban továbbra is jelentős, és meghaladja a 10%-ot.

Energia fogyasztás

Annak ellenére, hogy sikerült találnunk egy olyan feladatsort, amelyben a Bulldozer teljesítménye elfogadhatónak mondható, az új mikroarchitektúrára épülő processzorok egyáltalán nem tűnnek forradalminak. Az egyetlen remény az energiafogyasztásra marad, mert korábban az AMD processzorok ebben a paraméterben több mint jelentősen alacsonyabbak voltak versenytársaiknál. Most, ha hinni a fejlesztők ígéreteinek, a mikroarchitektúra hangsúlyosabbá vált az energiahatékonyságra, és az új 32 nm-es technológiai eljárásnak hozzá kellett volna járulnia az elektromos jellemzők javításához. Nézzük tehát az FX-8150-et a wattonkénti teljesítmény lencséjén keresztül.

A következő grafikonok, hacsak nincs másképp jelezve, a teljes rendszerfogyasztást mutatják (monitor nélkül), a tápellátás „után” mérve, és a rendszerben részt vevő összes komponens energiafogyasztásának összegét ábrázolják. Magának a tápegységnek a hatásfokát ebben az esetben nem veszik figyelembe. A mérések során a processzorok terhelését a LinX 0.6.4 segédprogram 64 bites verziója teremtette meg. Ezenkívül az üresjárati energiafogyasztás helyes becslése érdekében aktiváltuk az összes rendelkezésre álló energiatakarékos technológiát: C1E, C6, AMD Cool"n"Quiet és Enhanced Intel SpeedStep.



Üresjáratban a Bulldozer mikroarchitektúrára épített processzoros rendszerek fogyasztása alacsonyabb lett, mint a Phenom II család CPU-it tartalmazó hasonló rendszereké. A modern Intel LGA1155 rendszerek azonban lényegesen kevesebbet fogyasztanak készenléti üzemmódban.



Abban az esetben, ha a számítási terhelés egyszálú, a Socket AM3+ rendszerek fogyasztása meredeken növekszik, nyilvánvalóan a Turbo Core technológia nagy agresszivitása miatt. Nem ez a helyzet az Intel processzorokra épített rendszerek esetében, és ismét lényegesen magasabb energiahatékonysággal büszkélkedhetnek.



Teljes többszálú terhelés esetén a helyzet nem sokban különbözik. Vajon csak az LGA1366 Core i7-990X processzorral rendelkező rendszer „előre jutott”. Különben minden olyan, mint régen. Az energiafogyasztást tekintve az FX-8150 nem büszkélkedhet különösebb sikerrel. Kicsit kevesebbet fogyasztott, mint a Phenom II X6 1100T, de a Sandy Bridge processzorok legalább másfélszer gazdaságosabbak.

Az AMD az új mikroarchitektúra bevezetésével elért energiahatékonyságot az órafrekvenciák növelésére használta fel. És ennek eredményeként nem látunk semmit új szint hatékonyságot, sem pedig alapvetően jobb teljesítményt. Ennek megfelelően az egy wattra jutó teljesítményt tekintve a Bulldozer, akárcsak elődei, komolyan alulmúlja az Intel versengő mikroarchitektúráit.

Tájékoztatásul a teljes terhelés melletti fogyasztást mutatjuk be, külön mérve a processzor és a tápegység áramkörében. alaplap.






A nyolcmagos FX-8150 „tiszta” fogyasztása megközelítőleg kétszerese a Sandy Bridge processzorokénak. Figyelembe véve, hogy mindkét processzort ugyanazzal a technológiai eljárással gyártják, és hasonló magfeszültségűek, hihetetlenül érdekessé válik, mire gondolt az AMD, amikor Bulldozer mikroarchitektúrájának energiahatékonyságáról beszélt.

Túlhúzás

A Socket AM3+ platform és az FX sorozatú processzorok kezdetben túlhúzóként vannak elhelyezve. Ezt bizonyítja mind az összes szorzó teljes feloldása, mind az AMD égisze alatt végzett kísérletek, amelyek során az FX-8150 processzorok egyikével túlhúzási világrekord született. Ígéretesnek tűnnek a cég nyilatkozatai is, miszerint az új mikroarchitektúrát magas órajel-frekvenciára optimalizálták. Tényleg kapunk egy új túlhajtási csodát az AMD-től? Ellenőrizzük.

Bármely FX processzor túlhajtása nagyon egyszerű; nem véletlenül van közvetlenül a logójukra írva az „Unlocked”. A processzor működési frekvenciája módosítható szorzóval vagy keresztül BIOS beállítások, vagy speciális segédprogramokon keresztül, amelyeket maga az AMD (Overdrive Utility) és az alaplapgyártók is biztosítanak. Hasonlóan, a Socket AM3+ rendszerekben túlhajtható az északi híd és a processzorba épített memória.

A tesztelés során az FX-8150-ünk stabil működését tudtuk elérni 4,6 GHz-es frekvencián. Ebben az állapotban a stabilitás érdekében a processzor tápfeszültségét 1,475 V-ra kellett növelni, és ezen felül engedélyezni kellett a Load-Line Calibration funkciót. A stabilitási tesztek során az ezen a frekvencián működő processzor hőmérséklete nem haladta meg a 85 fokot a foglalatérzékelő szerint, illetve a 75 fokot a processzorba épített szenzor szerint. A hő eltávolítására emlékeztetünk arra, hogy egy hatékony NZXT Havik 140 léghűtőt használtak.



Felhívjuk figyelmét, hogy ezzel párhuzamosan a CPU-ba épített északi hidat is igyekeztünk túlhajtani, mert ennek frekvenciájának növelése pozitívan befolyásolja a harmadik szintű gyorsítótár és memóriavezérlő sebességét. Sajnos azonban ennek a processzorcsomópontnak a jelentős túlhajtása láthatatlan akadályba ütközött, és nem tudott 2,4 GHz feletti frekvenciát elérni, hiába próbáltuk ezzel párhuzamosan a tápfeszültségét növelni.

Az FX-8150 4,6 GHz-re történő túlhajtása mindenesetre jó eredmény, különös tekintettel arra, hogy a Phenom II családba tartozó AMD processzorokat ritkán hajtották túl levegőben 4,0 GHz-en túl. Más szóval, a Bulldozer mikroarchitektúrája valójában lehetővé tette a frekvenciahatár kissé magasabbra tolását.

Az FX processzorok túlhajtását azonban elsősorban nem a régi Phenom II-vel, hanem a versengő Core i5 és Core i7 processzorokkal kell összehasonlítani az LGA1155 rendszerekhez. De nyilvánvalóan nem gyorsulnak rosszabbul. Például egy meglehetősen tipikus túlhajtás a Core i5-2500K-nál a feszültség 0,15 V-tal a névleges fölé történő növelésével és használatával légkondicionáló– ez 4,7 GHz. És ennek fényében az FX-8150 eredménye már nem tűnik olyan ragyogónak.

A Zambezi túlhajtásának benyomása még jobban romlik, ha összehasonlítjuk a túlhúzott FX-8150 és a túlhúzott Core i5-2500K teljesítményét (a névleges módhoz viszonyított teljesítménynövekedést zárójelben jelezzük):



Általában a túlhajtás nem változtatja meg az eredmények minőségét. De ahol az FX-8150 gyorsabb volt névleges üzemmódban, a különbség csökkent. És ahol a Core i5-2500 volt az élen, megszilárdította előnyét. Nem meglepő: az FX-8150 frekvenciája túlhajtáskor 28%-kal nőtt, míg a Core i5-2500K frekvenciája 42%-kal nőtt. És általában, amint az a túlhúzásból származó teljesítménynövekedés nagyságrendje alapján megítélhető, a Sandy Bridge mikroarchitektúrája érzékenyebben reagál a frekvenciák növekedésére. Vagyis még ha figyelembe vesszük a túlhúzást is, a Bulldozer mikroarchitektúrájú processzorok, bár elég jól túlhajtják, nem tűnnek erősebbnek, mint az Intel versenytársai.

következtetéseket

Siker vagy kudarc? Bizonyára sokan szeretnének egyértelmű ítéletet látni a cikk végén. Ebben az esetben azonban minden nagyon kétértelmű, és az AMD nagyon nehéz helyzetbe hozta a bírálókat a Bulldozerével.

A tény az, hogy az AMD teljesen nem szabványos megközelítést mutatott be a mikroarchitektúra fejlesztésében. Tekintettel arra, hogy a processzor teljesítménye három összetevőből áll: a processzormagban végrehajtott utasítások számából órajel ciklusonként, frekvenciából és magok számából, a fejlesztők prioritásukat a magok számára helyezték át. Ezzel párhuzamosan csökkent az egyes magok fajlagos teljesítménye, de az így létrejött dizájn megnyitotta az utat az olcsó nyolcmagos vagy még bonyolultabb processzorok létrehozása előtt. Ez egy nagyon erős lépés a szerverpiac számára, ahol a többszálú terhelések uralják a helyet, és komoly kereslet mutatkozik a nagyszámú maggal rendelkező processzorokra. Tehát nagyon valószínű, hogy az új Bulldozer mikroarchitektúra lehetővé teszi az AMD számára, hogy jelentősen javítsa pozícióját a teljesítmény szerverek piacán.

Ma azonban megismerkedtünk az erre a mikroarchitektúrára épített, de arra törekvő FX processzorral asztali számítógépek. És itt vált teljesen nyilvánvalóvá a Bulldozer hardveres képességei és a tipikus asztali munkaterhelés közötti eltérés. Különösen kiábrándító, hogy a marketingkampányt úgy építették fel, hogy sokan hittek a Bulldozerben, mint az asztali számítógépek piacán feltörekvő sztárban. Ezek a remények azonban nem váltak valóra.


Az FX processzorok, amelyek a Bulldozer mikroarchitektúrán alapulnak, csak a megoldások egy kis részében tudták bemutatni erősségeiket. hétköznapi felhasználók feladatokat. A tipikusan elterjedt alkalmazások között nem sok olyan példa van, amely egyszerű egészszámú többszálú munkaterhelést generál, és a Bulldozer nagy teljesítménye csak ebben az esetben mutatkozik meg. Ennek eredményeként néhány esetben a Bulldozer nemcsak lassabbnak bizonyult, mint az Intel versengő megoldásai, de még rosszabbnak is bizonyult, mint az előző generációs mikroarchitektúrára épített Phenom II X6 processzor. Ez pedig azt jelenti, hogy az AMD-nek nem sikerült forradalmian új asztali processzort gyártania.

Valójában az FX csak a következő Phenom, ami önmagában is egész jónak tűnik, főleg az elődökhöz képest. Az FX processzorok általában gyorsabbak, mint a Phenom II, lényegesen jobbak a túlhajtásuk és valamivel alacsonyabb a fogyasztásuk, így az elavult K10 mikroarchitektúra hordozóinak megfelelő helyettesítőnek tekinthetők.

Azonban emlékeztessünk arra, hogy az AMD nemcsak önmagával, hanem az Intellel is hadilábon áll. Ezért továbbra is kénytelenek vagyunk hangot adni annak a kiábrándító következtetésnek, hogy az FX processzoroknak csak azokon az asztali gépeken van valódi értelme, amelyek a videófeldolgozásra és átkódolásra összpontosítanak. Más esetekben a Sandy Bridge processzorokhoz képest teljesítményük ritkán tűnik biztatónak. Ugyanez mondható el az energiafogyasztásról és a túlhajtásról is. Külön hozzá kell tenni, hogy az AMD FX processzorok a várakozásoknak megfelelően rossz választásnak bizonyultak a játékrendszerekhez, mivel a modern 3D-s játékok gyakorlatilag nem használnak igazán többszálas algoritmusokat. Az AMD-termékek rajongói azonban valószínűleg ezt is kibírják majd, tekintve, hogy a játékok másodpercenkénti képkockáinak számát sokszor a grafika korlátozza, nem a processzor.

Más szóval, az FX processzorok piaci kilátásai két tényezőtől függnek: mekkora az AMD-hívek serege; és arról, hogy a gyártó milyen ügyesen fogja kezelni az árkart. A Bulldozer mikroarchitektúrájú asztali processzorok azonban várhatóan nem fognak széles körben népszerűvé válni.

Mint ismeretes, az Intel több mint öt éve ragaszkodik a „Tick-Tock” fejlesztési stratégiához, páratlan években változtatva a gyártási folyamaton, páros években pedig a mikroarchitektúrán. Az AMD teljesen más politikát követ, és az új technológiák elkészültekor fejleszti modelljeit. Így, Utolsó frissítés A cég csaknem négy éve végzett mikroarchitektúrát, kiadva a Phenom CPU-t a K10-en, amely azóta három technikai folyamatot sajátított el – 65 nm-t az Agena, 45 nm-t Deneb és 32 nm-t Llano esetében. Előbb-utóbb azonban minden fejlesztésben rejlő lehetőségek kimerülnek, és sürgőssé válik a gyökeres megújítása.

És ellentétben az Intellel, amely kétévente szisztematikusan frissíti mikroarchitektúráját, az AMD ezt valamivel ritkábban teszi, de több változtatást és fejlesztést vezet be. Valójában az első Athlon K7-en való megjelenése óta csak két, de jelentős és radikális frissítés történt - a 2003-ban bemutatott, az Athlon 64 alapjául szolgáló K8, valamint a már említett K10. Phenom és Athlon II családok. Igen, a cég ezt követően növelte termékeiben a frekvenciákat, a gyorsítótárakat és a magok számát, megváltozott technológiai folyamatok, de szerkezetük, amely egész CPU családok alapja és „szíve”, megingathatatlan maradt.

Egy kis elmélet

Az AMD FX processzorokban debütáló új Bulldozer mikroarchitektúra jelentősen eltér az előző - K10 -től, és ráadásul nem illeszkedik a korábbi frissítések stratégiájába, amikor a mérnökök igyekeztek kijavítani hiányosságaikat és hangsúlyozni előnyeiket. A K10-et nézve a K8 és a K7 körvonalait, általános topológiáját láthattuk benne, és ha ugyanezt tesszük a Sandy Bridge-nél, akkor az utóbbiban a korábbi Nehalem és Conroe számos jellemzője észrevehető.

Ha pedig előveszi a Bulldozert, azonnal észreveszi, hogy valójában teljesen más, mint a K10 és más x86-kompatibilis mikroarchitektúrák. Elődeihez képest az új termék nem kevésbé szokatlan, mint egy repülőgép helikopterrel szemben. Nézzük meg részletesebben, de azonnal fenntartással élek, hogy megpróbálom elmagyarázni a változtatások lényegét és természetét anélkül, hogy belemennék a technikai dzsungelbe és a finomságokba, mivel a többség számára ez unalmas és érdektelen, és akiknek szükségük van rá, már tudják, hol találják az őket érdeklő információkat.

A fő különbség a Bulldozer és a többi jelenlegi processzor mikroarchitektúra között az x86 magok elrendezése, amelyek most párban helyezkednek el egy „modulban”, és megosztják egymás között a fennmaradó erőforrásokat - a valódi számítási egységet (FPU), a második szintű gyorsítótárat ( L2) és az úgynevezett „front end” , utóbbiról alább lesz szó. Így az új mikroarchitektúra minden modulja valami a hagyományos kétmagos CPU és a Hyper-Threading processzormag között van.

Bizonyos értelemben ez még a Hyper-Threading gondolatának továbbfejlesztése is, de ellentétben vele, ahol két szál ugyanannyi hardvererőforrást „oszt szét”, a Bulldozer modulban két szál osztozik az erőforrások egy részén, és néhányan de a jól megválasztott egyensúly, az összes „nehéz” és „drága” (a tranzisztor költségvetése szempontjából) blokk két mag között van elosztva, és maguk az x86 magok duplikálva vannak, mivel a modulban lévő tranzisztorok teljes számának csak körülbelül 12%-át költik mindegyikre.

Az egész és címműveletek végrehajtása szempontjából minden modul két teljes értékű és független magot képvisel, amelyek között valós számítások során FPU erőforrásokat osztanak fel. Ugyanezek a magok valójában az FPU-t szolgálják ki, utasításokat küldve neki a végrehajtásra, az adatok betöltésére és kirakodására, a MOP-ok tárolására és selejtezésére, mivel a számítási szálak, a renden kívüli parancsvégrehajtási mechanizmusok és az első szintű adatgyorsítótárak (L1D) hozzá vannak kötve. őket.

Nyilvánvaló, hogy ennek a sémának az egyetlen maggal szembeni fő előnye a megnövekedett teljesítmény többszálú terhelések esetén, különösen az egész számok számításaira fektetve a hangsúlyt. Próbáljuk meg részletesebben megvizsgálni a Bulldozer fő blokkjait.

Elülső vég

Valójában a „front end” olyan logikai eszközök halmaza, amelyek utasításokat készítenek a számítási eszközökön történő végrehajtáshoz. Tartalmaz elágazás előrejelző egységeket, amelyek pontossága befolyásolja, hogy a CPU milyen gyakran lesz tétlen, amíg a szükséges adatok átvitelére vár a RAM-ból vagy a gyorsítótárakból, egy első szintű utasítás-gyorsítótár (L1I) és egy dekóder, amely „lefordítja” az x86-os utasításokat. érthetőekké.. aktuátoroknál a típus a MOP.

Az ezeket a blokkokat érintő változások ellentmondásosak. Egyrészt nőtt az átmenet-előrejelzések pontossága. A gyorsítótárból történő dekódoláskor az adatok 32 bájtos darabokban kerülnek beolvasásra, mint például a K10, ami jó és kétszer annyi, mint a Sandy Bridge. Az utasításokat most négy csatorna dolgozza fel, nem pedig három, mint a K7-K10 esetében. És ez az egyik legfontosabb és régóta várt fejlesztés a mikroarchitektúrában. Az AMD azonban csak most mutatott be négycsatornás dekódert, míg az Intel öt éve mutatta be a Conroe-ban (Core2). Ugyanakkor az utasítás-gyorsítótár valójában ugyanolyan méretű és asszociativitással rendelkezik (64 KB, 2-utas), mint a K10-ben, ahol a K7 óta különösebb változtatás nélkül migrált.

Azt sem szabad elfelejteni, hogy most az utasítás-gyorsítótárra és a dekóderre is nem egy, hanem két szálra lesz szükség, így képességeik feltételesen kettéoszthatók egy intenzív többszálú terhelés során. Összefoglalva azt mondhatjuk, hogy az új „front end” bizonyos tekintetben jobban, bizonyos szempontból rosszabbul néz ki, mint elődei, és a feladat jellegétől függően megmutatja erősségeit és gyengeségeit.

X86 magok

Ezek a modulonként kettő darabos blokkok pontosan a Bulldozer jellegzetes jellemzői, és lehetővé teszik, hogy egy modul két utasításfolyamot dolgozzon fel. parancsok végrehajtása (Out-of-Order Execution), nevezetesen a dekódertől kapott MOP-ok puffere (Sheduler), egy eszköz a végrehajtott utasítások visszavonására (Retire), maguk az egész végrehajtási egységek és címgeneráló eszközök (ALU és AGU), x86 magonként két darab, valamint az első szintű adatgyorsítótár (L1D) és a loading unloading unit (LSU).

Az x86 Bulldozer mag sok tekintetben a K10 egész blokkra hasonlít, de számos észrevehető és ellentmondásos változás van.Először is, az ALU-k és AGU-k száma háromról kettőre csökkent a K10-hez képest. Egyrészt , ez az elméleti csúcsteljesítmény másfélszeres csökkenése, másrészt szinte lehetetlen kipréselni a gyakorlatban, így nem nagy a veszteség, pedig van Másodszor, az adatgyorsítótár lett A K10-nél négyszer kisebb, 64 KB helyett 16 KB, de asszociativitása két útról négyre nőtt, így ezt nevezhetjük indokolt hangerő-cserének a sebességre.

Nos, az LSU mindenben jobb lett, a pufferek névleges és effektív kapacitása is jelentősen nőtt, az írási műveletek bitkapacitása pedig megduplázódott.

FPU

A processzor talán egyik legfontosabb blokkja - a valódi számítási blokk - felelős, ahogy sejthető, a lebegőpontos műveletek végrehajtásáért, valamint az összes verzió SSE utasításkészleteinek, AVX, FMA és egyedi utasítások végrehajtásáért. Valójában a Bulldozer FPU ma a legerősebb és legfunkcionálisabb, és nagyrészt ennek köszönhetően az AMD abban reménykedik, hogy legyőzi a Sandy Bridge mikroarchitektúrán alapuló konkurens Intel megoldásokat.

Az FPU Bulldozer alapja két FMAC-eszköz, egyenként 128 bites kapacitással. Ellentétben a K10-zel, ahol az összeadás és szorzás műveletek voltak különböző eszközök, ezek univerzálisak, és a támogatott parancsok teljes skáláját képesek végrehajtani. Elmondhatjuk, hogy az AMD az aszimmetrikus FPU működtető szerkezetről a szimmetrikusra vált. Két x86-os mag közötti erőforrás-megosztás esetén mindegyik saját FMAC-eszközzel működhet.

Az egyetlen kivétel a 256 bites AVX parancsok végrehajtása, amely esetben mindkét számítástechnikai eszköz egyetlen egységként hajtja végre ezt a műveletet. Sőt érdemes megjegyezni, hogy ha 256 bites kapacitású AVX-műveletek esetén az órajelciklusonkénti teljesítménye megegyezik az FPU Sandy Bridge-vel, akkor ha az AVX-műveletek kapacitását 128 bitre csökkentik, akkor végrehajtásuk sebessége kétszerese. magas.

A sebesség mellett érdemes megjegyezni a funkcionalitást. Mint már említettük, a Bulldozer valós számítási blokk támogatja az FMA (fused multiply-add) A = B x C + D formájú parancsokat. Ráadásul a szorzás eredményét nem kerekítik az összeadás előtt, ami pozitív hatással van a pontosságra. Összességében elmondható, hogy az FPU minden tekintetben jobb, mint a korábbi AMD mikroarchitektúrákban, és a mérnökök büszkék lehetnek a munkájukra.

Gyorsítótárak és Northbridge

A gyorsítótár alrendszer is több fontos változáson ment keresztül a K10-hez képest. Mint már említettük, az első szintű adatgyorsítótár (L1D) felcserélte a kapacitást az asszociativitásra, az utasítás-gyorsítótár (L1I) pedig gyakorlatilag változatlan maradt. A második szintű gyorsítótárat (L2), amelyet korábban csak egy mag használt, most a modul két x86-os magja osztja meg. Ezenkívül az L2 gyorsítótár mérete 512 KB-ról 2 MB-ra nőtt a K10-hez képest. Az asszociativitás szintje változatlan maradt, 16 irányú.

Ez azt jelenti, hogy a nyolcmagos, négy modulból álló, Bulldozer mikroarchitektúrával rendelkező CPU négy második szintű gyorsítótárat használ, összesen 8 MB kapacitással. De valószínűleg a mennyiség növekedése és az erőforrások két mag közötti megosztásának szükségessége is negatív nyomot hagyott a második szintű gyorsítótár elérési idejében. A harmadik szintű gyorsítótár és memóriavezérlő a K10-hez hasonlóan saját, a modulok frekvenciájánál alacsonyabb frekvencián működik. A bejelentett processzoroknál ez típustól függően 2-2,2 GHz. Ez kevesebb, mint a Sandy Bridge, ahol az integrált memóriavezérlő és az L3 gyorsítótár magsebességgel működik. A Bulldozer harmadik szintű gyorsítótára most 8 MB, asszociativitása pedig 64 irányú, ami harmadával több, mint a Denebé (6 MB, illetve 48 irányú).

Érdemes azt is felidézni, hogy az AMD processzorok gyorsítótára az úgynevezett exkluzív séma szerint szerveződik, amikor a különböző szintű gyorsítótárak adatai nem duplikálódnak, és ezek teljes mennyisége hatékonynak tekinthető. Összegezve a gyorsítótárakat, elmondom, hogy az L1 és L2 változások jelentősek, de nem egyértelműek, és az L3 a K10 fejlesztések logikus továbbfejlesztésének tűnik.

Az AMD FX CPU-memóriavezérlő nem változott lényegesen, továbbra is kétcsatornás, a DDR3 memóriamodulok natívan támogatott frekvenciája pedig 1866 MHz-re nőtt.

Turbo Core 2.0

Az AMD Phenom II X6 modelljeiben debütált automatikus túlhajtási technológiát jelentősen továbbfejlesztették, és sokban hasonlít a Sandy Bridge termékcsaládhoz. Megjelent a processzorban speciális blokk, amely figyeli az aktuális CPU-fogyasztást és a magterhelést, és ezen információk alapján módosítja a modulmagok frekvenciáját. Ha a CPU fogyasztás nem haladja meg a TDP-t, akkor az összes mag frekvenciája egy adott értékkel a bázis fölé emelhető.

Például az AMD FX-8150 esetében a frekvencia a normál 3,6 GHz-ről 3,9 GHz-re nő mind a nyolc mag esetében. Ha pedig a processzorfogyasztás TDP alatt van, és a magok egy része tétlen is, akkor a betöltött magok frekvenciája még magasabbra, akár 4,2 GHz-re is emelkedhet az AMD FX-8150 esetében. Az igazság kedvéért érdemes felidézni, hogy az AMD Llano-ban hasonló technológiát használnak, amely nem csak a CPU magok fogyasztását veszi figyelembe, hanem az integrált grafikus processzort is.

Elmélet – következtetés

Mit is mondhatnánk az új mikroarchitektúra összegzésére? Amint fentebb már látható volt, sok változás van, mindegyik mély és kétértelmű. Kétségtelen, hogy a Bulldozer az AMD új mikroarchitektúrája. Ez egyben azt is jelenti, hogy nagyon félreérthetően tud mutatkozni, helyenként a K10-nél valamivel gyengébb teljesítményt, máshol pedig sokkal többet mutat.

Azonban a modern utasításkészletek és a frekvencia automatikus növelésére szolgáló technológiák támogatása, a többszálú munkaterhelések megcélzása szempontjából az AMD új fejlesztése nem rosszabb, mint versenytársa - a Sandy Bridge, és bizonyos esetekben még jövedelmezőbbnek tűnik. És bár észrevehető, hogy Bulldozer rendelkezik egész sor gyenge pontok, a jövőben könnyen kiküszöbölhetők.

Valószínűleg ez lesz a cég stratégiájának alapja a következő évekre. A Bulldozer befektetésnek tekinthető a jövőbe, ez a következő mikroarchitektúrák váza, amely „húst” vesz, és teljesítménynövekedést biztosít. A jelenlegi tervek szerint az AMD évente, és nem néhány évente frissíti majd processzorai mikroarchitektúráját, aminek 10-15%-os teljesítménynövekedését és a jövőbeli megoldások energiahatékonyságának növekedését kell eredményeznie.

Külön szeretnék megemlíteni egy pontot a számítási szálak magok közötti eloszlásával kapcsolatban. A Windows 7 jelenlegi formájában nem optimalizálja a Bulldozer mikroarchitektúrával rendelkező processzorokat, és nem tudja megfelelően elosztani a szálakat, ami bizonyos esetekben teljesítményvesztéshez vezet, mivel a CPU nem tud frekvencianövelő technológiákat használni, vagy a függő számítási szálak az L3-on keresztül cserélnek adatot. , és nincs több gyors L2, mivel különböző modulok kerneléhez voltak kötve.

Az AMD az anyagaiban azt jelzi, hogy a Windows 8 ütemező már a Bulldozerrel is megfelelően működik, és a Windows 7-hez képest bizonyos esetekben akár 10%-ot is elérhet a teljesítményelőny, ami ugyebár elég sok. Azonban talán a Microsoft kiad egy javítást a "hét" számára, amely megtanítja ezt a népszerűséget operációs rendszer helyesen osztja el a szálakat az új AMD processzorokhoz.

Itt az ideje, hogy befejezze az elméletet, és meglátja, mi lehet a kedvére új zászlóshajó AMD a gyakorlatban.

Vizsgálati eszközök és módszertan

A processzor-lapkakészlet-memória kombináció sebességét a következő alkalmazások értékelték:

  • Cinebench 10;
  • Cinebench 11.5;
  • Pov-Ray Minden CPU Összes másodperc;
  • TrueCrypt Serpent-Twofish-AES;
  • wPrime 2.00;
  • x264 v3(elavult verzió, agresszív optimalizálás nélkül a többszálú feldolgozáshoz);
  • x264 v4 (egy új verzió, jól optimalizált többszálú feldolgozásra új kodekekkel);
  • WinRAR;
  • Photoshop CS5 x64(több tucat szűrőből álló sorozat használatával);
  • Autodesk Revit Architecture 2012(ház 3D-s rajzának vizualizálása).

Próbapad

Számos rendszer vett részt a tesztelésben nagyszámú alkatrészkészlettel, beleértve az alaplapokat is. Az alábbi táblázat lehetővé teszi, hogy megismerkedjen az állványok teljes leírásával, valamint a konfigurációk működési módjaival.

Anyai
fizetés
N.B.LapkakészletFrekvencia
memória
Mennyiség
magok
Frekvencia
gumiabroncsok
TényezőTurbóProcesszor neve
/mód
ASUS Crosshair V 2200 FX990 1333 8 200 21 4200 MHzFX 8150
3600 MHz
MSI 990FXA-GD80 2000 FX990 1333 6 200 16.5-18.5 3700 MHzPhenom II 1100
3300 MHz
MSI 990FXA-GD80 2000 FX990 1333 4 200 18.5 - Phenom II 980
3700 MHz
MSI 990FXA-GD80 2000 FX990 1333 4 200 15.5 - Athlon II 645
3100 MHz
MSI A75MA-G55 - A75 1333 4 100 29 - A8 3850
2900 MHz
MSI A75MA-G55 - A75 1333 4 100 24-27 2700 MHzA8 3800
2400 MHz
MSI A75MA-G55 - A75 1333 4 100 26 - A6 3650
2600 MHz
MSI A75MA-G55 - A75 1333 3 100 21-24 2400 MHzA6 3500
2100 MHz
MSI A75MA-G55 - A75 1333 2 100 27 - A4 3400
2700 MHz
MSI Z68A-GD80 - Z68 1333 4 100 34-38 3800 MHzi7 2600K
3400 MHz
MSI Z68A-GD80 - Z68 1333 4 100 33-37 3700 MHzi5 2500
3300 MHz
MSI Z68A-GD80 - Z68 1333 4 100 31-34 3400 MHzi5 2400
3100 MHz
ASUS P6X58D 2667 X58 1333 4 133 23 3060 MHzi7 930
2800 MHz
MSI Z68A-GD80 - Z68 1333 2 100 31 - i3 2100
3100 MHz
ASUS Crosshair V 2200 FX990 1866 8 200 21 4200 MHzFX 8150
3600 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 29 - A8 3850
2900 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 24-27 2700 MHzA8 3800
2400 MHz 1866
MSI A75MA-G55 - A75 1866 4 100 26 - A6 3650
2600 MHz 1866
MSI A75MA-G55 - A75 1866 3 100 21-24 2400 MHzA6 3500
2100 MHz 1866
MSI A75MA-G55 - A75 1866 2 100 27 - A4 3400
2700 MHz 1866
MSI Z68A-GD80 - Z68 1866 4 100 34-38 3800 MHzi7 2600K
3400 MHz 1866
MSI Z68A-GD80 - Z68 1866 4 100 33-37 3700 MHzi5 2500
3300 MHz 1866
ASUS Crosshair V 2200 FX990 1866 8 200 22.5 - FX 8150
4500 MHz
MSI 990FXA-GD80 2380 FX990 1820 6 340 12.5 - Phenom II 1100
4250 MHz
MSI 990FXA-GD80 2400 FX990 1600 6 200 21 - Phenom II 1100
4200 MHz
MSI 990FXA-GD80 2400 FX990 1600 4 200 22.5 - Phenom II 980
4500 MHz
MSI 990FXA-GD80 2240 FX990 1500 4 280 16 - Phenom II 980
4480 MHz
MSI A75MA-G55 - A75 2000 4 150 29 - A8 3850
4350 MHz
MSI A75MA-G55 - A75 2040 4 153 27 - A8 3800
4133 MHz
MSI A75MA-G55 - A75 1900 4 142 26 - A6 3650
3700 MHz
MSI A75MA-G55 - A75 1900 3 142 24 - A6 3500
3400 MHz
MSI A75MA-G55 - A75 2050 2 154 27 - A4 3400
4160 MHz
MSI 990FXA-GD80 2170 FX990 1650 4 310 12 - Athlon II 645
3720 MHz
MSI Z68A-GD80 - Z68 1866 4 100 48 5000 MHzi7 2600K
5000 MHz
MSI Z68A-GD80 - Z68 1866 4 100 45 - i7 2600K
4500 MHz
ASUS P6X58D 3200 X58 1600 4 200 21 - i7 930
4200 MHz

  • RAM: kapacitás 8 GB, (2x4). Időzítések 9-9-9-24-2T, frekvencia 1333 MHz-től 2050 MHz-ig, a beállításoktól és a tesztelési körülményektől függően;
  • Videókártya: AMD HD 6790;
  • Merevlemez: SSD Crucial M4 128 GB;
  • Tápellátás: Tagan TG1100-U95 1100 W;
  • Operációs rendszer: Microsoft Windows 7 x64 Sp1.

És három tesztelési mód:
1. Névleges processzorfrekvenciák, memória 1333 MHz.
2. Névleges processzorfrekvenciák, memória 1866 MHz.
3. Túlhúzás, a memória a szorzótól függően más-más frekvencián működik.

Vizsgálati eredmények

A kiindulópont egy olyan konfiguráció volt, amely egy 990FX lapkakészletre épülő alaplapból, egy AMD FX 8150 CPU-ból és 1333 MHz-en működő memóriából állt, 9-9-9-24-2T időzítéssel.

Cinebench 10

Beállítások:

  • Egyszálas és többszálas teszt.
  • CPU profil.

Pontok

Névleges mód: Teljesítmény 1 CPU | Több CPU

Az egymagot és az összes magot is használó teszt nem a legjobb helyzetet mutatja egy kezdő számára, aki úgy érzi, nincs helye, ha csak egy magra esik a terhelés. Miután a program az összes magot felhasználja, a helyzet jelentősen megváltozik, és az Intel i5-2500 közvetlen versenytársává válik. Az AMD azonban pontosan így pozícionálja a CPU-ját a 8150-es indexhez, és ha az FX teljesítményét az i7-930-zal hasonlítjuk össze, meggyőződhetünk az előbbi fölényéről az utóbbival szemben.

Pontok

Memória 1866 MHz-en: Teljesítmény 1 CPU | Több CPU

Kérjük, engedélyezze a JavaScriptet a grafikonok megtekintéséhez

A túlhúzott memória kevés hatással van a modern AMD processzorok teljesítményére, így nem kell a boltba rohanni és nagyfrekvenciás modulokat beszerezni.

Pontok

Túlhúzás: Performance 1 CPU | Több CPU

Kérjük, engedélyezze a JavaScriptet a grafikonok megtekintéséhez

Az FX 8150 még mindig rosszul érthető, a túlhajtás pedig az alaplap és a processzor megértésének nehézségeivel jár. A hőmérsékletből egyértelműen kiderült, hogy a Bulldozer képes magasabb frekvencián működni, de más szorzók nem kapcsoltak be. Úgy gondolom, hogy idővel a gyártók többször frissítik a BIOS-t, mielőtt az összetevők barátságosabbá válnának. A 4,5 GHz azonban nem rossz adat, és ennek a túlhúzásnak köszönhetően az újonc magabiztosan megelőzi szinte az összes Intel processzort a többszálas tesztben, kivéve a túlhúzott i7-2600K-t.

Név1 CPU%xCPU %Átlagos
FX 8150 3600 MHz 0 0 0
Phenom II 1100 3300 MHz 2 -9 -4
Phenom II 980 3700 MHz 5 -26 -11
Athlon II 645 3100 MHz -20 -46 -33
A8 3850 2900 MHz -18 -42 -30
A8 3800 2400 MHz -28 -51 -40
A6 3650 2600 MHz -27 -47 -37
A6 3500 2100 MHz -37 -66 -51
A4 3400 2700 MHz -28 -72 -50
i7 2600K 3400 MHz 52 12 32
i5 2500 3300 MHz 49 1 25
i5 2400 3100 MHz 34 -7 14
i7 930 2800 MHz 8 -15 -4
i3 2100 3100 MHz 23 -46 -11
FX 8150 3600 MHz 1866 0 1 0
A8 3850 2900 MHz 1866 -17 -40 -28
A8 3800 2400 MHz 1866 -27 -48 -37
A6 3650 2600 MHz 1866 -24 -46 -35
A6 3500 2100 MHz 1866 -36 -65 -50
A4 3400 2700 MHz 1866 -26 -72 -49
i7 2600K 3400 MHz 1866 52 16 34
i5 2500 3300 MHz 1866 50 1 25
FX 8150 4500 MHz 10 23 16
Phenom II 1100 4250 MHz 20 14 17
Phenom II 1100 4200 MHz 19 14 16
Phenom II 980 4500 MHz 27 -11 8
Phenom II 980 4480 MHz 26 -11 8
A8 3850 4350 MHz 23 -12 6
A8 3800 4133 MHz 17 -17 0
A6 3650 3700 MHz 6 -25 -10
A6 3500 3400 MHz -1 -49 -25
A4 3400 4160 MHz 13 -56 -22
Athlon II 645 3720 MHz -4 -34 -19
i7 2600K 5000 MHz 106 52 79
i7 2600K 4500 MHz 83 46 64
i7 930 4200 MHz 49 18 34

Az AMD ritkán hódol a friss processzorarchitektúráknak. Ha az Intel kétévente frissíti a szerkezetet, akkor a versenytárs legutóbb 2007-ben jegyezte meg, amikor kiadta a K10-et, a régi K8 újratervezett változatát. Tehát egy új Bulldózer megjelenése jelentős esemény. A következő néhány évben az architektúra lesz az összes AMD kristály alapja, és az első is hosszú ideje lehetőséget, hogy felvegye a versenyt az Intellel a teljesítményversenyben.

Párként megyünk

A Bulldozer létrehozásával az AMD mérnökei feladták a régi fejlesztések javításának és részleges másolásának bevált stratégiáját. A kövek szerkezete alapvetően eltér attól, amit az x86-os rendszerekben megszoktunk.

Az első és legfontosabb újítás az eredeti elrendezés. A Bulldozer összes legjobb verziója hivatalosan nyolc maggal van felszerelve. A valóságban azonban négy teljes értékű modul létezik, csak mindegyikben két számítási egység található. Így néz ki: két egész aritmetikai fürt (ezeket magoknak hívják, és közvetlenül a számításokért felelősek) osztozik egy Front-Enden, egy lebegőpontos fürtön (FPU) és egy 2 MB-ra növelt második szintű gyorsítótáron.

Az ilyen tandem előnye a helytakarékosság, az energiafogyasztás és a termelési költségek csökkentése. Mínusz - megosztás ugyanazok a készletek rosszak a végső előadásra. Nagy terhelés mellett előfordulhat, hogy egy Front-End nem tud megbirkózni két maggal. Az AMD nem tagadja a teljesítményvesztést: szerinte a duó mintegy 20%-kal gyengébb egy teljes értékű kétmagos processzornál.

Kommunikációs nehézségek

A szűk keresztmetszet kiküszöbölése érdekében a Front-Endnek meg kellett tanulnia az erőforrások hatékony megosztását a két mag között. Ennek elérése érdekében újratervezték az elágazás előrejelző egységet és a parancsdekódert, amely egy negyedik csatornát kapott az utasítások feldolgozásához (mint a Sandy Bridge-ben) és a technológia számára. Branch Fusion. Ez utóbbi lehetővé teszi, hogy az utasítások egy részét egyetlen műveletbe ragassza. Mindez felgyorsítja a Front-End munkáját, és megakadályozza, hogy a kristály tétlen legyen.

Ami magukat a magokat illeti, ez egy sor Out-of-Order, load/Unload, L1 cache és két számítási fürt. A renden kívüli végrehajtási egység most már rendelkezik egy fizikai fájlregiszterrel. A Sandy Bridge-hez hasonlóan a munkaadatok tárolására szolgáló címek kerülnek bele, ami lehetővé teszi a fő Out-of-Order csővezeték kirakását. A be-/kiürítési processzor megnövelt puffert kapott, megduplázta a bitkapacitást és a virtuális címekkel való munkavégzés képességét, ami elméletileg növeli az L1 adatgyorsítótárral való munka sebességét. Ez utóbbi a Bulldozerben négyszer kisebb lett: 16 versus 64 KB a K10-ben. A veszteséget a munka gyorsasága kompenzálta. Az L1 asszociativitás kettőről négy csatornára nőtt, ami kétszeresét jelenti O nagyobb keresési hatékonyság.

Egy modulban három számítási klaszter található: két egész szám és egy a lebegőpontos adatokkal való munkavégzéshez. A K10-hez képest az első pár elvesztett egy ALU-t (számítással foglalkozik) és AGU-t (memóriacímekkel foglalkozott). Elméletileg ez csökkentett csúcsteljesítményt jelent. A gyakorlatban a változás gyakorlatilag észrevehetetlen lesz: nehéz az egész klasztereket teljesen betölteni.

A főbb változások az FPU-t érintették, amely az összetett lebegőpontos számításokért felelős. A K10-ben sokkal erősebb lett: kapott egy pár MMX és 128 bites FMAC eszközt az összeadási és szorzási műveletek végrehajtására. A K10-től eltérően az FMAC-okat univerzálissá tették: helyettesíthetik egymást, ami pozitív hatással van a számítási sebességre. Ráadásul megtanulták kombinálni a műveleteket egy kifejezésben, ami növelte a számítások pontosságát.

Ezenkívül az FPU frissített utasításokat kapott. Először is, a processzor mostantól AVX-szel működik, amely támogatja a 256 bites regisztereket. Számításaikhoz, akárcsak a Sandy Bridge-ben, két FMAC-t kombinálnak. Másodszor, a Bulldozer képes együttműködni az SSE 4.2, AENSI, FMA4 és XOP utasításokkal. Az utolsó két készlet az AMD egyedi. Számodra és nekem mindezek a változtatások csak egy dolgot jelentenek - a korábban több órajelben végrehajtott parancsok most egyben lesznek kiszámítva, és ez közvetlenül befolyásolja a teljesítményt. Igaz, a sebességnövekedés megtapasztalásához a szoftver utasításainak támogatása szükséges.

Ragasztó és olló

Ennek eredményeként minden Bulldozer modul egy Front-End, L2 és L1 adatgyorsítótárból, két egész klaszterből és egy blokkból áll a lebegőpontos számokkal való munkavégzéshez. Összesen egy kő legfeljebb négy ilyen készletet tartalmazhat. Ugyanakkor mindegyikük számos hozzáféréssel rendelkezik közös elemek. Az első egy kétcsatornás memóriavezérlő, amely támogatja a DDR3-1866 MHz-et. A második az L3 gyorsítótár, amelynek mennyisége a K10-hez képest 6-ról 8 MB-ra nőtt, az asszociativitás pedig 48-ról 64 csatornára. Vegye figyelembe, hogy a Sandy Bridge-től eltérően az L3 gyorsítótár frekvenciája nem esik egybe a magok sebességével. Ha a csúcsmodell 3,6 GHz-es sebességgel működik, akkor a legújabb szint memóriája 2,2 GHz-es. Ez észrevehető késésekhez vezet, amelyek negatívan befolyásolják a teljesítményt. Az AMD szerint ezt az áldozatot a magas frekvenciákon való stabil működés érdekében hozták.

Tadam!

Az építészeti trükkök és a 32 nm-es technológiai technológia ellenére a Bulldozer lenyűgöző 315 négyzetmétert foglal el. milliméter. Ez körülbelül másfélszer több, mint a négymagos Sandy Bridge és régebbi Llano. Szerencsére az energiafogyasztást ésszerű határok között tartották - 125 W.

A nyolcmagos modellek mellett vannak hat és négy számítási egységgel rendelkező változatok is. A fiatalabb testvérek ugyanazon a nyolcmagos kialakításon alapulnak, de egy vagy két modult letiltottak.

Az alapfrekvencia 3,1 és 3,6 GHz között változik. A Sandy Bridge-hez hasonlóan a Bulldozer is rendelkezik automatikus túlhajtási technológiával. Egy speciális chip felelős Turbo Core 2.0, figyeli az aktuális magterhelést és a TDP szintet, és amint lehetőség adódik, növeli a processzor frekvenciáját. Felső kristály esetén, ha minden modult használunk, a sebesség 300 MHz-el növelhető. Ha az erőforrások egy része tétlen - 600 MHz-en. Alacsony terhelésnél a Bulldozer energiatakarékos üzemmódba lép, ezért a technológia a felelős Cool"n"Csendes.

A kézi túlhajtás egyszerű. Először is, az egész sornak van egy zárolatlan szorzója. Másodszor, az újonnan érkezők jól megnövelik a magasságot: folyékony nitrogén alatt a régebbi Bulldozer új világrekordot állított fel - 8429 MHz.

Társak

A Bulldozer Socket AM3+-on működik. Lényegében ez egy kicsit továbbfejlesztett AM3 egy további tűvel. Az új processzorfoglalattal rendelkező lapkakészleteket hívják 990FX, 990XÉs 970 . Ezek különböznek a PCIe 2.0 vezérlőben. A régebbi modell 32 sorral van felszerelve, a fiatalabbak - 16. Sőt, a 990FX és a 990X támogatja a CrossFireX-et. A lapkakészletek jellemzői közül hat SATA Rev portot említünk. 3 és 14 USB csatlakozók 2.0. Nincs USB 3.0 vezérlő.

Vegye figyelembe, hogy a Bulldozer régebbi táblákon is működhet. Csak egy frissített BIOS kell. Korlátozások: A Turbo Core és a Cool"n"Quiet reakciósebessége csökkent, és néhány energiatakarékos funkció nem érhető el.

A Bulldozer processzor architektúrája érdekesnek bizonyult. Végül az AMD abbahagyta a másolást, és valami igazán újjal állt elő. Sajnos kevés egyértelmű előny van a versenytársakkal szemben. Nincs deklarált nyolc mag. Jó értelemben négymagos modelljeink vannak megnövelt számítási egységgel, például Intel Hyper-Threading, de hardver szinten. Az ötlet jó, de a teljesítmény a Front-End gyorsaságától függ. A Bulldozer valódi előnyei közé tartozik a lebegőpontos számításokhoz szükséges nagy teljesítményű FPU és a megnövelt működési frekvencia a K10-hez képest.

Tekerjük ki! Temessük el!

Az AMD bejelentette, hogy a következő processzorsorokat tervezi kiadni. A vállalat azt várja, hogy évente frissíti az architektúrát, és minden alkalommal körülbelül 15 százalékos teljesítménynövekedést ér el wattonként. Ha az AMD tartja magát a tervéhez, 2012-ben láthatjuk az architektúrát Pilediver("koper"), egy évvel később - Gőzhenger(„gőzhenger”), 2014-re pedig a bejelentés miatt emlékezünk meg Kotrógép. Ilyen az építési munka.

Rossz ablakok

Az AMD szerint Windows 7 képtelen kiaknázni az új alkotásban rejlő lehetőségeket: az operációs rendszer ütemezője nem veszi figyelembe a Bulldozer funkcióit. Például az új processzoroknál fontos, hogy az egymáshoz kapcsolódó szálak egy modulhoz legyenek hozzárendelve, különben a magok nem a gyors L2 cache-n, hanem a harmadik szintű memórián keresztül cserélnek adatot. Néhány megosztott adatfolyamot is jobban kezelnek hasonló módon, hogy javítsák a Turbo Core 2.0 hatékonyságát. Eközben konkrét feladatokat nagy terhelést hozzon létre a blokkon Front End, és jobb, ha szétszórja őket a különböző modulok között. Az együttműködésnek köszönhetően Microsoft ezeket az árnyalatokat a tervező figyelembe veszi Windows 8. Jelentős teljesítménynövekedésre azonban nem kell számítani.

Szótár

Integer Computing Cluster- egész számokkal (1, 2, 10) végzett műveletekkel foglalkozik.

Front-End- prefetch blokk. Parancsokat kap a programtól és lefordítja azokat a processzor számára érthető nyelvre.

FPU- lebegőpontos adatszámítások klasztere. Számításokat végez törtszámokkal (1,2345) és nagy értékekkel, hatványokkal (1,2345E-10).

Elágazás előrejelzési blokk- előre megjósolja, hogy a következő pillanatban milyen adatokra, műveletekre lehet szüksége a programnak. Nem engedi, hogy a processzor üresjáratban legyen.

Parancs dekóder- mikroműveletekre bontja a programot, amelyeket aztán a számítási klaszterek használnak fel.

Nem működik- rendkívüli végrehajtás blokkja. Foglalkozott a műveletek elosztásával a magok között. Csak azokat a parancsokat küldi el számításra, amelyekhez van adat.

Blokk be-/kiürítése (LSU) - figyeli az adatok mozgását a szállítószalag kimenete és az L1 adatgyorsítótár között.

Gyorsítótár asszociativitás- gyorsítótár sorok és oszlopok összekapcsolása. Minél nagyobb az asszociativitás, annál kisebb a keresési sebesség, de annál nagyobb a hatékonysága.

MMX- blokkok készlete 8 bájtig terjedő számokkal való munkavégzéshez.

Utasítási készletek- lehetővé teszi, hogy egy parancs több adaton hajtson végre műveletet.

Asztal 1

Az AMD Bulldozer processzorok specifikációi

Számítástechnikai magok száma

Alapfrekvencia

Turbó magfrekvencia

Memória támogatás

Energia fogyasztás

Technikai folyamat

2011. novemberi ár

ismeretlen