Zlepšení v jádře
Prvním vylepšením je osmipoložkový řadič instrukcí namísto šestipoložkového. Scheduler (jak je tato část nazývána) řadí instrukce za sebou v takovém pořadí, aby bylo možné co nejvíce vytížit výpočetní jednotku, tedy spočítat co nejvíce za co nejkratší dobu. U Athlonu jsou tři Schedulery po šesti položkách, v Athlonu 64 jsou tři po osmi.
Výsledek: Zvýšení průměrného vytížení výpočetních jednotek, a tedy nárůst průměrného výkonu. Špičkový výkon (v praxi však téměř nedosažitelný) je stejný - spotřeba díky tomu neporoste.
Dalším zlepšením je rychlost násobení celých čísel. Zatímco v Athlonu XP trvalo násobení 32bit registrů čtyři cykly, Athlonu 64 to trvá jen tři. Čtyři cykly trvá násobení 64bitových registrů.
Výsledek: V mnoha aplikacích značně vyšší výkon při stejné frekvenci (špičkově až o 25 procent).
Konečně posledním čistě výpočetním vylepšením je přidání podpory instrukční sady Streaming SIMD Extensions 2 (SSE2). Ta byla uvedena v procesoru Pentium 4 a umožňuje provádět jak celočíselné, tak výpočty s plovoucí desetinnou čárkou - 128 bit velikost registru umožňuje počítat čtyři 32 bit nebo dvě 64 bit hodnoty v jednom průchodu.
Výsledek: V některých aplikacích vyšší výkon, především však kompatibilita s aplikacemi optimalizovanými pro Pentium 4.
Zm─¢ny v cache
Kolem paměti cache se točí výkon novodobých procesorů. To je také důvod, proč téměř každý nový procesor má nějak změněnou cache oproti svému předchůdci.
V čem se liší cache procesoru Athlon 64 FX-51 od stávajících procesorů Athlon XP ? Zde je kompletní výpis použitých cache u obou procesorů:
Kromě již známé změny ve velikosti L2 cache na 1 MB jsou tu i jiné změny, o kterých se zatím příliš nemluvilo - jedná se především o zdvojnásobení velikosti Data a Instruction Translation Look-Aside Bufferů v L2 z 256 na 512 záznamů v L2 a totéž provedené u L1 Instruction TLB (z 16 na 32 záznamů).
Kromě této záležitosti, která zlepší práci s pamětí, byla rozšířena datová šířka mezi L1 cache a L2 cache ze 64 bitů na 128 bitů. Nicméně toto nemá extrémně velký význam, z architektury je vidět, že řadič pamětí může dodávat data přímo do L1 cache, zvýšená propustnost mezi L1 a L2 je tak využitelná jen v některých případech jako při práci s SSE2 instrukcemi nebo velkými datovými bloky. Pro architekturu procesorů AMD je velice důležitá L1 cache, nikoliv L2 cache, jak je tomu u procesorů Pentium 4.
No a konečně samotná cache paměť byla zrychlena snížením latencí a procesor v ní provádí předdekódování pro účely předpovědi větvení kódu.