Torna indietro   Hardware Upgrade Forum > Componenti Hardware > Processori

La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing
La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing
Abbiamo visto ancora una volta la Formula E da vicino, ospiti di Jaguar TCS Racing. In questa occasione però curve e rettilinei erano quelli di un circuito permanente, molto diverso dagli stretti passaggi delle strade di Roma
Lenovo LEGION e LOQ: due notebook diversi, stessa anima gaming
Lenovo LEGION e LOQ: due notebook diversi, stessa anima gaming
Lenovo ha puntato forte sul gaming negli ultimi anni e lo testimoniano i marchi LEGION e LOQ, il primo per gli amanti delle massime prestazioni e dell'assenza di compromessi, il secondo per chi desidera soluzioni dal buon rapporto tra prestazioni e prezzo. Abbiamo provato due esponenti dell'offerta, così da capire l'effettiva differenza prestazionale.
Nothing Ear e Ear (a): gli auricolari per tutti i gusti! La ''doppia'' recensione
Nothing Ear e Ear (a): gli auricolari per tutti i gusti! La ''doppia'' recensione
Nothing propone sul mercato non uno ma ben due auricolari nuovi: Ear di terza generazione e Ear (a) ossia un nuovo modello a basso costo pronto a ritagliarsi una fetta di mercato. Entrambi rimangono fedeli al marchio per il design ancora trasparente ma fanno un balzo in avanti notevole per qualità e soppressione del rumore.  
Tutti gli articoli Tutte le news

Vai al Forum
Discussione Chiusa
 
Strumenti
Old 30-09-2009, 12:32   #1
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
[Thread Ufficiale] Aspettando Bulldozer *leggere prima pagina con attenzione*

[Thread Ufficiale]

CPU serie FX

AMD "Bulldozer"

Aspettando

AMD "Piledriver"

(CPU a 32nm SOI)


Premessa.

Questo Thread ha lo scopo primario di raccogliere notizie e indiscrezioni sulle nuove CPU con architettura Bulldozer e CPU Piledriver (Bulldozer di seconda generazione) con tecnologia produttiva a 32nm SOI HKMG.
Il [Thread Ufficiale] AMD APU Llano (Desktop) e aspettando Trinity - Krishna/Wichita lo provate a questo indirizzo!
Il thread ufficiale su Zacate/Ontario, APU a 40nm Bulk, lo provate a questo indirizzo!
Per cercare di avere ordine il thread sarà diviso in 6 pagine ognuna dedicata dal riassunto di uno specifico argomento.

Indice del thread


Prima Pagina:
Premessa, indice e regolamento del Thread

Seconda Pagina
Caratteristiche Architettura AMD Bulldozer

Terza Pagina
Modelli attualmente/prossimamente in commercio

Quarta Pagina
Notizie dalla rete

Quinta Pagina
Link recensioni CPU serie FX dalla rete

Sesta Pagina
Approfondimento su Bulldozer/Piledriver

Settima Pagina
Post di servizio



Regolamento

* non sono ammessi notizie o commenti sull'andamento finanziario ( compreso i titoli quotati in borsa ) o di mercato da parte di AMD e/o Intel.
* non sono ammessi commenti catastrofici o comunque in grado di generare FLAME
* non sono graditi commenti stile Fanboy sia da parte AMD sia da parte Intel
* non sono ammessi post stile "consigli per gli acquisti"; in pratica niente consigli o suggerimenti per la scelta di un nuovo hardware
* non sono ammessi discussioni sulle CPU K8/K9 Athlon64/X2
* Le discussioni sull'architettura K10 sarà consentita solo per confronti diretti o di paragone sulle prestazioni o differenze architetturali
* Cerchiamo di limitare al minimo gli argomenti OT, se proprio non ce la fate comunicate attraverso i messaggi privati
* Per evitare di appesantire eccessivamente il Thread le immagini postate non dovranno superare la risoluzione 800X600 pixel



Per evitare che i post OT e AMD vs Intel inquinino il Thread ricordo che il moderatore di sezione "gianni1879" vigila continuamente sull'andamento del thread; ogni grave violazione del regolamento del Thread e del forum saranno "segnalati" con possibili e probabili sanzioni più o meno gravi.


__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 13-10-2011 alle 16:35.
capitan_crasy è offline  
Old 30-09-2009, 12:33   #2
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
Caratteristiche Architettura AMD Bulldozer

Caratteristiche Architettura AMD Bulldozer

Nuova architettura CPU di AMD, la quale andrà a sostituire l'attuale Tecnologia "Hammer" dove si basano gli attuali K8/K9/K10.

Un po di storia

L'architettura Bulldozer è stata progettata completamente da zero, a differenza di quanto avvenuto con Barcelona e Shanghai che rappresentano evoluzioni dell'architettura K8.
L'annuncio fu dato prima ancora che il K10 fosse presentato ufficialmente, ma questo non era una assoluta novità per AMD.
Il progetto originario del primo Bulldozer prevedeva una CPU a 4/6 core sul processo produttivo a 45nm SOI con supporto alle SSE5.
L'uscita prevista era stata annunciata per fine 2009 dallo stesso neo CEO AMD Dirk Meyer e il suo concorrente diretto era l'architettura Nehalem di Intel.
Purtroppo dopo i primi risultati da laboratorio sui primi sample, AMD decise la cancellazione della versione a 45nm SOI per passare direttamente al processo produttivo a 32nm SOI con importanti cambi architetturali, quali l'abbandono delle istruzioni SSE5 e l'adozione delle AVX di Intel.
Non sapremo mai cosa andò storto, tuttavia la tecnologia low-k presente del Six core K10 AMD è cugina del lavoro svolto su Bulldozer a 45nm SOI.

Bulldozer in dettaglio

L'architettura Bulldozer prevede due core per elaborazioni Integer, affiancati da un'unità Floating Point che è condivisa.
La scelta di AMD è quella di raddoppiare la sola parte Integer delle proprie CPU, lasciando condivisa quella Floating Point, dato che la maggior parte del calcolo riguarda proprio le unità Integer (in media per l'80%). Questo tipo di filosofia architetturale ha l'obbiettivo di ottenere il miglior rapporto tra prestazioni e consumo duplicando la parte Integer, massimizzando quindi il parallelismo delle operazioni e lasciando unificata un'unità in virgola mobile la quale avrà al suo attivo una notevole potenza di calcolo.
Le caratteristiche della Floating Point per ogni modulo Bulldozer prevede due unità Multiply and Accumulate a 128 bit, a monte delle quali troviamo anche uno scheduler in virgola mobile; mentre per quanto riguarda le ISA sono supportate tutte le principali istruzioni (tranne le 3DNow) quali SSE3, SSE 4.1 and 4.2, AVX, AES, FMA4, XOP, PCLMULQDQ.
La principale novità sono le istruzioni AVX (Advanced Vector eXtensions) a 256bit; lo sfruttamento di queste istruzioni verrà compiuto da Bulldozer mettendo in parallelo le due unità Floating Point a 128bit la quale, dal tipo di applicazione in esecuzione, possono essere configurate anche come 4x64bit, 2x128bit e 1x256bit.
Altra novità importante e il nuovo decoder a 4 vie, completamente ridisegnato rispetto al tradizionale 3 vie adottato da AMD nelle ultime precedenti architetture (al K7 in su); la conseguenza diretta e che ora si può unire istruzioni branch x86 aumentando l'ampiezza del decoder.
Sono anche presenti 3 distinti scheduler divise per le due unità Integer e uno per il Floating Point.
Ogni unità Integer è dotata di una cache L1 per i dati da 16KB, valore inferiore ai 64KB integrati per ogni core nell'architettura K10, a monte dell'unità di fetch troviamo una seconda cache L1 da 64KB a 2 vie per istruzioni.
AMD, rispetto al K10, ha allungato la pipeline interna alle unità di calcolo Integer in modo da ottenere frequenze di clock più elevate rispetto alle sue "vecchie" architetture.
La scelta di questa soluzione però potrebbe provocare un eccessiva dipendenza dalle unità di branch prediction; AMD quindi ha integrato il Branch Prediction e il Fetch Logic facendoli operare in modo indipendente l'una dall'altra, evitando spiacevoli situazioni di stallo quando una di queste si arresti per un qualsiasi motivo. Un'unità di prefetch così aggressiva accoppiata a una pipeline più lunga, richiedono maggiori prestazioni (in termini di banda) per quanto riguarda il memory controller integrato; per il momento AMD non ha rilasciato le caratteristiche di questo componente, anche se ha confermato il suo totale ridisegno per fruttare al massimo la banda messa a disposizione dalle memorie RAM DDR3.
Non si conosce quali frequenze possa gestire il controller RAM, tuttavia è ipotizzabile che possa adottare configurazioni superiori agli attuali Dual channer presenti nei controller Ram dei K10.
La quantità della cache L2 (16 vie) dovrebbe essere da 2MB (valore non confermato ufficialmente da AMD) la quale sarà unificata tra i 2 core per modulo; ci sarà una anche una cache L3 verosimilmenteda 8MB (valore non confermato ufficialmente da AMD) condivisa anch'essa da tutti i moduli/core.
AMD con Bulldozer, al contrario di Intel con la tecnologia HyperThreading o l'SMT (Simultaneous Multi Threading) che esegue per ogni core due threads in parallelo, ha scelto di integrare due unità di calcolo Integer complete affiancate da una complessa unità in virgola mobile che è condivisa.





Bulldozer di fatto integra due core che condividono le risorse di elaborazione in virgola mobile, avendo pipeline dedicate per quelle Integer
AMD ha scelto la via della condivisione delle risorse, creata in modo tale da ottimizzare le prestazioni al consumo massimo ottenibile; non a caso si prevede che la presenza della sola seconda unità di calcolo Integer all'interno di ogni modulo Bulldozer, implichi un incremento della superficie complessiva del chip pari al 12%, valore particolarmente contenuto considerando il boost prestazionale ottenibile.
Sul capitolo consumi Bulldozer con i suoi moduli, potrà gestire dinamicamente e indipendentemente l'uno dall'altro il Vcore e frequenza di clock, anche se questo non può essere fatto per singolo core ma solo per coppia di core legato comunque al modulo Bulldozer.
Novità in vista anche per il Turbo Core AMD, introdotto con i K10 step E, la quale si dovrebbe avvicinare molto a quella Turbo Boost introdotta da Intel con le CPU della famiglia Nehalem.

Il socket AM3r2 o AM3+


AMD ha confermato l'uscita di un (nuovo?) socket chiamato molto genericamente AM3r2 o AM3+.
Al momento ci sono poche informazioni ma quello sicuro è che le CPU Bulldozer non saranno compatibili con gli attuali e future schede madri socket AM3.
La causa è da imputare ad un cambio radicale legate alla circuiteria di alimentazione; la stessa AMD ha dichiarato che adattare Bulldozer sugli attuali socket AM3 avrebbe portato ad un aumento dei costi finali e la impossibilità di utilizzare tutte le nuove caratteristiche della nuova architettura limitando eccessivamente le prestazioni finali.
Resta da confermare la compatibilità dei socket AM3+ sulle attuali CPU K10 socket AM3 attualmente presenti sul mercato.

Piattaforma AMD "Scorpius"

Con l'uscita delle CPU Bulldozer AMD presenterà una nuova piattaforma chiamata "Scorpius", la quale sarà composta da nuovi chipset AMD serie 900 modello 990FX, 990X (Crossfire ready) e 970.
Ci saranno anche dei nuovi southbridge serie 900, in particolare il modello Hudson D3 sarà in grado di supportare 4 porte USB 3.0 senza l'aiuto di chip esterni.





Le prime soluzioni della famiglia Bulldozer sono attese al debutto nella prima parte del 2011 e saranno costruite da GlobalFoundries con il processo produttivo a 32nm SOI.
Le prime cpu della famiglia Bulldozer che vedremo sul mercato con tutta probabilità saranno quelle della famiglia Opteron, con versioni 6/8/12 e 16 core.
Le versioni desktop della famiglia Zambezi sono attesi subito dopo con modelli 4/(forse)6 e 8 core.
AMD ha comunicato che Bulldozer sarà pronto nella prima parte del 2011.





__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 24-10-2010 alle 10:23.
capitan_crasy è offline  
Old 30-09-2009, 12:34   #3
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
Caratteristiche Tecnologia AMD Fusion

Perchè integrare CPU e GPU in un unico elemento

Integrazione tra GPU e CPU: è questa la principale evoluzione tecnologica che AMD e ATI si aspettano di presentare al mercato nei prossimi anni. Il nome scelto per i prodotti che integreranno GPU e CPU è quello di Fusion, che ben simboleggia l'unione tra architetture sulla carta e di fatto molto differenti tra di loro. La risultante saranno una serie di prodotti sviluppati per svariati ambiti di impiego, nei quali quindi la combinazione tra parte CPU classica e parte GPU assumerà pesi differenti tra di loro.

Per quale motivo si vuole giungere a fornire soluzioni che integrino al proprio interno una GPU? La principale giustificazione è legata all'elevata potenza elaborativa di cui sono capaci le GPU, in termini di Gflops, rispetto a quanto accessibile con una CPU. Merito di questo risultato è l'innata capacità delle GPU di eseguire un gran numero di elaborazioni parallele, richieste per la generazione delle scene 3D. Sfruttando un'analogia, una CPU opera come un aereo da combattimento, estremamente veloce ma in grado di trasportare solo due persone contemporaneamente; una GPU è invece paragonabile ad un aereo di linea, meno veloce in assoluto ma capace di trasportare molte più persone e quindi di svolgere complessivamente più lavoro.

Le GPU hanno una potenza di elaborazione massima teorica estremamente elevata, sintetizzata dai Gflops che possono processare; si tratta tuttavia di una capacità per molti versi vincolata, che può essere sfruttata solo con quelle applicazioni che richiedono l'elaborazione di un elevato numero di dati in parallelo. Per questo motivo gli ambiti di utilizzo delle GPU in elaborazioni non grafiche di calcolo generale, o più semplicemente GP-GPU, sono limitati ad alcune tipologie di elaborazione; è evidente come nel corso dei prossimi anni gli sviluppatori software, grazie all'introduzione delle OpenCL e anche alla disponibilità di GPU sempre più complesse oltre che potenti e estremamente programmabili, potranno operare ad una nuova tipologia di software dove la GPU si prenda in carico i calcoli più pesanti in modo da eseguire operazioni in minor tempo possibile.





Un pò di storia

In un intervista al vice presidente esecutivo AMD Henri Richard vengono svelati alcuni dettagli sulla tecnologia AMD Fusion.
"Penso che "Fusion" sia un processo evolutivo, piuttosto che una fusione"
In poche parole AMD pensa a questo progetto come un vero e proprio processo evolutivo delle attuali CPU.

Il primo tentativo in assoluto fu la creazione di un Dual core nativo K10 senza cache L3 a 45nm SOI la quale sarebbe stato accoppiato sullo stesso package una IGP della serie RV620 (cioè la stessa degli attuali chipset AMD 785G/880G) costruita a 55nm bulk; lo stile costruttivo era lo stesso dei processori Intel core Clarkdale.
Il progetto fu accantonato per problemi logistici legati alle differenti tecnologie costruttive dei due chip principali (CPU IBM SOI e GPU TSMC bulk); così il primo progetto Fusion fu cancellalo ma AMD come eredità rilasciò sul mercato il K10 Dual core nativo con il nome di Athlon2 core Regor.

APU Llano: il futuro di AMD!



AMD passò quindi allo scenario più complesso cioè un unico componente di silicio nel quale i transistor della parte CPU sono integrati con quelli della parte GPU e viceversa con tecnologia costruttiva a 32nm SOI.

APU (Accelerated Processing Unit) Llano sarà composto da core X86 derivanti dall'architettura K10 e una GPU DX11 costruiti e prodotti entrambi a 32nm con tecnologia SOI provenienti da Globalfoundries; questa soluzione rappresenterà la prima GPU ATI costruita con la tecnologia SOI di IBM.
Ciascuno dei core x86 implementati nella APU avrà una superficie complessive molto contenuta, pari a 9,69 millimetri quadrati, per un totale di poco più di 35 milioni di transistor; da questo conteggio è esclusa la cache L2 da 1 Mbyte, indipendente per ciascuno dei core. AMD dichiara un range di consumo variabile da un minimo di 2,5 Watt sino a 25 Watt per ciascuno dei core: questo significa, con tutta probabilità, che sarà possibile vedere sul mercato versioni di APU con valori di TDP molto diversi tra loro.
Grazie a alcune precise strategie di design, la APU introduce la modalità Package C6, la quale permette di diminuire l'alimentazione sull'intera struttura compresa la GPU e modulo UVD.
L'introduzione di tale modalità permette a ogni singolo core X86 di venir spento, anche il core grafico può essere completamente spento, mentre il consumo del controller RAM per la componente grafica può essere gestito dinamicamente.
Per ottenere tutto questo AMD ha implementato una singola linea di alimentazione VDDNB condivisa tra GPU, UVD, controller memoria grafico e northbridge; con questa è possibile gestire dinamicamente sia la tensione sia la frequenza di clock, con il primo elemento che viene selezionato in funzione dello stato nel quale si trovano questi componenti.
Ulteriore ottimizzazione al consumo dell'intero sistema è implementata con la tecnologia adaptive backlight modulation; in pratica l'immagine riprodotta a schermo viene analizzata in modo da ridurre gradualmente l'intensità della backlight incrementando la luminosità dei pixel, riducendo il consumo complessivo dello schermo senza che questo porti ad una variazione percepibile da parte dell'utente della luminosità complessiva dell'immagine a video.
Per metà 2012 AMD utilizzerà l'architettura Bulldozer di seconda generazione per le future soluzioni APU denominate "Trinity"; questo avverrà, con tutta probabilità nel corso del 2012.



Piattaforma AMD "Linx"






A partire dal 2011 AMD, per il mercato mainstream, presenterà la piattaforma "Linx" dove ci saranno le prime APU basate sulla tecnologia FUSION.
La APU sarà basata su 4 core X86-x64 AMD derivanti dall'architettura "Stars" o più comunemente chiamata K10; il modello di riferimento è il core Propus, naturalmente riveduto e corretto grazie anche al processo produttivo a 32nm SOI.
Llano avrà una cache L2 da 1MB per core X86, mentre la cache L3 sarà assente.
La GPU integrata nello stesso pezzo di silicio, dovrebbe avere 400/320 stream processors divisi in 6/5 SIMD engines con una capacità di calcolo massima classe; questa modello di APU avrà circa un 1 miliardo di transistor. "Gigaflops"; CPU e GPU condivideranno lo stesso controller di memoria DDR3 con una frequenza massima massima di 1866Mhz.
La nuova APU non avrà bisogno di alcun chipset o Northbridge tradizionale in quanto tale elemento sarà integrato; per quanto riguarda il Southbridge AMD presenterà la nuova serie Hudson; in particolare la versione Hudson M/D3 sarà il prima a supportare lo standard USB 3.0.





Lista modelli Socket FM1


☆A8-Series Socket FM1☆
32nm SOI
Quad core
Core Llano
Step B0
GPU DX11
cache L2 1MB x 4
Memoria supportata
Dual channel DDR3



・A8-3850 - HD6550D・
Frequenza di clock
2.90Ghz
Frequenza Turbo Core
Assente
Stream Processor GPU
400
Frequenza di clock GPU
600Mhz
Memorie Supportate
Dual channel DDR3-1333-1600-1866Mhz
TDP
100W

・A8-3800 - HD6550D・
Frequenza di clock
2.40Ghz
Frequenza Turbo Core
2.70Ghz
Stream Processor GPU
400
Frequenza di clock GPU
600Mhz
Memorie Supportate
Dual channel DDR3-1333-1600-1866Mhz
TDP
65W


☆A6-Series Socket FM1☆
32nm SOI
Quad core
Core Llano
Step B0
GPU DX11
cache L2 1MB x 4
Memoria supportata
Dual channel DDR3



・A6-3650 - HD6530D・
Frequenza di clock
2.60Ghz
Frequenza Turbo Core
Assente
Stream Processor GPU
320
Frequenza di clock GPU
443Mhz
Memorie Supportate
Dual channel DDR3-1333-1600-1866Mhz
TDP
100W

・A6-3600 - HD6530D・
Frequenza di clock
2.10Ghz
Frequenza Turbo Core
2.40Ghz
Stream Processor GPU
320
Frequenza di clock GPU
443Mhz
Memorie Supportate
Dual channel DDR3-1333-1600-1866Mhz
TDP
65W




Piattaforma AMD "Sabine"





Per il mercato Mobile AMD presenterà la piattaforma "Sabine".
La APU "Llano" in versione mobile sarà presumibilmente uguale alla versione Desktop, quindi con 4 core X86-x64 AMD K10 con L2 da 1MB senza cache L3; la GPU dovrebbe avere circa 400/480 stream processors con una capacità di calcolo massima classe "Gigaflops"; CPU e GPU condivideranno lo stesso controller di memoria DDR3.
Anche in questo caso la APU non avrà bisogno di alcun chipset o Northbridge tradizionale in quanto tale elemento sarà integrato; per quanto riguarda il Southbridge AMD presenterà la nuova serie SB900 la quale la versione Hudson M/D3 sarà il prima a supportare lo standard USB 3.0.



☆A8-Series Socket FS1☆
32nm SOI
Quad core
Core ???
GPU DX11
Step ??
cache L2 1MB x 4
Memoria supportata
Dual channel DDR3/DDR3L



・A8-3530MX - HD6620G・
Frequenza di clock
1.90Ghz
Frequenza Turbo Core
2.60Ghz
Stream Processor GPU
400
Frequenza di clock GPU
444Mhz
Memorie Supportate
Dual channel DDR3-1333-1600Mhz/DDR3L-800-1066-1333Mhz
TDP
45W

・A8-3510MX - HD6620G・
Frequenza di clock
1.80Ghz
Frequenza Turbo Core 2.0
2.50Ghz
Stream Processor GPU
400
Frequenza di clock GPU
444Mhz
Memorie Supportate
Dual channel DDR3-1333-1600Mhz/DDR3L-800-1066-1333Mhz
TDP
45W

・A8-3500MX - HD6620G・
Frequenza di clock
1.50Ghz
Frequenza Turbo Core
2.40Ghz
Stream Processor GPU
400
Frequenza di clock GPU
444Mhz
Memorie Supportate
Dual channel DDR3-1066Mhz-1333Mhz/DDR3L-800-1066-1333Mhz
TDP
35W


☆A6-Series Socket FS1☆
32nm SOI
Quad core
Core ???
GPU DX11
Step B?
cache L2 1MB x 4
Memoria supportata
Dual channel DDR3/DDR3L


・A6-3410MX - HD6520G・
Frequenza di clock
1.60Ghz
Frequenza Turbo Core
2.30Ghz
Stream Processor GPU
320
Frequenza di clock GPU
400Mhz
Memorie Supportate
Dual channel DDR3-1333-1600Mhz/DDR3L-800-1066-1333Mhz
TDP
45W

・A6-3400MX - HD6520G・
Frequenza di clock
1.40Ghz
Frequenza Turbo Core
2.30Ghz
Stream Processor GPU
320
Frequenza di clock GPU
400Mhz
Memorie Supportate
Dual channel DDR3-1066-1333Mhz/DDR3L-800-1066-1333Mhz
TDP
35W


☆A4-Series Socket FS1☆
32nm SOI
Dual core
Core ???
GPU DX11
Step B?
cache L2 1MB x 2
Memoria supportata
Dual channel DDR3/DDR3L


・A4-3310MX - HD6480G・
Frequenza di clock
2.10Ghz
Frequenza Turbo Core
2.50Ghz
Stream Processor GPU
240
Frequenza di clock GPU
444Mhz
Memorie Supportate
Dual channel DDR3-1066Mhz-1333Mhz/DDR3L-800-1066-1333Mhz
TDP
45W

・A4-3300M - HD6480G・
Frequenza di clock
1.90Ghz
Frequenza Turbo Core
2.50Ghz
Stream Processor GPU
240
Frequenza di clock GPU
444Mhz
Memorie Supportate
Dual channel DDR3-1066Mhz-1333-1600Mhz/DDR3L-800-1066-1333Mhz
TDP
35W


☆E2-Series Socket FS1☆
32nm SOI
Dual core
Core ???
GPU DX11
Step B?
cache L2 1MB x 2
Memoria supportata
Dual channel DDR3/DDR3L


・E2-3000M - HD6380G・
Frequenza di clock
1.80Ghz
Frequenza Turbo Core
2.40Ghz
Stream Processor GPU
160
Frequenza di clock GPU
400Mhz
Memorie Supportate
Dual channel DDR3-1066Mhz-1333Mhz/DDR3L-800-1066-1333Mhz
TDP
35W




Architettura "Bobcat"






Abbiamo visto come AMD per Llano abbia adattato una GPU ATI costruita con tecnologia bulk alla tecnologia SOI di IBM; per quest'altra APU AMD ha studiato il processo inverso.
In pratica ha adattato dei core X86 AMD utilizzando tecnologia produttiva bulk wafer TSMC con lo scopo di creare una CPU senza la tecnologia SOI di IBM, in modo da adattare i due componenti (CPU AMD e GPU ATI) in un unica catena produttiva.
Tale soluzione verrà utilizzata per la piattaforma "Brazus", composta da un APU con core X86 derivanti da una nuova architettura denominata "Bobcat" e una GPU DX11, costruiti entrambi con silicio 40nm bulk provenienti dalla fonderia TSMC; questa nuova soluzione andrà nello stesso mercato delle CPU ATOM di Intel.

"Bobcat" è il nome dell'architettura X86 studiata per i sistemi a basso consumo, dove attualmente vede le CPU Atom come leader.
Il primo elemento distintivo dell'architettura Bobcat è la possibilità di operare con un livello di consumo inferiore a 1 Watt con alcune specifiche versioni
A differenza di Atom, Bobcat è un architettura di tipo out of order, comune alla maggior parte dei moderni processori x86, questa soluzione permette di ottenere migliori prestazioni grazie alla possibilità del processore di riorganizzare le istruzioni in modo tale che la loro esecuzione sia la più efficiente possibile in termini di prestazioni velocistiche.
L'altra faccia della medaglia è un certo dazio da pagare in termini di consumi massimi; tuttavia Bobcat dovrebbe essere l'ideale tra consumi, ridotte dimensioni e potenza elaborativa di una cpu x86 moderna.

L'architettura di Bobcat utilizza un design Dual issue, con due pipeline a 15 fasi contro le 16 fasi nell'architettura Atom.
L'ago delle prestazioni rimane a favore di Bobcat grazie al design out of order, la quale permetterà di avere livelli prestazionali, a parità di clock, ben più elevati delle soluzioni Atom su applicazioni single threaded; Bobcat supporta i set di istruzioni SSE sino alla release 3 comprese le tecnologie di virtualizzazione.
Per quanto riguarda la cache L1 sarà in due blocchi da 32KB ciascuno, rispettivamente per dati e istruzioni, del tipo associativa a 8 vie con latenza di 3 cicli di clock.
La cache L2 sarà di 512KB a 16 vie, con latenza di 17 cicli di clock.
I core X86 di Bobcat verrà utilizzato nelle prime soluzioni APU della famiglia Fusion, la GPU dovrebbe avere circa 80 stream processors cioè paragonabile più o meno alla GPU HD5450; anche in questo caso CPU e GPU condivideranno lo stesso controller di memoria DDR3.
Per economizzare al massimo i consumi AMD ha implementato le tecnologie clock gating, power gating e states di tipo low power; quest'ultimo consente di abbassare al massimo il livello di consumo in idle.
A completare le funzionalità una serie di innovazioni micro architetturali che riducono al minimo i trasferimenti di dati interni al chip, oltre a ridurre il numero di loro letture allo stretto indispensabile.

AMD non ha fornito informazioni ufficiali sul memory controller DDR3, tuttavia alcune voci parlano di un supporto massimo alle DDR3 1333Mhz a basso consumo; il controller RAM verrà condiviso tra i core X86 e GPU.
Bobcat troverà spazio nelle soluzioni APU Ontario, costruite con tecnologia produttiva a 40nm bulk prodotto da TSMC.
L'uscita di Ontario è prevista per i primi mesi del 2011.

Piattaforma "Brazos"





Attesa per il 2011 la piattaforma "Brazos" sarà composto da CPU con core "Ontario" costituito dall'architettura X86 "Bobcat" in configurazione single/dual core e una GPU DX11; il valore TDP può variare tra i 9W e i 18W a secondo dei modelli.
Ci sarà anche una versione desktop a basso consumo chiamata “Zacate” la qualè riprende tutte le caratteristiche sia di TDP sia di core, GPU della piattaforma Brazos core Ontario.
Entrambi le piattaforme avranno dei nuovi Southbridge serie SB900 modello Hudson M/D1 la quale potranno gestire porte SATA3 ma NON le USB 3.0.
Il socket FT1 salta direttamente la APU alla scheda mamma quindi sarà impossibile cambiare la l'elemento in un secondo momento; tutte le APU sono vendute con la propria scheda mamma...


Modelli attualmente in commercio!

☆E-Series Socket FT1☆
40nm Bulk
Core Zacate
GPU DX11
Step ??
cache L2 512KB x 2
Memoria supportata
Single channel DDR3/DDR3L-800-1066-1333Mhz


●AMD E-350 Dual core/HD6310
Frequenza di clock
1.60GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
500Mhz
TDP
18W

●AMD E-250 Single core/HD6310
Frequenza di clock
1.50GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
500Mhz
TDP
18W


☆C-Series Socket FT1☆
40nm Bulk
Core Ontario
GPU DX11
cache L2 512KB x 2
Memoria supportata
Single channel DDR3/DDR3L-800-1066-1333Mhz


●AMD C-50 Dual core/HD6250
Frequenza di clock
1.00GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
280Mhz
TDP
9W

●AMD C-30 Single core/HD6250
Frequenza di clock
1.20GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
280Mhz
TDP
9W
__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 30-06-2011 alle 16:26.
capitan_crasy è offline  
Old 30-09-2009, 12:35   #4
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
Notizie dalla rete

Raccorta delle notizie del "[Thread Ufficiale] Aspettando Bulldozer e Llano".
Dal 28.08.2009 al 30.12.2010
(cliccare sulla scritta)



02.01.2011
AMD Brazos anche nei tablet!
Clicca qui...

03.01.2011
AMD mobile "Comal": L'erede di Sabine nel 2012!
Clicca qui...

04.01.2011
Gigabyte GA-E350N-USB3: Piattaforma Brazos in dettaglio!
Clicca qui...

Ufficiale: AMD presenta la piattaforma Brazos!
Clicca qui...

05.01.2011
990FX: Prime (fugaci) immagini made in MSI!
Clicca qui...

Piattaforma Brazos per Gigabyte, Asus e MSI!
Clicca qui...

HWiNFO32: In arrivo nuovi socket per Trinity?
Clicca qui...

08.01.2011
Socket AM3+ a 942 pin, uno in più del socket AM3!
Clicca qui...

12.01.2011
MSI 890FXA-GD65 compatibile con le CPU Socket AM3+?
Clicca qui...

13.01.2011
GF su Llano: Tempi più brevi per la presentazione?
Clicca qui...

Zambezi più veloce del 50% sul i7 950/Phenom2 1100T?
Clicca qui...

20.01.2011
Nuovi dettagli sui chipset AMD serie 900!
Clicca qui...

21.01.2011
Hybridcrossfire Ready per Llano!
Clicca qui..

24.01.2011
Più 50% di Bulldozer: ecco la slide di riferimento!
Clicca qui...

25.01.2011
Chipset serie 900 prima del previsto?
Clicca qui...

28.01.2011
Review MSI E-350IA: APU E-350 alla prova!
Clicca qui...

02.02.2011
Nuovi dettagli sulla tecnologia Turbo Core nelle CPU AMD Bulldozer
Clicca qui...

04.02.2011
Versione Mobile di Llano anticipato a maggio?
Clicca qui...

11.02.2011
Addio ai brand Phenom, Athlon e Sempron per BD e Llano?
Clicca qui...

14.02.2011
In arrivo 890FX Deluxe5, la prima scheda mamma ASRock AM3+ con 890FX+SB850!
Clicca qui...

15.02.2011
ASRock 890FX Deluxe5 (Bios UEFI) Socket AM3+ in foto!
Clicca qui...

01.03.2011
16 Core Processor: Upgrade from AMD Opteron 6100 Series to Upcoming "Interlagos"!
Clicca qui...

AMD Fusion APU Llano in a Multi-Tasking Technology Demonstration!
Clicca qui...

MSI/ASrock: Schede mamme socket AM3+ in arrivo ad aprile!
Clicca qui...

Chipset 990FX con southbridge SB950 in foto!
Clicca qui...

02.03.2011
AMD presenterà Bulldozer al E3 show il 7/9 Giugno?
Clicca qui...

03.03.2011
Prime schede mamme AM3+ per Gigabyte!
Clicca qui...

04.03.2011
Llano VS i7: Secondo video!
Clicca qui...

06.03.2011
Nuove slide su Llano!
Clicca qui...

07.03.2011
Nuova roadmap 2011/2012 sulle soluzioni Mobile AMD!
Clicca qui...

08.03.2011
CPU Bulldozer a Giugno: Nuove conferme! (APU Llano Serie "A" a Luglio)
Clicca qui...

10.03.2011
Gigabyte presenta 6 schede mamme socket AM3+!
Clicca qui...

11.03.2011
ASRock 890GM Pro3 R2.0 AM3+ in Giappone!
Clicca qui...

12.03.2011
I (presunti) loghi di Bulldozer!!!
Clicca qui...

14.03.2011
Nuovi dettagli sui modelli Bulldozer in arrivo!
Clicca qui...

Nuove notizie sui modelli Bulldozer e Llano per il mercato desktop!
Clicca qui...

16.03.2011
I modelli Llano socket FM1 per il mercato desktop!
Clicca qui...

25.03.2011
Labview: Differenze tra ASRock 890FX Deluxe5 e ASRock 890FX Deluxe4!
Clicca qui...

31.03.2011
Nvidia sblocca lo SLI sui chipset AMD serie 990FX e 990X!
Clicca qui...

04.04.2011
Variazione negli accordi di fornitura tra AMD e GlobalFoundries
Clicca qui...

05.04.2011
Schede madri Gigabyte con socket AM3+
Clicca qui...

Soluzioni AMD Llano in consegna ai partner OEM
Clicca qui...

AMD, GlobalFoundries e gli accordi di fornitura: alcune considerazioni
Clicca qui...

06.04.2011
CPU socket AM3+: anche MSI ne conferma la compatibilità
Clicca qui...

Gigabyte attacca gli hack di ASUS e MSI sul socket AM3!
Clicca qui...

Processori AMD Bulldozer: al debutto il 7 Giugno?
Clicca qui...

11.04.2011
Nuove informazioni sulle soluzioni AMD Llano
Clicca qui...

Software Optimization Guide Per CPU Bulldozer: L'analisi di bjt2!
Clicca qui...

14.04.2011
Processori Bulldozer su socket AM3? E' possibile
Clicca qui...

Un cambio di strategia per AMD Vision
Clicca qui...

23.04.2011
Labview: Nuove differenze tra il socket AM3+ e il socket AM3!
Clicca qui...

Step A1 e Step B0: I primi step di Bulldozer!
Clicca qui...

27.04.2011
Llano A8-3510MX Vs i7 2600 desktop: potenza di calcolo GPU a confronto!
Clicca qui...

28.04.2011
AMD mostra il socket FM1 per Llano e una nuova roadmap!
Clicca qui...

03.05.2011
Nuovi rumors sulle date di uscita di Bulldozer e Llano!
Clicca qui...

Primi prezzi di 3 schede mamme socket AM3+ con chipset 900 di MSI!
Clicca qui...

04.05.2011
I primi bench di Bulldozer e Llano?
Clicca qui...

Prima immagine della Asus M5A99X Evo con chipset 990X!
Clicca qui...

06.05.2011
Asus: Pronte 6 nuove schede mamme socket AM3+ e chipset 900!
Clicca qui...

07.05.2011
Prima immagine di un scheda mamma socket FM1 (da laboratorio) per Llano!
Clicca qui...

09.05.2011
Le possibili combinazioni del HybridCrossfire destinato alle APU Llano!
Clicca qui...

14.05.2011
Nuove immagini del socket FM1!
Clicca qui...

Jetway HA13 con chipset 990X!
Clicca qui...

15.05.2011
Primi prezzi delle schede MSI con chipset serie 900!
Clicca qui...

19.05.2011
MSI 990FXA-GD80 in foto!
Clicca qui...

21.05.2011
Gigabyte GA-990FXA-UD7 In foto!
Clicca qui...

23.05.2011
Prime conferme sulle frequenze/TDP delle APU Llano per il mercato Mobile!
Clicca qui...

Prime foto delle soluzioni APU Llano per il mercato Mobile!
Clicca qui...

24.05.2011
Ufficiale: I primi bench delle APU Llano per il mercato Mobile!
Clicca qui...

25.05.2011
Prime Analisi del BIOS compatibile alle CPU 8 core Bulldozer by Labview!
Clicca qui...

27.05.2011
Nuove slide su Llano!
Clicca qui..

FX-8130P già in listino nel mercato cinese???
Clicca qui...

30.05.2011
AMD presenta i chipset serie 900!
Clicca qui...

31.05.2011
Piattaforma "Colman" e "Deccan": le APU Mobile del 2012!
Clicca qui...

01.06.2011
AMD smentisce se stessa (parte seconda): Bulldozer solo nel terzo trimestre 2011!
Clicca qui...

AMD: Bulldozer posticipato a tavolino unicamente per "favorire" le soluzioni Llano!
Clicca qui...

02.06.2011
AMD conferma il 10 core "Komodo" per il mercato desktop entro il 2012!
Clicca qui...

07.06.2011
Nuova roadmap sulle CPU Bulldozer!
Clicca qui...

AMD "Finalmente" mostra le CPU FX Bulldozer!!!
Clicca qui...

08.06.2011
Rumors AMD (da prendere con le dovute cautele)!
Clicca qui...

09.06.2011
Primi bench di Llano modello A8-3800!
Clicca qui...

13.06.2011
AMD A8-3800 Llano APU & Gigabyte GA-A75-UD4H in video più Bench!
Clicca qui...

14.06.2011
AMD presenta le APU Llano per il mercato Mobile!
Clicca qui...

Addio al socket AM3+ per le soluzioni "Komodo" nel 2012!
Clicca qui...

Nuove informazioni sul Turbo Core di Bulldozer!
Clicca qui...

15.06.2011
AMD: +50% di GFLOPS per Trinity!
Clicca qui...

Preview Llano A8-3850 Desktop by AnandTech!
Clicca qui...

20.06.2011
Revision Guide for AMD Family 12h Processors: Le analisi di bjt2!
Clicca qui...

21.06.2011
Nuove informazioni su Bulldozer entro il 16 Luglio?
Clicca qui...

22.06.2011
Gigabyte presenta le prime schede mamme FM1 e conferma lo step B0 per Llano!
Clicca qui...

30.07.2001
AMD presenta la piattaforma Lynx composta da APU Llano per il mercato desktop!
Clicca qui...

Lista recensioni APU Llano Socket FM1!
Clicca qui...

09.07.2011
Donanimhaber: Primi bench di un ES Bulldozer step B1, anzi NO!!!
Clicca qui...

21.07.2011
Operation Scorpius – The Legend of FX Returns!
Clicca qui...

24.07.2011
Prime conferme sulla data d'uscita e frequenze dei modelli Bulldozer Desktop!
Clicca qui...

25.07.2011
Socket FM2 per Komodo e Trinity!
Clicca qui...

27.07.2011
CPU Bulldozer posticipate (ancora) al quarto trimestre 2011?
Clicca qui...

02.08.2011
AMD punta (a sorpresa) sui 28nm nel 2013 per il mercato Server!
Clicca qui...

10.08.2011
Ufficiale: Gli opteron Bulldozer definitivi sono basati sugli step B2!
Clicca qui...

16.08.2011
Primi codici OPN per i modelli FX-8150/FX-8120!
Clicca qui...

31.08.2011

Gigabyte: Rilasciati i BIOS e le caratteristiche per le CPU FX!!!
Clicca qui...

01.09.2011
Labview: Ecco i codici OPN delle CPU Bulldozer rilasciati da ASrock!
Clicca qui...

21.09.2011
Donanimhaber: CPU AMD FX il 12 ottobre!
Clicca qui...

24.11.2011
Donanimhaber: Slide finali delle CPU FX!
Clicca qui...

26.09.2011
GlobalFoundries: Cancellati i 22nm, 20nm per il 2014!
Clicca qui...

02.10.2011
Entro domani i BIOS definitivi per le CPU FX?
Clicca qui...

03.10.2011
Donanimhaber: Piledriver anche su socket AM3+!
Clicca qui...
__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 04-10-2011 alle 10:50.
capitan_crasy è offline  
Old 30-09-2009, 12:35   #5
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
Approfondimento su Bulldozer/Fusion

Aggiornamento 28.08.2010

Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Il caro Dresdenboy si prende una settimana di "riposo", ma prima ci lascia un post sul suo blog MOOOOOOLTO interessante:

http://citavia.blog.de/2010/08/27/a-...links-9265110/

La cosa più interessante è la seguente:

Thuban e company hanno una pipeline di 22 FO4 (non 24, sorry). Mentre Bulldozer ha una pipeline di 17 FO4. Quindi una pipeline del 30% più veloce. Questo vuol dire che a parità di processo (quindi anche se buldozer fosse fatto con il 45nm low-k liscio di adesso), potrebbe andare fino al 30% più veloce in clock. Considerando il nuovo processo, questo significa frequenze MOLTO alte. Ricordo che il FO4 del Pentium 4 è stimato in 16. Quindi possiamo aspettarci anche frequenze dell'ordine del 5GHz (almeno in turbo mode)...

Facciamo 2 conti per un ipotetico bulldozer X6. Un X6 Phenom II attuale va a 3.2GHz. +30% per la pipeline più lunga, +40% per il processo più parco, sono 5.8 GHz. Ora non credo che arriveremo a tanto perchè penso che AMD faccia i transistors più piccoli (e quindi più lenti) per occupare meno area e comunque con una pipeline del 30% più veloce non si va il 30% più su di clock perchè i tempi di ritardo tra i vari stadi non migliorano e quindi una pipeline così corta garantisce un 15, massimo 20% in più. Questo per dire che un clock stock di oltre 4GHz come X6 e forse anche come X8 lo si può sperare...
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Il FO4 è una misura della complessità dello stadio della pipeline. Fissata la pipeline, la complessità è data. Poi si può implementarla a 130, 90, 65, 45, 32nm ecc... A seconda del processo, sarà maggiore la frequenza a cui potrà andare... Non esiste un limite intrinseco al clock dato un processo, o meglio, esiste un limite intrinseco dato un FO4 di una architettura. La combinazione di FO4 e processo da la velocità.

Per esempio. Il Power 7 ha un FO4 di 17 (mi pare) ed è stato implementato con il 45nm, mi pare con il Low-k. Ora quel processore ha una caterva di transisors. Il quadcore arriva a 4.14 GHz e l'octacore a 3.96 Ghz... Un ipotetico bulldozer X4 fatto a 45nm (il processo del Thuban) sarebbe arrivato a 4.2-4.3 stock, minimo, sia perchè il Power 7 ha molti più transistors e molte più unità attive (un quad core ha 16 thread, e ogni core ha mi pare 12 unità di esecuzione), sia perchè il Power 7 è una CPU server e tradizionalmente queste hanno qualche centinaia di MHz in meno delle controparti desktop...

EDIT: in ogni caso, nel caso peggiore, un buldozer X4 a 4.1 Ghz e un Bulldozer X8 a 3.9 Ghz è fattibile visto il Power 7, anche con questo 45nm Low-k. Ricordiamo che IBM usa lo stesso processo di GF/AMD...

EDIT: Su wikipedia dice che esiste una versione quadcore da 4.25 Ghz. Il Power6 che aveva un FO4 di 13 arrivava a 5GHz e IBM aveva in laboratorio un prototipo funzionante a 6GHz...

EDIT: sto leggendo su google gruppi che tra Thuban e Buldozer, c'è un progetto cancellato che aveva un FO4 di 13... Sarebbe arrivato a 5GHz con il 45nm! Dice anche che BD dovrebbe avere un IPC (A PARITA' DI FREQUENZA) del 20-25% in più. Il tizio sembra essere un ex dipendente AMD che ha lavorato al progetto... Il gruppo in guestione è http://groups.google.de/group/comp.a...14f6049?hl=de# e il tipo si chiama Mitch_qualcosa...
Aggiornamento 28.08.2010

Quote:
Originariamente inviato da cionci Guarda i messaggi
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
@Bjt2.

Domanda da nubbio.

La lunghezza delle pipeline è una costante o comunque dipendente dal silicio?
Tipo... procio X, pipeline 10 su 90nm, max 5GHz, se il silicio arriva a quella frequenza bene, altrimenti amen. Stesso procio, pipeline 10, ma silicio 45nm, l'architettura avrebbe lo stesso limite di 5GHz anche se il silicio potesse dare 6GHz? Oppure la pipeline risente comunque di latenze inferiori per la riduzione del silicio e quindi permettere di più?

Perché il PIV era fatto a 90nm o 120nm? Se Buldozer ha una pipeline simile ma 32nm è equiparabile o promette più velocità?
In un circuito digitale sincrono (con clock), il critical path è il percorso del circuito che provoca maggiori ritardi e di conseguenza limita la frequenza.
Solitamente c'è un registro sorgente, un circuito che elabora il contenuto del registro ed infine il registro di destinazione. Il circuito per poter funzionare ad una data frequenza deve essere in grado di presentare i risultati in modo stabile all'ingresso del registro qualche istante prima del nuovo fronte di clock (esattamente Tsetup + Thold dei flip-flop che compongono i registri).
Chiamando Tcp il tempo massimo di attraversamento del circuito, o meglio il T di attraversamento del critical path, abbiamo che:

Tsetup + Thold + Tcp < T

dove T è il periodo di clock, cioè 1 / F (F è la frequenza di clock).

Semplificando...la pipeline non è altro che una suddivisione in stadi (stage) dell'esecuzione di una istruzione. Ogni stadio esegue una piccola parte dell'istruzione fra un registro sorgente ed un registro di destinazione. Lo stage successivo, al clock successivo, prende il risultato e mette a sua volta il suo risultato in un altro registro entro la fine del ciclo di clock.
Di fatto nella pipeline abbiamo in esecuzione un massimo di una istruzione per stage della pipeline (le cose possono anche andare diversamente in caso di duplicazione delle unità di esecuzione, ma come dicevo: semplifichiamo).
Con la pipeline a regime abbiamo comunque la terminazione di una istruzione per ciclo di clock. Con la pipeline vuota dobbiamo attendere un numero di clicli di clock pari alla lunghezza della pipeline prima che l'esecuzione di una istruzione sia terminata.
Quindi possiamo applicare il discorso fatto prima: il critical path di una CPU è il critical path con ritardo più alto fra i critical path di ogni stage. Questo critical path servirà a determinare la frequenza massima raggiungibile dalla CPU con una determinata tecnologia litografica (potenza permettendo).

Aumentare il numero di stadi ha però delle contro-indicazioni: se la pipeline va in stallo (cioè deve essere svuotata) in caso di misprediction (fallimento della branch prediction, l'algoritmo che "prevede" dove andrà a finire un salto condizionale e quindi riempirà di conseguenza la pipeline) o per il cambio di contesto, prima di terminare una nuova istruzione passeranno ben 31 cicli di clock. E' chiaro che per ovviare a questi overhead bisogna avere un ottimo algoritmo di branch prediction e bisogna avere la possibilità di raggiungere frequenze nettamente maggiori dei concorrenti.

Il Prescott aveva una pipeline di 31 stadi per gli interi. Una cosa praticamente mai vista (normalmente sono intorno ai 10-12 stadi per gli interi, tranne le prime implementazioni). Aveva però gravi problemi di leakage (è uno degli elementi che vanno a determinare la potenza necessaria a far funzionare la CPU) che non gli permettevano di raggiungere le frequenze che gli ingegneri avrebbero voluto fargli raggiungere (pensate che Intel avrebbe voluto raggiungere gli 8-10 Ghz entro due generazioni litografiche). Questa fu la motivazione per cui il progetto Tejas, il successore di Prescott, non arrivò nemmeno sul mercato.
Aggiornamento 28/09/2010

Sandy Bridge Vs Bulldozer:
il confronto di bjt2



Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Allora... Per smorzare un po' i toni e per chiarire una volta per tutte parliamo del confronto Sandy bridge core vs Bulldozer module.

2 thread vs 2 thread. Poi vediamo un confronto alla buona 1 thread vs 1 thread considerando metà delle risorse condivise.

Decodifica istruzioni:
Un core SB può decodificare al massimo 3 istruzioni semplici e una complessa oppure una sola microcodificata alla velocità di 3 uop per ciclo, questo per ciclo di clock e per un dato thread, mentre un core BD può decodificare un qualsiasi mix di istruzioni semplici o moderatamente complesse (2 mops) purchè non si superi le 4 mops per ciclo, oppure una microcodificata alla velocità di 4 mop per ciclo, tutto questo per ciclo e per thread. Anche ammettendo che le uop intel siano equipotenti alle mops AMD, qui c'è un chiaro vantaggio AMD (ancora maggiore se si pensa che le MOP amd ammettono fino a 3 ingressi e una uscita, vedi FMAC, mentre quelle INTEL max 2 ingressi e una uscita, da cui le FMA3). Se il mix di istruzioni non è del tipo complessa+3 semplici, il decoder INTEL perde MOLTISSIMO in prestazioni. Per fortuna che un compilatore decentemente inteligente riordina le istruzioni quando possibile, ma il rischio ovviamente c'è... Però per compensare, SB usa una cache delle microoperazioni che può sparare fino a 18 uop/ciclo... Non si sa se anche BD la usa. E i branch prediction sono stati migliorati sia in SB che BD e non si sa quale sia meglio. L'approccio del BD con le code degli IP predetti è però interessante...

Dispatch:
Qui dovrebbe avvenire il micro/macro op fusion. Entrambe le architetture possono fare il dispatch di 4 uops/mops. L'architettura INTEL può fare una uop fusion per ciclo, arrivando a 5. Anche BD può fare la uop fusion, ma non si sa se una o più di una e in che casi. Comunque considerando le MOP e le uop equivalenti in potenza (anche se non è vero), siamo in situazione di parità.

ROB:
Qui INTEL ha un enorme ROB che deve dare spazio a due thread (160 uop). AMD ha 2 ROB (da 128 mops l'uno) per il fatto che i due cores sono fisicamente separati. Qui giacciono le istruzioni in attesa di esecuzione o di ritiro.

Scheduler:
Qui le differenze si fanno interessanti. AMD separa INT e FP. Ha 2x40 mops intere/memoria più 60 mops FP, condivise tra i due thread. INTEL ha un unico calderone di soli 54 elementi condivisi tra interi, memoria FP e per di più di entrambi i thread. E' inutile dire chi ha le potenzialità maggiori...

Esecuzione:
INTEL ha 6 porte dove sparare le micro ops. Quindi può sparare 6 uop per ogni ciclo di clock, condiviso tra due thread. 3 porte sono dedicate alla memoria: 2 per le 2 AGU e una per gli store. 3 porte sono per le operazioni. Badate bene: le 3 porte residue sono CONDIVISE tra operazioni INT e SIMD/FP di ENTRAMBI i thread. Ossia in ogni ciclo si possono al massimo fare 3 operazioni tra INT e FP/SIMD.
AMD può, per ogni ciclo di clock e per 2 thread, sparare: 4 istruzioni FP (di entrambi i thread), 4 AGU/memoria (2 per thread max) e 4 ALU/intere (2 per thread MAX).
Considerando che anche un codice fortemente FP comunque contiene istruzioni per i loop, salti, confronti, insomma contiene istruzioni INTERE che su INTEL si contendono le 3 porte (per di più i thread sono 2!) mentre su AMD corrono su binari separati. Solo le istruzioni per la memoria hanno binari separati. Ma questo anche in AMD. Ecco che il potenziale AMD è maggiore.

Memoria:
Su SB si possono fare 2 letture a 128 bit e una scrittura a 128 bit per ciclo. Poichè però la cache L1 ha solo 2 porte, questo può essere fatto per breve tempo. E comunque queste 3 operazioni devono essere condivise tra i due threads.
Su BD, invece, ogni thread ha la sua cache L1, le sue 2 porte, le sue due letture a 128 bit e scrittura a 128 bit, le sue code di lettura e scrittura e le sue AGU. Inutile dire chi vince in questo caso.
E' vero che SB può fare fino a 3 operazioni FP a 256 bit per ciclo (1 add, 1 mul e una shuffle), ma può farlo per molto? No.

Retirement:
Qui siamo 4 a 4, ma sempre presupponendo che le mops AMD non siano più potenti di quelle INTEL.

Frequenza operativa:
A giudicare dalle latenze delle caches, sembrerebbe che BD possa avere un clock nettamente superiore a SB. Poichè la banda memoria è maggiore, anche a parità di clock, i due thread dovrebbero scorrere più fluidamente su un BD, considerando che la velocità di ritiro è la stessa e supponendo che le unità prima dello stadio di ritiro siano veloci a sufficienza (più probabile per BD che per SB alla luce di quanto visto). Se poi consideriamo che il clock sarà probabilmente maggiore...

Confronto alla buona 1 thread vs 1 thread considerando metà delle risorse condivise. In realtà in INTEL alcune risorse sono condivise dinamicamente.

Decodifica istruzioni:
Qui valgono le stesse considerazioni del 2 vs 2 considerando che la decodifica è probabilmente fatta a cilci alterni.

Dispatch:
Qui valgono le stesse considerazioni del 2 vs 2 considerando che il dispatch è probabilmente fatto a cilci alterni.

ROB:
Qui INTEL ha un enorme ROB condiviso, quindi un thread ha da 0 a 160 uop di spazio. AMD ha ROB separati da 128 mops l'uno. A secinda del carico INTEL può essere svantaggiato o meno. In un caso medio siamo 80 vs 128.

Scheduler:
AMD ha 40 mops int + 0-60 mops FP. In media 40+30.
INTEL ha 0-54 uops condivise. In media 27 totali.
La differenza è alta anche nel caso peggiore.

Esecuzione:
INTEL ha 0-6 porte disponibili per un thread. In media 3.
AMD ha 2 ALU + 2 AGU/MEM + 0-4 FP. In media 2+2+2.
La differenza è alta anche nel caso peggiore.

Memoria:
INTEL da 0 a 3 operazioni memoria. In media 1.5.
AMD 3 operazioni memoria.
Inutile dire chi vince in questo caso.

Retirement:
Qui siamo 4 a 4, ma sempre presupponendo che le mops AMD non siano più potenti di quelle INTEL.

Frequenza operativa:
Entrambi qui hanno il turbo. Il leackage in AMD è di partenza più basso. Poi lo spegnimento dei core con gli NFET è più efficiente. Prevedo che per AMD la frequenza turbo core sia ancora più elevata...




Conclusioni:
In sostanza a parità di thread Bulldozer dovrebbe surclassare SB. A parità di cores (come li intendono INTEL e AMD) non è detto che AMD la spunti. Ma comunque c'è addirittura questa possibilità...
Aggiornamento 27.12.2010

Quote:
Originariamente inviato da bjt2 Guarda i messaggi
http://support.amd.com/us/Processor_TechDocs/40546.pdf

Manuale di programmazione AMD aggiornato. Menziona la famiglia 10h e 12h. Questo 12h dovrebbe essere Llano. Sono arrivato a metà e finalmente sono incappato in differenze di prestazioni: il fantomatico processore famiglia 12h (mai nominato il nome commerciale fino alla metà che ho letto) ha la divisione intera nettamente più veloce, fino al doppio, probabilmente paragonabile a quella INTEL (non ricordo le latenze a memoria)... E' molto probabile che questo 12h sia Llano... Proseguo la lettura e vi faccio sapere se ci sono altre differenze... (la parte più ghiotta è alla fine dove parla delle latenze delle istruzioni)
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
E' molto probabile che il 12h sia Llano, perchè dice che non ha cache L3, ha l'ICU allargato (28x3=84 mops, sia intere che float) e lo scheduler intero che passa da 24x3 a 30x3. In più l'integer divide è un circuito in più attaccato alla terza ALU. Evidentemente nelle CPU precedenti la DIV era microcodificata, quindi vector path, per cui non c'era una vera e propria unità per la divisione. Questo consente sicuramente velocizzazioni elevate di codice intero con molte divisioni... Continuo la lettura...

EDIT: ora la FPU ha 14x3 mops nel reorder buffer. Se non ricordo male era 12x3 nel 10h...

EDIT2: il 10h ha controller RAM DDR2 e DDR3, il 12h è espressamente DDR3 only... Il 12h non supporta ECC e non supporta DIMM con chip da 4 bit... L'ECC sopratutto esclude una CPU server... Il 12h supporta solo la modalità unganged, inoltre supporta le interfacce "Onion" e "Garlic" (letteralmente cipolla e aglio)... Ho scorso velocemente quella parte... Ci ritorno dopo per cercare di capire cos'è, ma probabilmente è l'interfaccia con la GPU integrata... Il 12h supporta 8 streams di prefetching (mi pare che il 10 ne supporti 5, o 3, non ricordo)... Quindi controller migliorato...

EDIT3: il 12h non ha il controller hypertransport... Ciò implica che avrà qualche altra cosa, probabilmente PCIExpress...

EDIT FINALE: per le latenze delle istruzioni, a parte quelle sulla divisione intera, le differenze sono minime. Per poche istruzioni (di cui la maggior parte sono istruzioni di sistema) è riportato solo il valore per la CPU 12h. Non è dato sapere se migliora o peggiora, ma suppongo sia diverso da quello del 10h. Se qualcuno avesse la versione vecchia, si potrebe confrontarli... Comunque modifiche di poco conto...


In sostanza la CPU 12h ha scheduler migliorati, divisione intera migliorata, prefetcher migliorati e qualche cosa piallata, come le memorie DDR2, l'ECC, il controller ganged (che non serve a molto con 4 core + GPU), l'hypertransport...

Aggiornamento 11/04/2011

Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Allora... Menziono le cose più importanti mano a mano che leggo...


- E' confermato che internamente BD usa ancora macro-op (operazione intera oppure FP + operazione memoria). Ciò è importante per stabilire quanto riesce a macinare...

- E' confermato che esistono ancora operazioni single, double e vector (anche se i nomi sono cambiati: FastPath Single, FastPath Double e Microcode). Ciò è importante per stabilire la potenza del decoder.

- Parla delle istruzioni supportate: AVX, XOP, FMA(C) ecc... Tutto confermato. Più qualche cosa poco nota come istruzioni per l'estrazione della parte frazionaria di un numero FP e istruzioni vettoriali di rotazione, shift, shuffle.

- Menziona le nuove unità FP a 128 bit e dice che le prestazioni possono essere fino al doppio. Non mi è chiaro questo punto. Anche le unità del K10 sono a 128 bit. Ma poi spiega l'uso del FMAC che non è automatico e dice che l'FMA è più preciso di una ADD+MUL (si sapeva già). Forse è a questo che si riferisce quando parla di prestazioni doppie.

- Ora BD non soffre più in prestazioni se le istruzioni sia di load/store, sia load/execute lavorano su dati non allineati. Possibili benefici con codice con dati non allineati. Questo potrebbe essere un refuso del documento del K10. Mi pare di ricordare che era una delle novità del passaggio da K8 a K10...

- Novità del fetching istruzioni. Non più una finestra di 32 bytes, ma DUE finestre di 32 bytes da cui possono essere prodotte fino a 4 mops/ciclo. Si accenna al fatto che queste due finestre assieme alla FPU a 128 bit consentono di avere un ritmo di fetch/execute/retire di 4 mops/ciclo... Ora come ora è molto nebulosa la cosa. Non menziona mai il fatto che è condivisa tra due thread...

- Accenno al fatto che molte istruzioni sono state promosse da vector a double o a single, che sono migliorate le latenze e che molte istruzioni FPU sono state spostate di pipe... ATTENZIONE! Fino ad ora avevamo supposto che l'architettura a FO4 17 avrebbe comportato l'aumento delle latenze delle istruzioni... Secondo quanto scritto qui E' IL CONTRARIO! Potrebbe anche questo essere un refuso della modifica del documento del K10.

- Miglioramento in velocità delle istruzioni di shuffle, di trasferimento registri FP-interi (nonostante la FP condivisa!), di trasferimento FP-FP (quello a cui accennava JF-AMD degli zero latency move), delle operazioni su stringhe (i vari REP, SCAS ecc), delle operazioni stack e del paging a 1GB.

- Le operazioni di shuffle (tallone di achille) possono essere fatte al quadruplo della velocità grazie a più unità, al fatto che sono a 128 bit (???) e ora le istruzioni sono Direct Path e non vector path (mi sa che è un refuso del vecchio documento perchè parla delle pipeline FADD, FMUL e FSTORE... anche per le operazioni di move reg-reg)

- poi parla delle TLB e della virtualizzazione.

--- FINE SEZIONE INTRODUTTIVA ---

- Confermate le cose che si sapevano sull'architettura (caches ecc). Predizione e fetch sono disaccoppiati, decoding a 4 vie (limite teorico). Scheduling dinamico. 2 istruzioni ALU + 2 AGU per ciclo (confermato). 2 128 BIT FPU. Supporto AVX, XOP ecc. Superforwarding (probabilmente quella cosa del poter usare subito i risultati di una operazione).

- Descrive il fatto delle 4 microop/ciclo. Dice che può fare il fetch di 32 bytes per ciclo e che puo fare la scansione di due blocchi da 16 bytes per ciclo (su due finestre di 32 bytes). Può decodificare fino a 4 mops/ciclo. E' un limite teorico che dipende dalle istruzioni presenti nelle finestre di 16 bytes e anche dalla modalità in cui si trova la CPU: FAST o SLOW (???)

- Schema a blocchi della CPU: nulla da notare se non che non divide le ALU/AGU ma le chiama genericamente pipeline e anche qui la FPU è indicata con solo le due pipeline a 128 bit...

- Caches: L1 istruzioni UNICA da 64 KB, a 2 vie con linea da 64 bytes e lettura di 32 bytes (come quella del K10). Quando è letta una nuova cache line è automaticamente fatto il prefetch di quella successiva. Il predecoing è fatto subito dopo il load. La L1 dati è da 16 KB. Può fare 2 load a 128 bit per ciclo. Ha 16 banchi e un solo load per banco. Quindi i due load sono simultanei se sono in banchi separati. Latenza di 4 cicli (! data l'alta latenza, prevedo clock stratosferici). Menziona genericamente il prefetching. La cache L1 è write through e non write back come il K10... Hanno imparato da INTEL... Ci sono vantaggi nello snooping. Solo la cache L2 va testata... Quest'ultima appunto è inclusiva e condivisa tra i due core. Menziona il write trough e finalmente conferma che le caches sono due. La latenza è 18-20 cicli e la cache è full speed (quindi con il clock alto... ). Il perchè è presto detto: la dimensione è dipendente dall'implementazione! Ci possono essere modelli con più o meno L2 per core (magari parzialmente disattivata per difetti...). La cache L3 può essere massimo 8MB con 4 blocchi di massimo 2MB (anche qui il binning per difettosità...). La cache L3 è non inclusiva e victim buffer. Ci vanno i dati buttiati dalle L2. Un dato rimane nella L3 se è usato da più cores (un predittore?). Altrimenti va nella L1 del core che la usa. La L3 è dichiarata migliorata come banda. Latenza non specificata.

- Branch prediction: penalità da 15 a 20 cicli in caso di miss. In caso di hit, un solo ciclo se è nella cache L1, 4 cicli se è nella L2. La L1 è 4x128 entry e la L2 5x1024 entry. 512 entry per gli indiretti e 24 per il return stack. Il branch prediction è abbastanza complesso ma credo che sia simile a quello del K10...

- Fetch e decode. Sono letti 32 bytes/ciclo. Le finestre sono di 16 bytes e esistono due code (una per thread). Si possono decodificare fino a 4 istruzioni per ciclo contenute in 2 finestre a 16 bytes.

- TLB: L1 istruzioni 48 4KB, 24 2MB o 1GB. Entry da 4MB occupano due entry da 2MB. L1 dati 32 (64 per i modelli 20H-2FH) per 4KB, 2MB e 1GB. Entry da 4MB occupano due entry da 2MB. L2 istruzioni 512 4KB. L2 dati 1024 condiviso tra 4KB, 2MB e 1GB. Entry da 4MB occupano 2 slot.

- Esecuzione intera: c'è lo scheduler e le unità di esecuzione. Lo scheduler è completamente data-driven. Non ci sono più le lane del K10. Ossia è più inteligente: l'unico limite è la disponibilità dei dati e delle unità. Inoltre tiene traccia del completamento e delle eccezioni delle istruzioni FP: è questa unità che decide il da farsi. L'unità FP fa solo il "lavoro sporco"... Lo scheduler intero può ricevere e schedulare fino a 4 mops/ciclo. Fa il register renaming e sveglia le istruzioni in attesa. Le unità di esecuzione sono 4. ATTENZIONE: 2 ALU e 2 AGLU. Le due ALU sono chiamate Ex0 e Ex1. Possono fare tutte le operazioni aritmetiche, logiche e di shift. La Ex0 fa anche DIV e POPCNT. La EX1 fa anche MUL e BRANCH. Le AGLU possono fare le AGU e operazioni ALU SEMPLICI. NOVITA' rispetto al K10: le mops sono divise nello scheduler in microops. Possono essere eseguite indipendentemente e fuori ordine (non più le lanes... ) quando dati e unità esecutiva sono libere, in particolare in contemporanea in ALU e AGLU separate. Lo scheduler può ricevere 4 MOPS/ciclo (quindi potenzialmente 4 istruzioni intere più 4 memoria). Questo è un dispatch group. Il divisore di EX0 non è pipelined ed è a latenza variabile. Il moltiplicatore in EX1 è pipelined. L'AGLU contiene una ALU semplice per fare istruzioni aritmentico logiche semplici... Guardando le tabelle delle latenze sembra che le AGLU siano sfruttate in poche istruzioni, giusto per non usare le EX unit. LZCNT e POPCNT sono gestite in EX0.

- FPU. E' dichiarato che la FPU ha 4 volte la potenza di picco di quella del K10. 4 pipeline. 2 FMAC a 128 bit. Una può fare anche le IMAC (multiply - accumulate su dati interi) e le conversioni tra int e fp e una ha un crossbar per gli shuffle SIMD. 2 unità SIMD intere per MMX e SIMD intere. Una delle due ha la pipeline FSTORE. C'è poi una unità di load/store che può fare 2 letture a 128 bit + una scrittura a 128 bit. La CPU può ricevere fino a 4 mops/ciclo, ma da un solo thread alla volta. Il thread può cambiare a ogni ciclo. La FPU può eseguire 4 mops/ciclo. Una volta ricevute in cicli separati, poi possono essere eseguite anche inframezzate nello stesso ciclo, al ritmo di 4/ciclo. Nella FPU possono essere accettati fino a 2 loads per ciclo, anche da 2 thread separati. 4 pipeline, 2 FP e 2 INT. 2 128 bit FMAC. Ognuno può fare anche ADD e MUL anche x87. Ogni FMAC ha anche un divisore e calcolo radice quadrata a latenza variabile. Una istruzione a 256 bit può essere eseguita in un ciclo. Se non ci sono due unità libere è spezzata in due senza penalità. Cioè in pratica una istruzione a 256 bit è spezzata in due subistruzioni a 128 bit che possono essere eseguite indipendentemente (e anche in due cicli separati) senza bloccare le altre. Massima flessibilità, dunque.

- Unità di load/store. Una per core, due per modulo. Ogni unità supporta 2 letture a 128 bit e una scrittura a 128 bit per ciclo. La coda di scrittura è di 24 entry. La coda di lettura ha 40 entry. Due pipeline per ogni unità LS per fare 2 operazioni in contemporanea. Menziona il fuori ordine per le operazioni memoria ma non entra nei dettagli. Il write combining supporta 4 stream, con 4 buffer da 64 bytes (condivisi tra i due cores). C'è una cache di 4KB prima della L2 (64 blocchi da 64 bytes) per gestire il write combining da sorgenti varie (compreso il write chaining per la trasmissione su bus HT).

- Controller RAM. Supporta DIMM da 4, 8 e 16 bit, interleaving, ECC, e canali a 64 bit indipendenti. Ha algoritmi di scheduling e predizione ottimizzati in particolare per sequenze alternate di read e write. Il prefetcher tiene i dati nel controller e non li spedisce alle caches. Può adattarsi a pattern ascendenti e discendenti e altri più complicati. Le specifiche del MC possono cambiare da modello a modello.

- HT: supporto a 25.6GB/s (quindi 3.2 GHz) e varie features dell'HT 3. HT assist per sistemi a 4 o più socket: ancora con consumo di 1-2 MB di L3.

- Branch fusion. Non è specificato un limite al numero massimo di branch fusion però molto probabilmente al massimo uno. Perchè i limiti sono che il compare e il branch devono essere adiacenti, che il compare non deve essere la quarta istruzione del dispatch group, che il branch deve avere indirizzamento rip-relativo, che il compare non deve avere dati immediati o indirizzamento SIB.

- LATENZE istruzioni. Purtroppo è difficile confrontare le latenze senza avere a fianco quelle del K10. Ci dobbiamo fidare dei proclami dell'inizio del PDF. Molte istruzioni hanno un N/A, non so se per NDA oppure perchè effettivamente al tempo di stesura del PDF non erano note. Però lo scheduler data-driven, le uops che possono andare indipendentemente, le pipeline intere e FP separate possono addirittura far sperare in un IPC superiore al SB!

Questo è quanto...
Aggiornamento 21.06.2011
Revision Guide for AMD Family 12h Processors: Le analisi di bjt2!

Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Dunque. Leggendo il documento si nota subito che parla solo dei Llano mobile (forse quando usciranno quelli desktop aggiorneranno il documento). C'è un solo step ed è contrassegnato come B0. Ipotizzo che sia questo quindi lo step in vendita. C'è la solita filippica sugli errata fix e gli errata che devono essere visibili al SO e non ci sono errata gravi che richiedono dei fix. Tutti gli errata elencati successivamente hanno un "no fix planned", quindi non sono gravi... Suggested workaround è "nessuno", tranne dove indicato espressamente.

57: errore lieve che consiste nel riportare in rari casi errori più gravi del dovuto nel caso di errori cache dati.
60: in alcuni casi un errore di parità nella cache dati viene erroneamente riportato come errore multiplo anzichè singolo.
77: mancata segnalazione di errore per call o jump far in casi che non si verificiano in realtà
230: errore nell'accesso a una precisa locazione di I/O se si effettua un accesso non allineato. Si suggerisce di farlo allineato (come sarebbe norma)...
250: problema con l'accesso in modalità compatibile dell'area I/O allocata per la VGA. Non grave.
297: come il 60 ma per la cache istruzioni.
343: problema di perdita dati quando la cache L2 è usata come meoria al BOOT dal BIOS (e quindi prima di abilitare il controller RAM). La soluzione è disabilitare una feature, probabilmente della cache, quando si usa la L2 come memoria. Ovviamente nell'operatività normale deve essere riabiliata.
361: in rarissimi casi una eccezione di debug è persa in codice in una macchina virtuale. Qualche eccezione debug può essere persa in codice che gira in una macchina virtuale. Evento rarissimo e di nessun impatto nell'uso normale.
366: problema di affidabilità con la memoria se si settano dei parametri del controller memoria lontano dai valori raccomandati da AMD. Soluzione: usare i parametri raccomandati da AMD...
418: problema di traduzione pagine in una macchina virtuale se l'host usa il PAE (quindi SO a 32 bit con oltre 4GB di RAM, sostanzialmente versioni linux o windows server) e se le pagine guest sono nella parte iniziale della memoria. La soluzione proposta è che l'Hypervisor in tal caso non memorizzi la tabella pagine ad inizio memoria... Problema poco grave.
430: se un core è in stato CC6, non rileva i cambiamenti del segnale A20M. Essendo un segnale legacy usato solo da sistemi operativi non multicore (sostanzialmente DOS, vecchi windows) non c'è alcun problema, perchè essendo il SO mono-core, non c'è null'altro che può cambiare lo stato di quel segnale.
432: se si fa un warm reset durante una fase di accesso DMA al reset potrebbe essere riportato erroneamente un errore DMA.
441: un errata che riguarda il debug. Per trasferire lo stack pointer in un registro di debug si deve usare la codifica esatta della istruzione in linguaggio macchina. Altre codifiche che sono legali ma non standard, possono far caricare il valore sbagliato nel debug register.
465: il primo comando di settaggio RAM dopo l'inizializzazione del controller può impiegare fino a 2.5ms per essere compeltato e quindi far andare in timeout il BIOS. Workaround: usare un timeout superiore ai 2.5ms.
470: se si fa un warm reset nell'istante preciso in cui si accede ai registri di configurazione del PCI express il sistema si blocca. Il workaround è settare dei registri in un dato modo (ci vorrebbe il documento con i registri per sapere se inficia le prestazioni, ma poichè c'è no fix planned presumo che non impatti le prestazioni) e particolare cautela se si deve riconfigurare un link PCIex.
474: la funzione di azzeramento della memoria potrebbe non scrivere zero. Il suggested workaround è una procedura particolare di scrittura di zero in cache e poi rilettura della stessa, prima di avviare la procedura di azzeramento memoria.
541: problema con il conteggio di alcune statistiche se la CPU entra nello stato CC6 prima della lettura delle stesse. Il suggested workaround è che i software che usano queste statistiche devono leggere i dati prima di mandare la CPU in stato CC6.
564: questo sembra un baco non da poco e riguarda un possibile malfunzionamento nel ritorno dalla stato CC6 se si verifica una SMI esattamente quando si sta eseguendo l'HLT per portare la CPU in stato CC6. Dice di contattare il proprio AMD rapresentative...
565: ancora sull'IBS, ossia le statistiche di uso. I registri sono separati per ogni core. Se si settano i cores in modo diverso ci potrebbero essere problemi di conteggio. La soluzione è settare tutti i cores in modo uguale.
573: questo sembra un baco non da poco e riguarda un possibile malfunzionamento dopo l'istruzione FSINCOS (una istruzione legacy della FPU x87 che fa calcolare seno e coseno assieme, evidentemente poco usata, poichè esistono istruzioni separate per seno e coseno). Dice di contattare il proprio AMD rapresentative...
596: il NB può essere messo per sbaglio in clock gating in rare circostanze in cui si sta facendo un prefetch causando la corruzione dei dati. Dice che non è stato osservato nei software commerciali, ma comunque il workaround è disabilitare il clock gating del NB.

In sostanza non ci sono errata gravi e lo step messo in commercio è quello B0 (ciò potrebbe spiegare i clock bassi)
__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 20-06-2011 alle 23:02.
capitan_crasy è offline  
Old 30-09-2009, 12:36   #6
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
FAQ e le possibile date di uscita



Le CPU serie FX-8000/FX-6000/FX-4000 con architettura Bulldozer dovrebbero essere presentati il 12 Ottobre 2011:
Clicca qui...

Le schede madri socket AM3+ con chipset AMD serie 900 sono attualmente in commercio!
Le APU Llano per il mercato mobile sono attualmente in commercio!
Le APU Ontario/Zacate sono attualmente in commercio!
La piattaforma "Lynx" composta da APU Llano per il mercato desktop è attualmente in commercio!

Le soluzioni Komodo (Bulldozer di seconda generazione) a 10/8/6 core sono attese per la prima parte del 2012! (data non confermata ufficialmente)

__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 26-09-2011 alle 12:30.
capitan_crasy è offline  
Old 30-09-2009, 12:48   #7
K Reloaded
Senior Member
 
L'Avatar di K Reloaded
 
Iscritto dal: May 2006
Città: Regione FVG
Messaggi: 28768
*indicizzato , grazie
K Reloaded è offline  
Old 30-09-2009, 12:49   #8
Vash_85
Senior Member
 
L'Avatar di Vash_85
 
Iscritto dal: Jan 2002
Messaggi: 10012
Iscritto , potevo mica mancare.....
Vash_85 è offline  
Old 30-09-2009, 12:52   #9
Pihippo
Senior Member
 
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
Evvai!
Propongo Capitan crasy for president!
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita
Pihippo è offline  
Old 30-09-2009, 13:15   #10
jurop88
Member
 
Iscritto dal: Apr 2005
Città: Genova
Messaggi: 109
ping... iscritto
__________________
Cpus: C1 Athlon 3.2 Matrox G400 + NVIDIA8600 LCD19"+CRT 21" DH - C2 Athlon 3.2LV htpc case antec display LDC samsung 40'' - C3 slate Motion Computing LE1700
Musica: ls3/5a, monotriodo 300b, pre 6sn7, teac VRDS10, vari T-Amp da battaglia, Yamaha S90es , AKG 271Studio
Gadget: DS, Nokia 770, N800, N6021, N6210, N6220c, S Z720v, N900, X360
jurop88 è offline  
Old 30-09-2009, 13:19   #11
-Maxx-
Senior Member
 
L'Avatar di -Maxx-
 
Iscritto dal: Aug 2009
Messaggi: 4756
Iscritto! Vediamo che combina AMD con Fusion
__________________
-Maxx- è offline  
Old 30-09-2009, 13:24   #12
Dre@mwe@ver
Senior Member
 
Iscritto dal: May 2009
Messaggi: 1330
Eccomi!
Dre@mwe@ver è offline  
Old 30-09-2009, 13:30   #13
Phenom95
Member
 
Iscritto dal: Jan 2009
Messaggi: 58
Quote:
Originariamente inviato da Pihippo Guarda i messaggi
Evvai!
Propongo Capitan crasy for president!
Concordo, io faccio pochi interventi però leggo spesso il forum e lui è uno degli utenti da me preferiti per gli interventi che fa!!!
__________________
CPU Athlon64 X2 6000+-->PhenomII x2 550 MOBO SAPPHIRE PI-AM2RS780G RAM Kingston 2x4GB 6400 VGA Ati Radeon 4770 512Mb HD Seagate Barracuda 1500 gb SataII 64mb
Phenom95 è offline  
Old 30-09-2009, 13:33   #14
sniperspa
Senior Member
 
L'Avatar di sniperspa
 
Iscritto dal: Aug 2006
Messaggi: 11100
thread dovuto direi
__________________
PC1: LG 34UC79G - Ryzen 5600@4,65ghz CO-30 - MasterLiquid 240 - 32GB 2400 Corsair@3000 - Gigabyte GA-AB350M Gaming 3 - RX 6700XT - NZXT S340 Elite
PC2: FX6300 - AC Freezer 64 pro - Gigabyte 990XA-UD3 - Sapphire HD7850 2gb - 8gb DDR3 Corsair 1333 - - Antec Two Hundred
PC3: AMD A10 7700k - 8gb DDR3 2400mhz - SanDisk Plus SSD 240gb - CoolerMaster NSE-200-KKN1
sniperspa è offline  
Old 30-09-2009, 13:46   #15
bjt2
Senior Member
 
L'Avatar di bjt2
 
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
Benissimo.

Io proporrei di cambiare il regolamento del thread sul K10 per reindirizzare i post su buldozer qui... Se il regolamento già lo contemplava, allora bisogna essere meno permissivi di la...

Comunque... Iscritto!
__________________
0 A.D. React OS
La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani...
IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST!
bjt2 è offline  
Old 30-09-2009, 13:46   #16
Defragg
Senior Member
 
L'Avatar di Defragg
 
Iscritto dal: Mar 2006
Messaggi: 8598
Seguo interessato
__________________
PlayStation 5 | Steam Deck 512 GB | Ryzen 7 7700 — 2x16GB Corsair Dominator Platinum 6400 MHz — RTX 2070 Super
Trattative OK: 1mp3r4t0r, armenico11, Babumba92, CoolBits, Drigerott, gino1221, k.o.z, Macco, Mastermarcox, Mone_82, stacker, Velvet, Vladimiro Bentovich, frupoli, Sheva77, deg626, HcK190, Godmar, Simonxp, LCol84, pp2k, xeno the holy, SamuTnT
Defragg è offline  
Old 30-09-2009, 14:13   #17
Torpedo
Senior Member
 
L'Avatar di Torpedo
 
Iscritto dal: Jul 2002
Città: Messina
Messaggi: 9258
Eccomi
__________________
T๏гקє๔๏_мυѕι¢_1 Asus Prime B450M-K ◌ AMD Ryzen 5 5900x ◌ 32Gb G. Skill DDR4 ◌ Zotac RTX 3060 Ti ◌ Corsair M.2 SSD [480Gb]
T๏гקє๔๏_мυѕι¢_2 Asus Prime B450M-A ◌ AMD Ryzen 5 5600x ◌ 64Gb G. Skill DDR4 ◌ Palit StormX RTX 2060 ◌ Crucial M.2 SSD [2Tb]
T๏гקє๔๏_мυѕι¢_3 Acer Nitro 5 AN515-57-7655 15.6" ◌ Intel i7-11800H ◌ 16GB DDR4 ◌ GeForce RTX 3060 ◌ M.2 SSD [1Tb]
Torpedo è offline  
Old 30-09-2009, 14:37   #18
^Robbie^
Senior Member
 
L'Avatar di ^Robbie^
 
Iscritto dal: Feb 2003
Città: Napoli
Messaggi: 2200
Presente anche io

Byez!
__________________
MacMini 2020 CPU M1 - GPU 8 Core - 8GB RaM - SSD 512GB | MacBook Pro 14" 2023 M3 Pro - GPU 18 Core- 18GB RaM - SSD 1TB | Synology DS916+ - DS213j | iPad Pro 11" 512GB WiFi+Cell | iPhone 15 Pro Max Titanio Bianco 256GB | Apple Watch Ultra 2 | Apple TV (4th gen) 32GB | Apple TV 4K 64GB | Canon EOS 100D |SeaBlog - Il blog del mare
^Robbie^ è offline  
Old 30-09-2009, 15:21   #19
TheBestFix
Bannato
 
Iscritto dal: Jul 2008
Messaggi: 1998
Quote:
Originariamente inviato da Ratatosk Guarda i messaggi
in effetti....
TheBestFix è offline  
Old 30-09-2009, 15:21   #20
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 24165
Grazie a tutti per i complimenti, sono davvero lusingato...

Eccovi una chicca:
Sappiamo che la prima piattaforma desktop con le CPU Bulldozer si chiamerà "Scorpius"
Questa immagine la trovate sul sito AMD.

__________________
AMD Ryzen 5600X|Thermalright Macho Rev. B|Gigabyte B550M AORUS PRO-P|2x16GB G.Skill F4-3200C16D-32GIS Aegis @ 3200Mhz|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Silicon Power A60 2TB + 1 SSD Crucial MX500 1TB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX6600 PULSE】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case In Win 509|Fans By Noctua

Ultima modifica di capitan_crasy : 30-09-2009 alle 15:23.
capitan_crasy è offline  
 Discussione Chiusa


La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing La Formula E può correre su un tracciato ...
Lenovo LEGION e LOQ: due notebook diversi, stessa anima gaming Lenovo LEGION e LOQ: due notebook diversi, stess...
Nothing Ear e Ear (a): gli auricolari per tutti i gusti! La ''doppia'' recensione Nothing Ear e Ear (a): gli auricolari per tutti ...
Sony FE 16-25mm F2.8 G: meno zoom, più luce Sony FE 16-25mm F2.8 G: meno zoom, più lu...
Motorola edge 50 Pro: design e display al top, meno il prezzo! Recensione Motorola edge 50 Pro: design e display al top, m...
HiSolution amplia i propri servizi e pun...
F1 24 introdurrà migliorie al mod...
Arriva Omnissa, che prenderà in c...
Turista americano torna dall'Europa e si...
Larian al lavoro su due nuovi giochi, cr...
Microsoft Office LTSC 2024 disponibile i...
Fallout 4 è il gioco più v...
Razer Kishi Ultra: ecco il controller pe...
Il Dimensity 6300 di MediaTek porta il 5...
Google combina i team Android, Chrome e ...
Axiante vuole indagare come le imprese i...
Italia quinto mercato europeo per i vide...
Apple celebra la Giornata della Terra co...
La funzionalità 'AI Explorer' di ...
ASUS ROG Ally: la versione più potente c...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 02:40.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Served by www1v