Tesla K80: due GPU e 24 Gbytes di memoria per il calcolo parallelo

In occasione di SC14 NVIDIA annuncia la nuova proposta top di gamma della famiglia Tesla, una scheda dotata di due GPU montate sullo stesso PCB in abbinamento ciascuna a 12 Gbytes di memoria video. Ampio spazio anche a NVLink, la connessione tra GPU e CPU in arrivo dal 2016 che dovrebbe permettere di incrementare sensibilmente le prestazioni nei sistemi server per GPU Computing
di Paolo Corsini pubblicato il 17 Novembre 2014 nel canale Server e WorkstationNVIDIATesla
K80: la scheda a due GPU del famiglia Tesla
SC14 è la sede di una serie di importanti annunci per NVIDIA, azienda che con le proprie architetture di GPU è sempre più presente nel mercato dei supercomputer e di tutte quelle installazioni dove le GPU possono venir utilizzate per elaborazioni di tipo parallelo che non riguardino la tradizionale grafica 3D.
Eccoci quindi all'annuncio di Tesla K80, la nuova soluzione per il calcolo parallelo che NVIDIA ufficializza quest'oggi. Una scheda con interfaccia PCI Express e un ingombro di 2 slot sulla scheda madre che vede affiancate due GPU GK110 sullo stesso PCB abbinando una dotazione di memoria di ben 12 Gbytes per ciascun chip video. Tra le caratteristiche tecniche anticipate da NVIDIA per questo prodotto segnaliamo un totale di 4.992 CUDA cores e una bandwidth aggregata della memoria video pari a 480 Gbytes al secondo. Questi dati implicano l'utilizzo di GPU GK210 in versione con 2.496 CUDA cores ciascuna, e una frequenza di clock effettiva della memoria video GDDR5 pari a 5 GHz abbinata a bus da 384bit di ampiezza.
La GPU adottata in Tesla K80 è un modello nuovo sviluppato da NVIDIA, che ha quale base il chip GK110 adottato per la scheda Tesla K40 oltre che in varie proposte per sistemi desktop della famiglia GeForce GTX 700. In questo chip NVIDIA ha introdotto due novità tecniche che dovrebbero permettere di dare benefici soprattutto in ambito GPU Computing: il primo è il raddoppio della dimensione del register file per ogni streaming multiprocessor (SMX) integrato nella GPU, che passa da 256KB a 512 KB. Il secondo è il raddoppio della shader cache per ogni SMX, che passa dai precedenti 64 KB agli attuali 128 KB. In considerazione del consumo massimo dichiarato per la scheda è pressoché scontato considerare come GK210 introduca anche varie migliorie in termini di efficienza energetica rispetto a GK110.
Mettiamo a confronto la nuova arrivata con le altre schede della famiglia Tesla, così da avere un quadro completo dell'attuale offerta di NVIDIA nel settore delle GPU professionali per calcolo parallelo.
CPU |
Tesla K80 | Tesla K40 | Tesla K20X | Tesla K20 | Tesla K10 |
architettura | Kepler | Kepler | Kepler | Kepler | Kepler |
tipo GPU | 2xGK210 | GK110B | GK110 | GK110 | 2xGK104 |
CUDA cores | 2x2.496 | 2.880 | 2.688 | 2.496 | 2x1.536 |
base clock GPU | 562 MHz | 745 MHz | 732 MHz | 706 MHz | 745 MHz |
boost clock GPU | 870 MHz | 810 MHz 875 MHz |
- | - | - |
clock memoria | 5 GHz | 6 GHz | 5,2 GHz | 5,2 GHz | 5 GHz |
dotazione memoria | 2x12GB | 12GB | 6GB | 5GB | 2x4GB |
bus memoria | 2x384bit | 384bit | 384bit | 320bit | 2x256bit |
single precision | 8,74 Tflops | 4,29 Tflops | 3,95 Tflops | 3,52 Tflops | 4,58 Tflops |
double precision | 2,91 Tflops | 1,43 Tflops | 1,31 Tflops | 1,17 Tflops | 0,19 Tflops |
Tesla K80 scende a compromessi in termini di frequenza di clock della memoria video e numero di CUDA cores integrati nei due chip video, così da mantenere un livello di consumo complessivo che sia compatibile con l'installazione in un data center. NVIDIA dichiara un consumo di picco per questa scheda pari a 300 Watt, contro i 235 Watt massimi della proposta Tesla K40, ma specifica come nella maggior parte degli utilizzi pratici questa scheda non raggiunga tale livello di consumo mantenendosi su una soglia ben inferiore.
Grazie alla presenza di due GPU in parallelo le prestazioni velocistiche rese disponibili da Tesla K80 rappresentano un netto balzo in avanti rispetto a Tesla K40 nelle elaborazioni di tipo double precision: arriviamo a circa 2,9 TeraFLOPS complessivi, un dato che non è doppio rispetto a quello di Tesla K40 a motivo dell'inferiore numero di CUDA cores integrati per GPU rispetto al modello a singolo chip video. La scelta di dotare questa scheda di 12 Gbytes di memoria video per ognuna delle due GPU permette inoltre di non incorrere in limitazioni rispetto a quanto accessibile con Tesla K40; la bandwidth della memoria video registra anche in questo caso un sensibile incremento grazie all'utilizzo di due bus affiancati, uno per ogni GPU.
Nel corso dei prossimi giorni vedremo al debutto varie nuove soluzioni server dedicate al GPU computing in grado di utilizzare le schede Tesla K80. Significativo vedere proposte rack a 1 unità dotate di 4 schede Tesla K80, come i modelli Dell e Quanta, in grado in questo modo di mettere a disposizione ben 8 GPU per singola unità rack ottenendo una densità di elaborazione estremamente elevata e prestazioni velocistiche in double precision superiore a quanto accessibile con 4 schede Tesla K40.