Da Microsoft un nuovo modello AI talmente efficiente che può essere eseguito via CPU

Da Microsoft un nuovo modello AI talmente efficiente che può essere eseguito via CPU

I ricercatori di Microsoft hanno sviluppato un modello di intelligenza artificiale estremamente efficiente che funziona anche su CPU standard. BitNet b1.58 2B4T vuole rappresentare un importante passo avanti nella democratizzazione dell'accesso alle capacità avanzate di AI.

di pubblicata il , alle 14:21 nel canale Web
Microsoft
 

Microsoft Research ha recentemente rilasciato BitNet b1.58 2B4T, il primo modello linguistico di grandi dimensioni (LLM) nativo a 1 bit con 2 miliardi di parametri. Addestrato su un corpus di 4 trilioni di token (equivalenti a circa 33 milioni di libri), segna un progresso significativo nel campo dell'IA efficiente. La caratteristica principale è la sua architettura basata su pesi quantizzati a soli tre valori (-1, 0 e 1), approccio che riduce i requisiti di memoria e potenza di calcolo rispetto ai modelli tradizionali.

Le prestazioni dichiarate di questo modello sono interessanti considerando la sua efficienza. Secondo i test condotti dai ricercatori, BitNet b1.58 2B4T supera modelli rivali di dimensioni simili come Llama 3.2 1B di Meta, Gemma 3 1B di Google e Qwen 2.5 1.5B di Alibaba su diversi benchmark, inclusi GSM8K (una raccolta di problemi matematici a livello di scuola elementare) e PIQA (che valuta le capacità di ragionamento fisico di buon senso).

Efficienza computazionale senza precedenti per il nuovo modello AI di Microsoft

BitNet b1.58 2B4T richiede, poi, solo 0,4 GB di memoria (escludendo gli embedding) rispetto ai 2 GB di Llama 3.2 1B o ai 4,8 GB di MiniCPM 2B. La latenza di decodifica su CPU è di appena 29 ms, quasi la metà rispetto ai 48 ms di Llama 3.2 1B, come riportato nel repository ufficiale di Hugging Face, e il consumo energetico stimato è di soli 0,028 J, un valore nettamente inferiore rispetto ai modelli concorrenti.

Per garantire l'accessibilità e consentire l'implementazione su dispositivi privi di GPU potenti (come dispositivi edge, laptop o server standard), i ricercatori hanno sviluppato bitnet.cpp, una libreria C++ che funge da implementazione di riferimento ufficiale per l'inferenza via CPU dei modelli LLM a 1 bit, e che fornisce kernel ottimizzati per l'esecuzione efficiente su architetture CPU standard, evitando il sovraccarico delle librerie di quantizzazione generiche. Il modello è disponibile in diverse varianti su Hugging Face: la versione principale con pesi a 1,58 bit ottimizzati per l'inferenza efficiente, una versione con pesi master in formato BF16 per scopi di addestramento o fine-tuning, e una versione in formato GGUF compatibile con la libreria bitnet.cpp per l'inferenza su CPU.

Un limite attuale dell'implementazione è che per ottenere i vantaggi di efficienza promessi è necessario utilizzare il framework personalizzato di Microsoft, bitnet.cpp, che al momento funziona solo con determinati hardware. Assenti dall'elenco dei chip supportati sono le GPU, che dominano il panorama delle infrastrutture AI, e questo rappresenta una sfida per l'adozione diffusa della tecnologia senza però diminuire il potenziale impatto che modelli come BitNet potrebbero avere in futuro.

La possibilità di eseguire modelli linguistici avanzati su CPU standard, fra cui ad esempio il chip Apple M2, potrebbe però ampliare notevolmente l'accessibilità di queste tecnologie, portandole potenzialmente a nuovi casi d'uso e applicazioni dove finora erano considerate impraticabili per motivi di costo o requisiti hardware.

2 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Max Power17 Aprile 2025, 17:08 #1
Microsoft ed efficenza...
BulletHe@d18 Aprile 2025, 08:39 #2
battutina a parte, qualcuno di esperto ha avuto modo di metterci mano e verificare quanto scritto nell'articolo ? perchè da non intenditore la prima cosa che mi sorprende è il fatto che sia un linguaggio che non andrebbe a sfruttare core specifici per ia quidni un linguaggio che potenzialmente potrebbe portare l'ai fruibile in modo decente anche per quei sistemi più vecchiotti ma ancora abbastanza potenti che non hanno i core dedicati per l'ai

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^