FramePack: adesso bastano 6 GB di VRAM per generare video con l'AI in locale

FramePack: adesso bastano 6 GB di VRAM per generare video con l'AI in locale

I ricercatori Lvmin Zhang e Maneesh Agrawala hanno sviluppato un nuovo modello IA che ottimizza le risorse di sistema consentendo anche alle GPU con soli 6 GB di memoria di generare video in locale, senza sfruttare i servizi in cloud

di pubblicata il , alle 14:40 nel canale Software
 

Il ricercatore Lvmin Zhang in collaborazione con Maneesh Agrawala dell'Università di Stanford ha presentato FramePack, una nuova architettura neurale per la generazione di video che ottimizza le risorse hardware consentendo praticamente a chiunque di creare filmati direttamente con il proprio PC, senza passare per il cloud.

Di cosa si tratta? FramePak è un modello IA che vanta 13 miliardi di parametri capace di comprimere i fotogrammi di input in un contesto temporale a lunghezza fissa. Questo garantisce un'elaborazione più efficiente consentendo a schede video con soli 6 GB di memoria di realizzare clip da un minuto.

Si tratta di un approccio rivoluzionario al problema della memoria, poiché i modelli più diffusi richiedono risorse crescenti all'aumentare della lunghezza del filmato. Secondo i due autori, che hanno condiviso il modello su GitHub, il costo di FramePack in termini di risorse è paragonabile a quello della diffusione (generazione) di un'immagine statica.

FramePack rappresenta un enorme passo avanti rispetto ai modelli più diffusi. Una delle principali caratteristiche dell'architettura è la sua capacità di mitigare il drifting, ovvero quel fenomeno per il quale la qualità del filmato degrada all'aumentare della sua lunghezza. Il modello, infatti, integra strumenti specifici che consentono di mantenere la coerenza visiva per l'intera durata del video.

L'attuale implementazione sfrutta un modello basato su Hunyuan, ma la documentazione suggerisce che sia possibile adottare qualsiasi modello pre-addestrato grazie a una funzione di ottimizzazione per FramePack. In sintesi, l'architettura consentirebbe a sviluppatori e ricercatori di importare il proprio modello ottenendo un'elaborazione più efficiente.

Tuttavia, si trova ancora in uno stato embrionale. Al momento, infatti, la compatibilità si estende esclusivamente alle schede video NVIDIA GeForce RTX 30, 40 e 50 con supporto ai formati dati FP16 e BF16. Il supporto alle architetture di AMD o Intel, così come a quelle NVIDIA precedenti ad Ampere, non è stato ancora verificato.

Inoltre, il sistema riesce ad elaborare video a un massimo di 30 frame per secondo che rappresenta un grosso limite per l'adozione in alcuni ambiti professionali. Tuttavia, pare che il modello non sia, almeno per il momento, indirizzato all'uso professionale, ma tenta piuttosto di rendere la generazione di video in locale alla portata di tutti, anche di chi non possiede un hardware di fascia alta o enthusiast.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^