NVIDIA Cosmos 3 architettura modello per robotica e guida autonoma

NVIDIA Cosmos 3: un modello unico per ragionamento fisico, generazione del mondo e azione

NVIDIA ha rilasciato Cosmos 3, una famiglia di modelli per physical AI che combina ragionamento fisico, generazione del mondo e generazione di azioni in un unico sistema. I checkpoint, gli script di training, gli strumenti di deployment e i dataset sono stati resi open-source. Il target sono robotica, veicoli autonomi e monitoraggio di magazzini.

I sistemi di physical AI devono comprendere il mondo prima di agire al suo interno. Robot e veicoli devono percepire, prevedere e poi agire. Le versioni precedenti di Cosmos dividevano questi compiti su modelli separati. Cosmos 3 li unifica con un’architettura Mixture-of-Transformers (MoT) basata su due torri.

La torre reasoner è un vision-language model (VLM) autoregressivo: interpreta immagini, video e testo, e comprende movimento, interazioni tra oggetti e contesto fisico. NVIDIA la descrive come il cervello del modello. La torre generator produce osservazioni future e sequenze di azioni usando un processo basato su diffusione, condizionato dalla comprensione della reasoner. Il flusso di informazioni è unidirezionale, dalla reasoner al generator. La reasoner può funzionare da sola; il generator attiva sempre entrambe le torri per una generazione guidata.

Tre scale, un’unica architettura

Il rilascio include due modelli principali: Cosmos3-Nano (16B totali, basato su un backbone denso da 8B, adattato da Qwen3-VL 8B) progettato per GPU workstation come la RTX PRO 6000, adatto a robotica in tempo reale. Cosmos3-Super (64B totali, basato su Qwen3-VL 32B) per datacenter con GPU Hopper e Blackwell, pensato per generazione sintetica di dati su larga scala. Una versione Edge da 4B è prevista per un rilascio futuro.

Come funziona la progettazione unificata

Entrambe le torri condividono una stessa architettura transformer e un operatore di attenzione congiunto. Usano una 3D multimodal rotary position embedding (mRoPE) che allinea video, audio e token di azione sullo stesso asse temporale. In modalità Reasoner, i token passano attraverso self-attention causale per la predizione del token successivo. In modalità Generator, i token rumorosi vengono denoizzati tramite attenzione completa; i token autoregressivi non vengono mai aggiornati dai token di diffusione.

Il modello tratta l’azione come una modalità centrale, con token dedicati. Input supportati: testo, immagine, video e array JSON di azioni. Output: immagini, video, audio sincronizzato, stati delle azioni e testo. La generazione video supporta risoluzioni da 256p a 720p, con frame da 5 a 300 (default 189, circa 7,9 secondi a 24 FPS). L’audio è stereo AAC a 48 kHz.

Il condizionamento per le azioni copre diverse embodiment: camera, veicolo, egocentrico, singolo braccio, doppio braccio e umanoide. Ogni embodiment ha una dimensione di azione fissa (es. 9D per le camere).

I benchmark

Nei test di ragionamento, Cosmos3 Super e Nano guidano VANTAGE-Bench nelle rispettive categorie, un benchmark che testa VLM su filmati reali da telecamere fisse in magazzini, trasporti e spazi smart. Cosmos 3 è anche in testa alla classifica Traffic Anomaly Reasoning (TAR), leaderboard ufficiale dell’AI City Challenge 2026 Track 3.

Nella generazione, NVIDIA riporta risultati state-of-the-art open-source su R-Bench, e prime posizioni su PAI-Bench, Physics-IQ e RoboLab. Su Artificial Analysis, Cosmos 3 guida due leaderboard open-source per text-to-image e image-to-video senza audio.

NVIDIA ha introdotto anche Cosmos Human Evaluation (HUE), un framework che scompone ogni video generato in domande fattuali sì/no, valutando quattro dimensioni (allineamento semantico, leggi fisiche, ragionamento geometrico e integrità visiva) su sette domini di physical AI. Le domande vengono generate da una pipeline VLM e poi affinate da esperti umani.

Articoli simili