Chip di intelligenza artificiale su circuito stampato, rappresentazione del nuovo meccanismo di attenzione sparsa MiniMax M3

MiniMax anticipa M3: nuova attenzione sparsa e decoding 15,6x più veloce su contesti lunghi

MiniMax, la società cinese di AI che si è fatta conoscere per i modelli M2 e la serie Hailuo per la generazione video, ha pubblicato un report tecnico approfondito sulla famiglia M2 (M2, M2.5, M2.7) e ha anticipato alcune novità del successore M3. Il punto centrale è una nuova architettura di attenzione sparsa che promette un salto di prestazioni notevole.

Il modello M2 si basa su un’architettura Transformer decoder-only con mixture-of-experts (MoE) sparsa. Ha 229,9 miliardi di parametri totali, ma ne attiva solo 9,8 miliardi per token, distribuiti su 256 esperti. Per ottimizzare il routing, MiniMax ha usato sigmoid gating con bias apprendibili, riducendo la dipendenza da funzioni di perdita ausiliarie restrittive.

La scelta più significativa nel progetto di M2 è stata l’adozione di full multi-head attention con Grouped Query Attention (GQA) in tutti i 62 strati. In pratica, ogni token deve connettersi matematicamente a ogni altro token. È un approccio completo ma costoso: la potenza di calcolo e la memoria crescono col quadrato della lunghezza in input. MiniMax ha testato alternative sub-quadratiche (come Sliding Window Attention o attenzione lineare compressa) durante il pre-training, ma le ha scartate perché danneggiavano il ragionamento multi-hop: su compiti di estrazione complessa a 128K token, le varianti SWA scendevano da 90,0 a 72,0 nel punteggio RULER.

Ora con M3 MiniMax cambia strategia. Introduce la MiniMax Sparse Attention (MSA), che opera su un backbone GQA ma seleziona blocchi di Key-Value reali e non compressi. A differenza della Multi-head Latent Attention di DeepSeek, che comprime tutto in uno spazio latente a bassa dimensionalità, MSA mantiene i KV originali e fa selezione a livello di blocco. Questo risolve i problemi di perdita di precisione e di caching dei prefissi incontrati in M2.

I primi benchmark hardware sono promettenti: rispetto a M2 con attenzione piena, M3 mostra un’accelerazione di 9,7x nella fase di prefilling e di 15,6x nella fase di decoding, su sequenze da un milione di token. Per capire l’impatto: nella fase di decoding, il modello genera una parola alla volta e deve ricalcolare il contesto a ogni passo — più è lunga la risposta, più diventa costosa. Un’accelerazione di 15,6x rende economicamente viable l’uso di agenti AI con contesti ultra-lunghi.

Il report tecnico di M2 è comunque utile per chiunque lavori con modelli AI: spiega nel dettaglio le scelte ingegneristiche e le soluzioni ai problemi di bilanciamento del carico e di efficienza dell’attenzione. Come ha commentato Adina Yakup di Hugging Face, “oltre ai benchmark, hanno fatto un lavoro solido sull’efficienza MoE e sul design orientato agli agenti”. M3, quando arriverà, potrebbe alzare ulteriormente l’asticella.

Articoli simili