MiniMax M3: attenzione sparsa e 15,6x di velocità nel decoding per contesti ultra-lunghi
MiniMax, azienda cinese tra le più attive nello sviluppo di modelli AI multimodali, ha pubblicato un report tecnico approfondito sulla sua serie M2 (M2, M2.5, M2.7) e ha anticipato alcune innovazioni per il successore M3. Il punto chiave è il nuovo meccanismo di attenzione sparsa chiamato MiniMax Sparse Attention (MSA), che promette fino a 15,6 volte più velocità nel decoding su contesti lunghi un milione di token.
Il report M2 è interessante per chi lavora con modelli AI, in particolare per chi vuole fare fine-tuning o addestrare modelli proprietari. I modelli M2, all’epoca del rilascio, erano tra i migliori open source al mondo per performance. Ora MiniMax spiega come ha risolto alcuni problemi di efficienza e progettazione orientata agli agenti. Come ha osservato Adina Yakup di Hugging Face, “oltre ai benchmark, hanno fatto un lavoro solido sull’efficienza MoE e sul design per agenti”.
Il dilemma dell’attenzione
L’architettura base del M2 è un Transformer decoder-only con Mixture-of-Experts (MoE) sparso: 229,9 miliardi di parametri totali, ma solo 9,8 miliardi attivati per token, distribuiti su 256 esperti. Per ottimizzare il routing, MiniMax ha usato sigmoid gating con bias esperti addestrabili, riducendo la dipendenza da funzioni di perdita restrittive.
La scelta più netta è stata mantenere l’attenzione full multi-head con Grouped Query Attention (GQA) su tutti i 62 layer. Nelle AI, “scaling quadratico” significa che ogni token deve connettersi a ogni altro token: la potenza di calcolo cresce col quadrato della lunghezza dell’input. È come essere a un evento di networking e dover parlare con tutti contemporaneamente.
MiniMax ha testato scorciatoie sub-quadratiche (Sliding Window Attention, attenzione lineare compressa) durante il pre-training, ma le ha scartate perché compromettevano il multi-hop reasoning, cioè la capacità di connettere indizi distanti in un documento lungo. Su valutazioni oltre 32K token, le varianti SWA scendevano da 90,0 a 72,0 nel task di estrazione complessa di parole su RULER 128K. Le configurazioni sub-quadratiche avevano anche problemi di memoria, mancanza di supporto per prefix caching e difficoltà di allineamento con Multi-Token Prediction. Full attention era l’unica scelta per preservare il ragionamento.
MiniMax Sparse Attention (MSA): attenzione sparsa senza compromessi
Per M3, MiniMax cambia approccio. MSA non comprime chiavi e valori in uno spazio latente (come fa DeepSeek con MLA), ma opera su un backbone GQA standard con selezione a livello di blocco su Key-Values reali, non compressi. Così si eliminano i problemi di perdita di precisione e le limitazioni di caching visti in M2.
I benchmark iniziali su hardware indicano un’accelerazione di 9,7x nella fase di prefilling e 15,6x nel decoding, su sequenze da un milione di token rispetto all’architettura full attention di M2.
Per capire perché il decoding è così importante: quando dai un prompt all’AI, il sistema prima lo “legge” tutto in parallelo (prefilling), poi genera la risposta parola per parola (decoding). A ogni nuova parola deve ricalcolare il contesto con tutte le parole precedenti. Più lunga è la risposta, più il decoding diventa lento. Un boost di 15,6x significa che operazioni su documenti enormi diventano economicamente fattibili per agenti AI.
L’M3 non è ancora stato rilasciato, ma MiniMax promette che la nuova attenzione sparsa permetterà di gestire contesti ultra-lunghi senza sacrificare la qualità del ragionamento. Il resto del settore osserva con attenzione.
