MiniMax anticipa l’M3 con un nuovo meccanismo di attenzione sparsa: decoding fino a 15.6x più veloce su contesti lunghi
Tra le aziende cinesi di AI che competono sul mercato globale, MiniMax si distingue per l’offerta di modelli all’avanguardia in più modalità (testo, codice, video con la serie Hailuo), spesso con licenze open source permissive. Ora l’azienda ha pubblicato un report tecnico dettagliato sulla sua serie M2 (M2, M2.5, M2.7) e ha anticipato l’architettura del prossimo modello M3.
Il cuore del nuovo modello è il meccanismo MiniMax Sparse Attention (MSA), un approccio sub-quadratico che promette fino a 9.7x di accelerazione in prefilling e 15.6x nella fase di decoding per sequenze da 1 milione di token. L’obiettivo dichiarato è rendere economicamente sostenibili gli agenti AI che lavorano su contesti ultra-lunghi.
Il dilemma dell’attenzione
L’architettura della serie M2 si basa su un Transformer decoder-only con Mixture-of-Experts (MoE) sparso: 229.9 miliardi di parametri totali, ma solo 9.8 miliardi attivati per token grazie a 256 esperti. MiniMax ha adottato sigmoid gating con bias appresi per evitare problemi di bilanciamento del carico.
La scelta più significativa del report M2 è stata l’adozione di attenzione full multi-head con Grouped Query Attention (GQA) su tutti i 62 layer. Nei modelli linguistici, l’attenzione completa ha costo quadratico: ogni token deve connettersi matematicamente a tutti gli altri. È come essere a un evento di networking e dover parlare con ogni persona presente mentre si monitorano tutte le conversazioni. Il risultato è un contesto approfondito, ma il costo computazionale esplode con il quadrato della lunghezza dell’input.
MiniMax ha testato alternative sub-quadratiche durante lo sviluppo dell’M2, ma le ha scartate. Esperimenti con Sliding Window Attention (SWA) hanno mostrato cali significativi: sul test RULER 128K, lo score è passato da 90.0 (attenzione completa) a 72.0 con SWA. Le varianti sub-quadratiche soffrivano di limiti di memoria, mancavano di supporto per prefix caching e non si allineavano bene con i moduli Multi-Token Prediction usati per il decoding speculativo.
MiniMax Sparse Attention: il salto sub-quadratico
L’M3 rompe con i vincoli del predecessore. A differenza del meccanismo Multi-head Latent Attention (MLA) di DeepSeek, che comprime chiavi e valori in uno spazio latente a bassa dimensionalità, MSA opera su una base GQA standard ma utilizza selezione a livello di blocco su Key-Values reali, non compressi. Come spiegato da Elie Bakouch di Prime Intellect, la selezione a livello di blocco è simile al CSA, ma l’attenzione viene calcolata sui KV reali, non in spazio compresso.
Questo risolve i problemi di perdita di precisione e di caching dell’M2. I primi test hardware mostrano un’accelerazione di 9.7x nella latenza di prefilling e 15.6x nel decoding per sequenze da 1 milione di token rispetto all’architettura M2.
Per capire perché il decoding sia così critico: quando interagisci con un AI, il processo si divide in due fasi. Il prefilling elabora l’intero prompt in parallelo — è come leggere un documento in una volta sola. Il decoding genera la risposta parola per parola: per prevedere la centesima parola, deve ricalcolare il contesto del prompt più le 99 parole già scritte. Più la risposta si allunga, più il costo cresce. L’accelerazione promessa dall’M3 rende questo processo economicamente sostenibile anche per contesti da milioni di token.
Il report M2 è comunque un documento rilevante per chi lavora con modelli AI: descrive soluzioni a problemi pratici di efficienza e design orientato agli agenti. Come ha osservato Adina Yakup di Hugging Face, oltre ai benchmark, MiniMax ha fatto un ottimo lavoro sull’efficienza MoE e sul design per agenti.
