Microchip AI con illuminazione blu, rappresentazione MiniMax M3 attenzione sparsa

MiniMax svela i dettagli di M3: nuova attenzione sparsa e prestazioni fino a 15.6x su contesti lunghi

MiniMax è una delle aziende cinesi di AI che si sta facendo notare a livello globale. produce modelli linguistici e multimodali (testo, codice, video con la serie Hailuo) e li rilascia spesso con licenze open source pensate per le imprese. Ora ha pubblicato un report tecnico approfondito sulla sua serie M2 (che include M2, M2.5 e M2.7) e ha anticipato alcune novità sulla prossima serie M3: un nuovo meccanismo di attenzione sparsa che, secondo l’azienda, rende la generazione delle risposte fino a 15.6 volte più veloce su contesti molto lunghi (un milione di token).

Il report M2 è interessante per chi lavora con modelli AI, soprattutto se li addestra o li adatta internamente. La serie M2, quando uscì, era tra i migliori modelli open source al mondo per benchmark. Da allora è stata superata da altri laboratori cinesi (DeepSeek, Xiaomi), ma il report offre spunti utili su ottimizzazioni di Mixture-of-Experts e architettura orientata agli agenti. Come ha scritto Adina Yakup di Hugging Face, “oltre ai benchmark, hanno fatto un lavoro solido sull’efficienza MoE e sul design per agenti. Curiosa di vedere dove arriverà M3”.

Il dilemma dell’attenzione

L’architettura di M2 si basa su un Transformer decoder-only con Mixture-of-Experts (MoE) sparso. Ha 229,9 miliardi di parametri totali, ma ne attiva solo 9,8 miliardi per token, distribuiti su 256 esperti specializzati. Per ottimizzare il routing, MiniMax ha usato un gating sigmoideo con bias specifici per esperto, riducendo la dipendenza da funzioni di perdita ausiliarie restrittive.

La scelta tecnica più rilevante è stata tenere l’attenzione full multi-head con Grouped Query Attention (GQA) in tutti i 62 layer. Nelle LLM, l’attenzione full ha costo quadratico: ogni token deve connettersi a ogni altro token. È come essere a un evento di networking e dover parlare con tutti mentre si ascoltano tutte le altre conversazioni. Il risultato è un contesto completo, ma il costo computazionale cresce col quadrato della lunghezza dell’input.

Il problema delle soluzioni sub-quadratiche

I metodi sub-quadratici (come Sliding Window Attention o attenzione lineare compressa) tagliano i costi analizzando solo finestre locali o riassunti del testo. Funzionano su documenti enormi, ma storcono la precisione: il modello perde il quadro generale e fa fatica con ragionamenti che richiedono connessioni lontane nel testo.

MiniMax ha testato queste scorciatoie durante lo sviluppo di M2, ma le ha scartate perché compromettevano il multi-hop reasoning, cioè la capacità di collegare indizi sparsi in un documento lungo. Gli esperimenti con architetture ibride (full attention alternata a Lightning Attention o SWA) hanno dato risultati chiari: su valutazioni oltre i 32K token, le varianti SWA calavano dal 90.0 al 72.0 nel task RULER 128K di estrazione di parole complesse. Le configurazioni sub-quadratiche avevano anche problemi di memoria durante l’addestramento, mancavano di supporto nativo per prefix caching e non si allineavano bene con i moduli Multi-Token Prediction usati per la decodifica speculativa.

MiniMax Sparse Attention: la soluzione per M3

Con M3, MiniMax cambia approccio. La nuova MiniMax Sparse Attention (MSA) non comprime keys e values in uno spazio latente (come fa DeepSeek con MLA). Invece, opera su un backbone GQA standard e usa una selezione a livello di blocchi su chiavi e valori reali, non compressi. Elie Bakouch di Prime Intellect ha spiegato che “la selezione è a blocchi, come in CSA, ma l’attenzione è fatta su KV reali, non in spazio compresso”. Questo risolve i problemi di perdita di precisione e di prefix caching emersi in M2.

I test preliminari indicano un’accelerazione di 9.7x nella fase di prefilling e 15.6x nella fase di decoding su sequenze da un milione di token, rispetto all’architettura full attention di M2. La differenza è significativa perché la generazione di una risposta (decoding) diventa più costosa man mano che la risposta si allunga: ogni parola successiva richiede di ricalcolare il contesto di tutto ciò che è stato detto prima. Con MSA, MiniMax punta a rendere economicamente sostenibile il deployment di agenti AI su contesti ultra-lunghi.

Articoli simili