AutoTTS riduce consumo token del 69,5% nelle LLM

Il test-time scaling (TTS) è una tecnica collaudata per migliorare le performance dei modelli linguistici di grandi dimensioni (LLM) concedendo cicli di calcolo aggiuntivi durante l’inferenza. Ma finora le strategie TTS sono state progettate a mano, affidandosi all’intuizione umana per definire le regole del ragionamento del modello.

Per superare questo collo di bottiglia, ricercatori di Meta, Google e diverse università hanno introdotto AutoTTS, un framework che scopre automaticamente strategie TTS ottimali. Invece di ottimizzare manualmente le euristiche, le organizzazioni possono delegare a un agente AI la ricerca della politica di allocazione delle risorse più efficiente.

Nei test sperimentali, AutoTTS ha gestito i budget di inferenza in modo efficiente, riducendo il consumo di token fino al 69,5% senza sacrificare l’accuratezza. Il sistema è stato testato su modelli Qwen3 (da 0,6B a 8B parametri) e su una versione distillata 8B di DeepSeek-R1, utilizzando il benchmark di ragionamento matematico AIME24 come scoperta iniziale, poi verificato su AIME25, HMMT25 e GPQA-Diamond.

Il problema della progettazione manuale

Il TTS migliora gli LLM concedendo calcolo extra durante la generazione delle risposte: il modello può esplorare più percorsi di ragionamento o valutare i passi intermedi. La sfida è decidere come allocare questa potenza di calcolo. Finora, gli ingegneri hanno progettato manualmente regole e soglie per decidere quando il modello deve ramificarsi, approfondire un percorso, potare un ramo poco promettente o fermarsi.

Le attuali strategie TTS (self-consistency, adaptive-consistency, parallel-probe) sono tutte realizzate a mano. AutoTTS rompe questo vincolo: trasforma la progettazione in un problema di ricerca algoritmica in un ambiente controllato.

L’ingegnere non scrive più le regole, ma definisce i confini: lo spazio degli stati e delle azioni, gli obiettivi di ottimizzazione (accuratezza vs. costo) e i meccanismi di feedback. Un "explorer LLM" (come Claude Code) propone iterativamente "controller" — policy scritte in codice che dettano l’allocazione del budget computazionale durante l’inferenza.

Per rendere la ricerca economicamente sostenibile, AutoTTS usa un "offline replay environment": l’explorer non invoca il modello base per ogni test, ma sfrutta migliaia di traiettorie di ragionamento pre-raccolte, complete di segnali intermedi (probe signals). L’analisi delle tracce di esecuzione permette di diagnosticare fallimenti specifici (es. rami potati troppo aggressivamente) e riscrivere il codice del controller per migliorare il trade-off accuratezza-costo.

Un controller sorprendente

Il "Confidence Momentum Controller" scoperto da AutoTTS contiene meccanismi non ovvi: arresto basato sul trend (media mobile esponenziale della fiducia piuttosto che soglie istantanee), controllo accoppiato larghezza-profondità (se la fiducia ristagna, genera automaticamente nuovi rami), e allocazione della profondità basata sull’allineamento (i rami che concordano con la risposta leader ricevono burst di calcolo extra per verificare rapidamente la correttezza).

In modalità bilanciata, il controller ha ridotto il consumo totale di token del 69,5% rispetto alla self-consistency con 64 percorsi (SC@64), mantenendo la stessa accuratezza media sui quattro modelli Qwen. Con budget di inferenza più alto, AutoTTS ha superato tutti i baseline manuali in 5 degli 8 casi testati.