AutoTTS riduce token del 69.5% automatizzando strategie LLM

Test-time scaling (TTS) migliora le prestazioni dei grandi modelli linguistici (LLM) concedendo loro cicli di calcolo extra durante l’inferenza. Finora, le strategie TTS sono state progettate a mano, basandosi sull’intuizione umana per definire le regole del ragionamento. Un team di ricercatori di Meta, Google e diverse università ha introdotto AutoTTS, un framework che automatizza la scoperta di strategie TTS ottimali.

L’approccio permette alle organizzazioni di ottimizzare dinamicamente l’allocazione del calcolo senza dover tarare manualmente euristiche. Nei test, AutoTTS ha ridotto il consumo di token fino al 69,5% senza perdere accuratezza.

Il collo di bottiglia manuale

Il TTS concede ai LLM calcolo extra quando generano risposte, permettendo di esplorare più percorsi di ragionamento o valutare passaggi intermedi. Il problema è decidere come allocare questo calcolo extra. Storicamente, i ricercatori hanno progettato queste strategie a mano, con regole fisse e soglie per decidere quando il modello deve ramificarsi, approfondire un percorso, potare un ramo poco promettente o fermarsi.

Le attuali strategie TTS possono essere mappate in uno spazio di controllo larghezza-profondità: la larghezza indica il numero di rami di ragionamento esplorati, la profondità quanto ciascuno si sviluppa. Self-consistency campiona un numero fisso di traiettorie e sceglie la risposta a maggioranza. Adaptive-consistency risparmia calcolo fermandosi presto quando raggiunge una soglia di confidenza. Parallel-probe pota i rami poco promettenti e approfondisce gli altri. Tutte sono create a mano: il vincolo che AutoTTS vuole rompere.

AutoTTS: scoperta automatica delle strategie

AutoTTS riformula l’ottimizzazione del TTS come un problema di ricerca algoritmica in un ambiente controllato. Il ruolo dell’ingegnere umano passa dalla progettazione delle regole alla costruzione dell’ambiente di scoperta: definisce i confini dello spazio di controllo, gli obiettivi di ottimizzazione (accuratezza vs costo) e i meccanismi di feedback. Un LLM esploratore (ad esempio Claude Code) progetta la strategia: propone iterativamente dei “controller”, politiche basate su codice che dettano come allocare il budget computazionale durante l’inferenza.

Per rendere la ricerca economicamente sostenibile, AutoTTS usa un “ambiente di replay offline”. Invece di invocare il modello base per generare nuovi token a ogni test, sfrutta migliaia di traiettorie di ragionamento pre-collezionate, complete di segnali intermedi. Nell’anello di scoperta, l’agente esploratore propone un controller e lo valuta su questi dati offline, osservando come alloca il calcolo nel tempo. Analizzando le tracce di esecuzione, l’agente diagnostica i fallimenti (ad esempio, potatura troppo aggressiva) e riscrive iterativamente il codice per migliorare il compromesso accuratezza-costo.

Il Confidence Momentum Controller

Un controller ottimale scoperto da AutoTTS, chiamato Confidence Momentum Controller, sfrutta meccanismi non ovvi:

Fermo basato sul trend: invece di fermarsi al superamento di una soglia di confidenza istantanea (che può essere fuorviante), il controller traccia una media mobile esponenziale della confidenza e si ferma solo se il livello complessivo è alto e il trend non sta calando.
Controllo accoppiato larghezza-profondità: se la confidenza dei rami attuali ristagna o regredisce, il controller lancia automaticamente nuovi rami, collegando le due decisioni in un ciclo di feedback chiuso.
Allocazione basata sull’allineamento: i rami che concordano con la risposta in testa ricevono raffiche di calcolo extra, concentrando il budget sulla verifica del consenso emergente.

Risultati sui benchmark

I test sono stati condotti sui modelli Qwen3 da 0,6B a 8B parametri e su una versione distillata da 8B di DeepSeek-R1. L’agente esploratore ha scoperto una strategia sul benchmark AIME24, poi testata su AIME25, HMMT25 e GPQA-Diamond. Il controller AutoTTS è stato confrontato con Self-Consistency a 64 percorsi (SC@64), Adaptive-Consistency, Parallel-Probe e Early-Stopping Self-Consistency.

In modalità bilanciata, AutoTTS ha ridotto il consumo totale di token del 69,5% rispetto a SC@64, mantenendo la stessa accuratezza media. Con un budget di inferenza più alto, ha superato tutti i baselines manuali in 5 casi su 8.