AutoTTS riduce token del 69.5% automatizzando strategie LLM

Test-time scaling (TTS) è una tecnica consolidata per migliorare le performance dei grandi modelli linguistici (LLM) nelle applicazioni reali: in fase di inferenza, al modello viene concesso tempo di calcolo extra per ragionare. Il problema è che finora le strategie TTS sono state progettate a mano, basandosi sull’intuizione umana per definire le regole di ragionamento.

Un team di ricercatori di Meta, Google e diverse università ha presentato AutoTTS, un framework che scopre automaticamente strategie TTS ottimali. Per le aziende significa ottimizzare dinamicamente l’allocazione del calcolo senza dover tarare manualmente euristiche. Nei test, AutoTTS ha ridotto il consumo di token fino al 69.5% mantenendo la stessa accuratezza.

Il bottleneck manuale del test-time scaling

Il TTS concede al modello cicli di calcolo extra durante la generazione delle risposte, permettendogli di esplorare più percorsi di ragionamento o valutare i passaggi intermedi. La sfida è decidere come allocare questa potenza extra. Storicamente, i ricercatori progettavano strategie manuali, basate su congetture e regole fisse.

Le attuali strategie TTS si possono collocare in uno spazio larghezza-profondità. Self-consistency (SC) campiona un numero fisso di traiettorie e sceglie la risposta con la maggioranza. Adaptive-consistency (ASC) si ferma prima quando raggiunge una soglia di confidenza. Parallel-probe pota i rami poco promettenti e approfondisce gli altri. Tutte e tre sono fatte a mano, e questo è il limite che AutoTTS vuole superare.

Automazione con AutoTTS

AutoTTS riformula il problema: invece di progettare strategie manualmente, lo tratta come una ricerca algoritmica in un ambiente controllato. Il ruolo del ricercatore diventa costruire l’ambiente di scoperta: definire i confini dello spazio di stati e azioni, gli obiettivi di ottimizzazione (accuratezza vs costo) e i meccanismi di feedback.

A progettare la strategia è un LLM esploratore, come Claude Code, che agisce come agente autonomo: propone iterativamente “controller” TTS, ovvero politiche codificate che indicano come un modello deve allocare il budget di calcolo durante l’inferenza. L’esploratore testa e affina questi controller basandosi sul feedback fino a trovare la politica ottimale.

Per rendere la ricerca economicamente sostenibile, AutoTTS usa un “ambiente di replay offline”: invece di invocare il modello base per generare nuovi token ogni volta che testa una strategia (costi proibitivi), usa migliaia di traiettorie di ragionamento pre-raccolte dal LLM base, complete di “segnali di sonda” (risposte intermedie che aiutano a valutare l’andamento).

Durante il ciclo di scoperta, l’esploratore propone un controller e lo valuta su questi dati offline. Osserva le tracce di esecuzione, che mostrano come il controller ha allocato il calcolo nel tempo. Analizzandole, può diagnosticare errori specifici (ad esempio, se ha potato rami troppo aggressivamente) e riscrivere il codice per migliorare il compromesso accuratezza-costo.

Il controller scoperto: Confidence Momentum

Uno dei controller ottimali scoperti da AutoTTS si chiama Confidence Momentum Controller e sfrutta meccanismi non ovvi:

Fermo basato sul trend: invece di fermarsi al raggiungimento di una soglia istantanea di confidenza (che può essere ingannevole per picchi temporanei), tiene traccia di una media mobile esponenziale della confidenza e si ferma solo se il livello è alto e il trend non è in calo.
Controllo accoppiato larghezza-profondità: anziché trattare separatamente l’apertura di nuovi rami e l’approfondimento di quelli esistenti, il controller li lega in un ciclo di feedback: se la confidenza dei rami attuali si blocca o cala, attiva automaticamente la creazione di nuovi rami.
Allineamento per profondità: invece di dare a tutti i rami attivi lo stesso budget, identifica quelli che concordano con la risposta principale e dà loro “esplosioni” prioritarie di calcolo extra, concentrando le risorse sulla verifica del consenso emergente.

Risultati: risparmio e accuratezza

Il team ha testato AutoTTS su modelli Qwen3 (da 0.6B a 8B parametri) e su una versione distillata 8B di DeepSeek-R1. L’esploratore ha scoperto una strategia usando il benchmark AIME24, poi testata su AIME25, HMMT25 e GPQA-Diamond. Il controller è stato confrontato con SC@64, ASC, Parallel-Probe e Early-Stopping Self-Consistency.

In modalità bilanciata, il controller AutoTTS ha ridotto il consumo totale di token di circa il 69.5% rispetto a SC@64, mantenendo la stessa accuratezza media sui quattro modelli Qwen. Con un budget di inferenza più alto, ha superato tutti i metodi manuali in cinque degli otto casi testati.