server rack con luci blu per articolo AutoTTS LLM token saving

AutoTTS: il framework che automatizza le strategie di ragionamento dei LLM tagliando i token del 69,5%

Il test-time scaling (TTS) è un metodo collaudato per migliorare le prestazioni dei grandi modelli linguistici: dà loro cicli di calcolo extra durante l’inferenza. Il problema è che finora le strategie TTS sono state progettate a mano, affidandosi all’intuizione umana. Un team di ricercatori di Meta, Google e diverse università ha presentato AutoTTS, un framework che automatizza la scoperta di strategie TTS ottimali.

L’approccio permette alle organizzazioni di ottimizzare dinamicamente l’allocazione del calcolo senza regolare manualmente euristiche. Nei test, AutoTTS ha ridotto il consumo di token fino al 69,5% mantenendo la stessa accuratezza media su quattro modelli Qwen.

Il collo di bottiglia manuale nel test-time scaling

Il TTS migliora i LLM concedendo loro calcolo extra durante la generazione delle risposte. Questo permette al modello di generare percorsi di ragionamento multipli o valutare i passaggi intermedi. La sfida è decidere come allocare questo calcolo extra in modo ottimale.

Storicamente, i ricercatori progettavano queste strategie a mano, basandosi su congetture per costruire euristiche rigide. Gli ingegneri dovevano ipotizzare regole e soglie per quando il modello dovesse ramificarsi, approfondire un percorso, potare un ramo poco promettente o smettere di ragionare. Questo processo manuale lascia inesplorata una vasta gamma di approcci possibili, portando spesso a compromessi subottimali tra accuratezza e costi di calcolo.

Gli algoritmi TTS attuali possono essere mappati in uno spazio di controllo larghezza-profondità: la larghezza indica il numero di rami di ragionamento esplorati, la profondità quanto si sviluppa ciascuno. Self-consistency (SC) campiona un numero fisso di traiettorie e vota la risposta a maggioranza. Adaptive-consistency (ASC) risparmia calcolo fermandosi presto al raggiungimento di una soglia di confidenza. Parallel-probe adotta un approccio più granulare, potando rami poco promettenti e approfondendo gli altri. Tutti e tre sono fatti a mano: è il vincolo che AutoTTS vuole rompere.

Automazione della scoperta di strategie con AutoTTS

AutoTTS ridefinisce l’ottimizzazione del test-time scaling come un problema di ricerca algoritmica in un ambiente controllato. Il ruolo dell’ingegnere umano cambia: non progetta regole specifiche, ma costruisce l’ambiente di scoperta, definendo confini, spazio degli stati e azioni, obiettivi di ottimizzazione (accuratezza vs. costo) e meccanismi di feedback.

Un esploratore LLM (ad esempio Claude Code) progetta la strategia. Questo agente autonomo propone iterativamente “controller” TTS: politiche o algoritmi sotto forma di codice che dettano come allocare il budget di calcolo durante l’inferenza. L’agente testa e perfeziona questi controller in base al feedback finché non scopre una politica di allocazione ottimale.

Per rendere la ricerca computazionalmente accessibile, AutoTTS usa un “ambiente di replay offline”. Invece di invocare il modello di base per generare nuovi token a ogni test, l’esploratore si basa su migliaia di traiettorie di ragionamento pre-raccolte, che includono “segnali sonda” (risposte intermedie). Durante il ciclo di scoperta, l’agente propone un controller e lo valuta su questi dati offline. Analizzando le tracce di esecuzione, può diagnosticare specifici fallimenti (ad esempio, se ha potato rami in modo troppo aggressivo) e riscrivere il codice per migliorare il compromesso accuratezza-costo.

All’interno del controller progettato dall’IA

Un controller ottimale scoperto da AutoTTS, chiamato Confidence Momentum Controller, sfrutta meccanismi non ovvi:

  • Arresto basato sul trend: invece di fermarsi al raggiungimento di una soglia di confidenza istantanea (che può ingannare con picchi temporanei), il controller tiene traccia di una media mobile esponenziale (EMA) della confidenza e si ferma solo se il trend non è in calo.
  • Controllo accoppiato larghezza-profondità: mentre gli algoritmi manuali trattano separatamente l’allargamento e l’approfondimento dei rami, AutoTTS ha scoperto un anello di feedback chiuso. Se la confidenza dei rami attuali ristagna o regredisce, il controller genera automaticamente nuovi rami.
  • Allocazione della profondità basata sull’allineamento: invece di dare a tutti i rami attivi un budget di calcolo uguale, il controller identifica quali rami concordano con la risposta principale e dà loro “raffiche” prioritarie di calcolo extra. Questo concentra il budget computazionale sul consenso emergente per verificarlo velocemente.

Risparmi e guadagni di accuratezza nei benchmark reali

I ricercatori hanno testato AutoTTS su modelli Qwen3 da 0,6B a 8B parametri e su una versione distillata 8B di DeepSeek-R1. L’agente esploratore ha scoperto una strategia usando il benchmark AIME24, poi testata su AIME25, HMMT25 e GPQA-Diamond. Il controller AutoTTS è stato confrontato con quattro algoritmi manuali: SC@64, ASC, Parallel-Probe e Early-Stopping Self-Consistency (ESC).

In modalità bilanciata (cost-conscious), AutoTTS ha ridotto il consumo totale di token del 69,5% rispetto a SC@64, mantenendo la stessa accuratezza media sui quattro modelli Qwen. Aumentando il budget di inferenza, AutoTTS ha superato in accuratezza tutti i baselines manuali in cinque degli otto casi testati.

Articoli simili