AutoTTS taglia i token del 69,5% automatizzando le strategie di AI

Il test-time scaling (TTS) è un metodo consolidato per migliorare le performance dei modelli linguistici di grandi dimensioni (LLM) nelle applicazioni reali, concedendo loro cicli di calcolo extra durante l’inferenza. Ma finora le strategie TTS sono state progettate a mano, basandosi sull’intuizione umana per definire le regole di ragionamento del modello.

Per rompere questo collo di bottiglia, ricercatori di Meta, Google e diverse università hanno introdotto AutoTTS, un framework che scopre automaticamente strategie TTS ottimali. L’approccio permette alle organizzazioni di ottimizzare dinamicamente l’allocazione del calcolo senza dover regolare manualmente euristiche. Nei test, AutoTTS ha gestito i budget di inferenza in modo efficiente, riducendo il consumo di token fino al 69,5% senza perdere accuratezza.

Il collo di bottiglia della progettazione manuale

Il TTS migliora gli LLM concedendo loro calcolo extra durante la generazione delle risposte. Questo permette al modello di generare molteplici percorsi di ragionamento o valutare i passaggi intermedi prima di arrivare alla risposta finale. La sfida principale è decidere come allocare in modo ottimale questo calcolo extra.

Storicamente, i ricercatori hanno progettato queste strategie manualmente, basandosi su tentativi per costruire euristiche rigide. Gli ingegneri devono ipotizzare regole e soglie per quando il modello dovrebbe diramarsi in nuovi percorsi, approfondirne uno esistente, potare un ramo poco promettente o fermarsi. Poiché questo processo è vincolato dall’intuizione umana, una vasta gamma di approcci possibili rimane inesplorata, portando spesso a compromessi subottimali tra accuratezza e costi computazionali.

Gli attuali algoritmi TTS si possono mappare in uno spazio di controllo larghezza-profondità: la larghezza è il numero di rami di ragionamento esplorati, la profondità quanto ogni ramo si sviluppa. Metodi come Self-Consistency (SC), Adaptive-Consistency (ASC) e Parallel-Probe sono tutti artigianali. È questo il vincolo che AutoTTS vuole rompere.

Automazione della scoperta con AutoTTS

AutoTTS riformula l’ottimizzazione del TTS come un problema di ricerca algoritmica in un ambiente controllato. Il ruolo dell’ingegnere umano diventa quello di costruire l’ambiente di scoperta: definire i confini dello spazio di controllo, gli obiettivi di ottimizzazione (accuratezza vs costo) e i meccanismi di feedback.

Un esploratore LLM (ad esempio Claude Code) progetta la strategia. Questo esploratore agisce come agente autonomo che propone iterativamente “controller” TTS: politiche basate su codice che dettano come allocare il budget computazionale durante l’inferenza. L’esploratore testa e raffina questi controller in base al feedback fino a scoprire una politica ottimale.

Per rendere la ricerca computazionalmente abbordabile, AutoTTS usa un “ambiente di replay offline”. Invece di invocare il modello base per generare nuovi token a ogni test, si basa su migliaia di traiettorie di ragionamento pre-collezionate dal LLM base, complete di segnali intermedi che aiutano il controller a valutare i progressi. L’esploratore propone un controller e lo valuta su questi dati offline, osservando le tracce di esecuzione e diagnosticando i fallimenti, per poi riscrivere il codice iterativamente.

Il controller scoperto dall’AI: Confidence Momentum Controller

Poiché l’esploratore non è vincolato dall’intuizione umana, può scoprire regole complesse che un ingegnere umano probabilmente non scriverebbe mai. Un controller ottimale scoperto, chiamato Confidence Momentum Controller, sfrutta diversi meccanismi non ovvi:

Fermo basato sul trend: invece di fermarsi al raggiungimento di una soglia di confidenza istantanea (soggetta a picchi temporanei), il controller traccia una media mobile esponenziale della confidenza e si ferma solo se il livello è alto e il trend non è in calo.
Controllo accoppiato larghezza-profondità: la creazione di nuovi rami e l’approfondimento di quelli esistenti sono collegati in un ciclo di feedback chiuso. Se la confidenza dei rami attuali ristagna o regredisce, il controller attiva automaticamente la generazione di nuovi rami.
Allocazione della profondità basata sull’allineamento: invece di dare a tutti i rami attivi lo stesso budget, il controller identifica dinamicamente quali rami concordano con la risposta principale in quel momento e dà loro burst di calcolo extra, concentrando le risorse sul consenso emergente.

Risultati sui benchmark

I ricercatori hanno testato il sistema sui modelli Qwen3 da 0,6B a 8B parametri e su una versione distillata da 8B di DeepSeek-R1. L’esploratore ha scoperto una strategia usando il benchmark di ragionamento matematico AIME24, poi testata su AIME25, HMMT25 e GPQA-Diamond, confrontandola con quattro algoritmi manuali: SC@64, ASC, Parallel-Probe e Early-Stopping Self-Consistency (ESC).

In modalità bilanciata e attenta ai costi, il controller scoperto ha ridotto il consumo totale di token di circa il 69,5% rispetto a SC@64, mantenendo la stessa accuratezza media sui quattro modelli Qwen. Con un budget di inferenza più alto, AutoTTS ha superato l’accuratezza massima di tutti i metodi manuali in cinque degli otto casi testati.