AutoTTS: l’AI che ottimizza sé stessa taglia i token del 69.5%
Test-time scaling (TTS) è una tecnica collaudata per migliorare le prestazioni dei modelli linguistici di grandi dimensioni nelle applicazioni reali: garantisce cicli di calcolo extra durante l’inferenza. Il problema è che fino a oggi le strategie TTS erano progettate a mano, basate sull’intuizione umana per definire le regole di ragionamento del modello.
Per superare questo limite, ricercatori di Meta, Google e diverse università hanno presentato AutoTTS, un framework che scopre automaticamente strategie TTS ottimali. L’approccio permette alle organizzazioni enterprise di ottimizzare dinamicamente l’allocazione del calcolo senza dover regolare euristiche manualmente. Implementando le strategie trovate da AutoTTS, le aziende possono ridurre direttamente il consumo di token e i costi operativi per il deployment di modelli di ragionamento avanzati in produzione. Nei test, AutoTTS ha gestito i budget di inferenza in modo efficiente, tagliando il consumo di token fino al 69.5% senza sacrificare l’accuratezza.
Il collo di bottiglia manuale del test-time scaling
Il test-time scaling funziona concedendo al modello calcolo extra mentre genera risposte. Questo permette di generare più percorsi di ragionamento o valutare i passaggi intermedi prima di arrivare a una risposta finale. La sfida principale è decidere come allocare questo calcolo extra in modo ottimale.
Storicamente, i ricercatori hanno progettato queste strategie a mano, basandosi su tentativi per costruire euristiche rigide. Gli ingegneri devono ipotizzare le regole e le soglie per decidere quando il modello dovrebbe ramificarsi in nuovi percorsi di ragionamento, approfondire un percorso esistente, potare rami poco promettenti o fermarsi del tutto. Poiché questo processo di ottimizzazione manuale è vincolato dall’intuizione umana, una vasta gamma di approcci possibili rimane inesplorata. Il risultato è spesso un compromesso subottimale tra accuratezza del modello e costi di calcolo.
Gli attuali algoritmi TTS possono essere mappati in uno spazio di controllo larghezza/profondità — per “larghezza” si intende il numero di rami di ragionamento esplorati, per “profondità” quanto ciascuno si sviluppa. Self-consistency (SC) campiona un numero fisso di traiettorie e sceglie la risposta a maggioranza. Adaptive-consistency (ASC) risparmia calcolo fermandosi presto quando viene raggiunta una soglia di confidenza. Parallel-probe adotta un approccio più granulare, potando rami poco promettenti mentre approfondisce gli altri. Tutti e tre sono fatti a mano — ed è questo il vincolo che AutoTTS è progettato per rompere.
Anche metodi più avanzati che usano strutture più ricche come alberi di ricerca o verificatori esterni condividono la stessa caratteristica: sono meticolosamente progettati a mano. Questo approccio manuale limita la portata della scoperta di strategie, lasciando intatta una parte enorme dello spazio potenziale di allocazione delle risorse.
Automatizzare la scoperta di strategie con AutoTTS
AutoTTS riformula il modo in cui viene ottimizzato il test-time scaling. Invece di trattare la progettazione delle strategie come un compito umano, AutoTTS la affronta come un problema di ricerca algoritmica all’interno di un ambiente controllato. Il framework ridefinisce i ruoli sia dell’ingegnere umano che del modello AI.
Invece di progettare a mano regole specifiche su quando il LLM dovrebbe ramificarsi, potare o fermarsi, il compito dell’ingegnere diventa quello di costruire l’ambiente di scoperta. L’umano definisce i confini: lo spazio di controllo di stati e azioni, gli obiettivi di ottimizzazione che bilanciano accuratezza e costo, e i meccanismi di feedback specifici.
Un “esploratore” LLM, come Claude Code, progetta la strategia. Questo esploratore agisce come un agente autonomo che propone iterativamente “controller” TTS. Questi controller sono politiche o algoritmi definiti in codice che dettano come un modello AI alloca il suo budget computazionale durante l’inferenza. L’esploratore testa e ottimizza questi controller in base al feedback fino a trovare una politica di allocazione ottimale delle risorse.
Per rendere questa ricerca automatizzata economicamente accessibile, AutoTTS si basa su un “ambiente di replay offline”. Se l’esploratore LLM dovesse invocare un modello di ragionamento base per generare nuovi token ogni volta che testa una nuova strategia, i costi di calcolo sarebbero astronomici. Invece, si basa su migliaia di traiettorie di ragionamento pre-raccolte dal LLM base. Queste traiettorie includono “segnali di sonda”, risposte intermedie che aiutano il controller a valutare i progressi attraverso diversi rami di ragionamento.
Durante il ciclo di scoperta, l’agente esploratore propone un controller e lo valuta su questi dati offline. L’agente osserva le tracce di esecuzione del controller proposto, che mostrano come ha allocato il calcolo nel tempo. Analizzando queste tracce, l’agente può diagnosticare specifici modi di fallimento, ad esempio notare se un controller ha potato i rami troppo aggressivamente in uno scenario specifico. Questo offre un vantaggio rispetto a vedere solo un risultato finale. L’agente poi riscrive iterativamente il suo codice per migliorare il compromesso accuratezza-costo.
All’interno del controller progettato dall’AI
Poiché l’agente esploratore non è vincolato dall’intuizione umana, può scoprire regole altamente coordinate e complesse che un ingegnere umano probabilmente non codificherebbe mai a mano. Un controller ottimale scoperto da AutoTTS, chiamato Confidence Momentum Controller, sfrutta diversi meccanismi non ovvi per gestire il calcolo:
- Arresto basato sul trend: Le strategie fatte a mano spesso istruiscono il modello a fermarsi quando raggiunge una certa soglia di confidenza istantanea. L’agente AutoTTS ha scoperto che la confidenza istantanea può essere ingannevole a causa di picchi temporanei. Invece, il controller traccia una media mobile esponenziale (EMA) della confidenza e si ferma solo se il livello di confidenza è alto e il trend non è in calo attivo.
- Controllo accoppiato larghezza-profondità: Gli algoritmi progettati manualmente trattano solitamente l'”allargamento” di nuovi percorsi di ragionamento e l'”approfondimento” di quelli esistenti come decisioni separate. AutoTTS ha scoperto un ciclo di feedback chiuso in cui le due azioni sono collegate. Se la confidenza dei rami attuali si blocca o regredisce, il controller attiva automaticamente la generazione di nuovi rami.
- Allocazione di profondità basata sull’allineamento: Invece di dare a tutti i rami di ragionamento attivi un budget di calcolo uguale, il controller identifica dinamicamente quali rami concordano con la risposta principale corrente. Quindi dà a quei rami “esplosioni” prioritarie di calcolo extra. Questo concentra il budget computazionale sul consenso emergente per verificare rapidamente se è corretto.
Risparmio sui costi e guadagni di accuratezza nei benchmark reali
Per testare se un’AI potesse scoprire autonomamente una strategia di test-time scaling migliore, i ricercatori hanno allestito un rigoroso quadro di valutazione. Gli esperimenti principali sono stati condotti sui modelli Qwen3, da 0.6B a 8B parametri. I ricercatori hanno anche testato la capacità del sistema di generalizzare su una versione distillata da 8B del modello DeepSeek-R1.
All’agente esploratore AI è stato inizialmente chiesto di scoprire una strategia ottimale usando il benchmark di ragionamento matematico AIME24. La strategia scoperta è stata poi testata su due benchmark matematici separati, AIME25 e HMMT25, oltre al benchmark di ragionamento generale di livello avanzato GPQA-Diamond.
Il controller scoperto da AutoTTS è stato confrontato con quattro algoritmi di test-time scaling progettati manualmente nel settore: Self-Consistency con 64 percorsi di ragionamento paralleli (SC@64), Adaptive-Consistency (ASC), Parallel-Probe e Early-Stopping Self-Consistency (ESC). ESC è un approccio ibrido che genera traiettorie in parallelo e si ferma presto quando una risposta sembra stabile.
In modalità bilanciata e attenta ai costi, il controller scoperto da AutoTTS ha ridotto il consumo totale di token di circa il 69.5% rispetto a SC@64, mantenendo la stessa accuratezza media sui quattro modelli Qwen. Quando il budget di inferenza è stato aumentato, AutoTTS ha spinto l’accuratezza massima oltre tutte le linee di base progettate a mano in cinque degli otto casi testati.
