Rappresentazione astratta di reti neurali e ragionamento AI per AutoTTS

Un framework automatizzato per il ragionamento dei LLM taglia i consumi di token del 69,5%

Il test-time scaling (TTS) è un metodo collaudato per migliorare le performance dei modelli linguistici di grandi dimensioni (LLM) in applicazioni reali: concede cicli di calcolo extra al modello durante l’inferenza. Il problema è che finora le strategie TTS sono state progettate a mano, basandosi sull’intuizione umana per definire le regole del ragionamento.

Per superare questo collo di bottiglia, ricercatori di Meta, Google e diversi atenei hanno presentato AutoTTS, un framework che scopre automaticamente strategie TTS ottimali. L’approccio permette alle organizzazioni di ottimizzare l’allocazione dinamica del calcolo senza dover aggiustare manualmente euristiche. Nei test, AutoTTS ha gestito i budget di inferenza in modo efficiente, riducendo il consumo di token fino al 69,5% senza sacrificare l’accuratezza.

Il collo di bottiglia manuale nel test-time scaling

Il TTS migliora gli LLM concedendo loro potenza di calcolo extra quando generano risposte. Questo permette al modello di produrre più percorsi di ragionamento o di valutare i propri passaggi intermedi prima di arrivare a una risposta finale. La sfida principale è decidere come allocare al meglio questo calcolo aggiuntivo.

Storicamente, i ricercatori hanno progettato queste strategie manualmente, basandosi su congetture per costruire euristiche rigide. Gli ingegneri devono ipotizzare le regole e le soglie per stabilire quando un modello deve ramificarsi in nuovi percorsi, approfondirne uno esistente, potare un ramo poco promettente o smettere di ragionare. Poiché questo processo è vincolato dall’intuizione umana, un’enorme quantità di approcci possibili resta inesplorata, portando spesso a compromessi subottimali tra accuratezza e costi di calcolo.

Gli algoritmi TTS attuali possono essere mappati in uno spazio di controllo larghezza-profondità: la larghezza indica il numero di rami di ragionamento esplorati, la profondità quanto ogni ramo viene sviluppato. Self-consistency (SC) campiona un numero fisso di traiettorie e sceglie la risposta a maggioranza. Adaptive-consistency (ASC) risparmia calcolo fermandosi presto quando viene raggiunta una soglia di confidenza. Parallel-probe adotta un approccio più granulare, potando i rami poco promettenti e approfondendo gli altri. Tutti e tre sono progettati a mano: è questo il vincolo che AutoTTS vuole spezzare.

Automazione della scoperta di strategie con AutoTTS

AutoTTS riformula l’ottimizzazione del test-time scaling. Invece di trattare la progettazione della strategia come un compito umano, la considera un problema di ricerca algoritmica in un ambiente controllato. Il framework ridefinisce i ruoli sia dell’ingegnere umano sia del modello AI. L’ingegnere non progetta regole specifiche, ma costruisce l’ambiente di scoperta: definisce i confini, lo spazio di controllo di stati e azioni, gli obiettivi di ottimizzazione (accuratezza vs costo) e i meccanismi di feedback.

Un explorer LLM, come Claude Code, progetta la strategia. Questo esploratore agisce come un agente autonomo che propone iterativamente dei “controller” TTS. I controller sono policy o algoritmi definiti in codice che stabiliscono come il modello AI alloca il suo budget di calcolo durante l’inferenza. L’esploratore testa e perfeziona questi controller basandosi sul feedback, fino a scoprire una politica di allocazione ottimale.

Per rendere la ricerca computazionalmente accessibile, AutoTTS usa un “ambiente di replay offline”. Se l’esploratore dovesse invocare il modello di ragionamento base ogni volta che testa una nuova strategia, i costi sarebbero astronomici. Invece, si basa su migliaia di traiettorie di ragionamento pre-raccolte dal modello base, che includono “segnali di sonda” (risposte intermedie per valutare il progresso). Durante il ciclo di scoperta, l’esploratore propone un controller e lo valuta su questi dati offline, analizzando le tracce di esecuzione per diagnosticare i fallimenti specifici (ad esempio, se il controller ha potato i rami troppo aggressivamente in uno scenario). Poi riscrive iterativamente il codice per migliorare il compromesso accuratezza-costo.

All’interno del controller progettato dall’AI

Poiché l’esploratore non è vincolato dall’intuizione umana, può scoprire regole complesse e altamente coordinate che un ingegnere umano probabilmente non codificherebbe mai. Un controller scoperto da AutoTTS, chiamato Confidence Momentum Controller, sfrutta diversi meccanismi non ovvi per gestire il calcolo:

  • Fermo basato sul trend: le strategie manuali spesso fermano il modello quando raggiunge una certa soglia istantanea di confidenza. AutoTTS ha scoperto che la confidenza istantanea può essere ingannevole a causa di picchi temporanei. Il controller traccia una media mobile esponenziale (EMA) della confidenza e si ferma solo se il livello è alto e il trend non è in calo attivo.
  • Controllo accoppiato larghezza-profondità: gli algoritmi manuali trattano solitamente l’allargamento (nuovi rami) e l’approfondimento dei rami correnti come decisioni separate. AutoTTS ha scoperto un ciclo di feedback chiuso in cui le due azioni sono collegate: se la confidenza dei rami attuali ristagna o regredisce, il controller genera automaticamente nuovi rami.
  • Allocazione basata sull’allineamento: invece di dare a tutti i rami attivi lo stesso budget, il controller identifica dinamicamente quali rami concordano con la risposta leader e concede loro “raffiche” prioritarie di calcolo extra. Questo concentra il budget sul consenso emergente per verificare rapidamente se è corretto.

Risparmi e guadagni di accuratezza nei benchmark

Gli esperimenti principali sono stati condotti sui modelli Qwen3 (da 0,6B a 8B parametri) e su una versione distillata da 8B di DeepSeek-R1. L’esploratore AI ha scoperto una strategia usando il benchmark di ragionamento matematico AIME24, poi testata su AIME25, HMMT25 (matematica) e GPQA-Diamond (ragionamento generale di livello avanzato).

Il controller scoperto è stato confrontato con quattro algoritmi TTS manuali: Self-Consistency con 64 percorsi paralleli (SC@64), Adaptive-Consistency (ASC), Parallel-Probe e Early-Stopping Self-Consistency (ESC). In modalità bilanciata e attenta ai costi, il controller di AutoTTS ha ridotto il consumo totale di token di circa il 69,5% rispetto a SC@64, mantenendo la stessa accuratezza media sui quattro modelli Qwen. Quando il budget di inferenza è stato aumentato, AutoTTS ha superato l’accuratezza di tutte le baseline manuali in cinque degli otto casi test.

Articoli simili