AutoTTS riduce token del 69,5% senza perdere accuratezza

I modelli linguistici di grandi dimensioni (LLM) migliorano le loro risposte se durante l’inferenza ricevono cicli di calcolo extra — si chiama test-time scaling (TTS). Il problema è che le strategie per allocare queste risorse sono state finora progettate a mano, con regole fisse basate sull’intuizione umana. Un gruppo di ricercatori di Meta, Google e alcune università ha presentato AutoTTS, un framework che automatizza la scoperta delle strategie ottimali.

Nei test, AutoTTS ha ridotto il consumo di token fino al 69,5% rispetto a Self-Consistency con 64 percorsi paralleli (SC@64), mantenendo la stessa accuratezza media su modelli Qwen3 da 0,6 a 8 miliardi di parametri.

Il collo di bottiglia manuale del test-time scaling

Il test-time scaling funziona dando al modello risorse extra durante la generazione della risposta. Può generare più percorsi di ragionamento o valutare i passaggi intermedi prima di decidere. Il problema è decidere come allocare queste risorse: quando il modello deve ramificarsi in nuove direzioni, quando approfondire un percorso esistente, quando potare un ramo poco promettente o quando smettere di ragionare.

Oggi le strategie TTS mappano uno spazio di controllo larghezza-profondità. Self-Consistency campiona un numero fisso di traiettorie e sceglie la risposta a maggioranza. Adaptive-Consistency risparmia calcoli fermandosi presto quando raggiunge una soglia di confidenza. Parallel-Probe pota i rami poco promettenti e approfondisce gli altri. Tutte sono progettate manualmente.

Questa limitazione lascia inesplorata gran parte dello spazio delle possibili allocazioni di risorse, portando a compromessi subottimali tra accuratezza e costo computazionale.

Come funziona AutoTTS

AutoTTS ridefinisce il problema: invece di chiedere a un ingegnere di progettare regole, lo trasforma in un problema di ricerca algoritmica. Il ricercatore definisce i confini dello spazio di controllo (stati e azioni possibili), gli obiettivi di ottimizzazione (accuratezza vs costo) e i meccanismi di feedback. Poi un LLM esploratore — come Claude Code — propone iterativamente dei “controller”: policy codificate che decidono come allocare il budget computazionale durante l’inferenza.

Per contenere i costi di questa ricerca, AutoTTS usa un ambiente di replay offline. Invece di chiamare il modello base ogni volta che testa una nuova strategia, l’esploratore lavora su migliaia di traiettorie già raccolte dal LLM di base, complete di segnali intermedi (probe signals). L’esploratore propone un controller, lo valuta su questi dati e, analizzando le tracce di esecuzione, diagnostica i fallimenti (per esempio, se un controller pota troppo aggressivamente). Poi riscrive il codice del controller per migliorare il rapporto accuratezza-costo.

Il controller scoperto: Confidence Momentum Controller

Una delle strategie trovate da AutoTTS, chiamata Confidence Momentum Controller, usa meccanismi che un progettista umano difficilmente avrebbe immaginato:

Arresto basato sul trend: invece di fermarsi quando la confidenza supera una soglia istantanea (che può essere fuorviante a causa di picchi temporanei), il controller traccia una media mobile esponenziale della confidenza e si ferma solo se il livello complessivo è alto e non in calo.
Controllo accoppiato larghezza-profondità: se la confidenza dei rami attuali ristagna o regredisce, il controller genera automaticamente nuovi rami. Larghezza e profondità non sono decisioni separate ma collegate in un ciclo di feedback.
Allineamento della profondità: invece di dare budget uguale a tutti i rami, il controller identifica quelli che concordano con la risposta principale e assegna loro “raffiche” di calcolo extra, concentrando le risorse sul consenso emergente.

Risultati sui benchmark

I test sono stati condotti sui modelli Qwen3 (da 0,6 a 8 miliardi di parametri) e su una versione distillata a 8 miliardi di DeepSeek-R1. L’esploratore ha scoperto la strategia iniziale usando il benchmark AIME24, poi la strategia è stata testata su AIME25, HMMT25 e GPQA-Diamond (ragionamento generale di livello universitario).

Confrontato con SC@64, ASC, Parallel-Probe e Early-Stopping SC, il controller AutoTTS in modalità bilanciata ha ridotto i token del 69,5% mantenendo l’accuratezza. Con budget computazionale più alto, ha superato in accuratezza tutte le strategie manuali in 5 degli 8 casi testati.

AutoTTS: il nuovo framework che riduce i token del 69,5% senza perdere accuratezza nei modelli di ragionamento

Il collo di bottiglia manuale del test-time scaling

Come funziona AutoTTS

Il controller scoperto: Confidence Momentum Controller

Risultati sui benchmark

Nuova Siri: cosa cambia (davvero) nel 2026 secondo Bloomberg

Discriminazione e pericolo: la piattaforma sotto accusa per i minorenni

Un nuovo metodo di estrazione del litio promette di tagliare costi ed emissioni

AI e lavoro: cosa dicono i dati (e cosa no) sul panico dei posti di lavoro

Xiaomi Smart Band 10 Pro è ufficiale: specifiche e prezzo della nuova smartband

Oppo Bubble: uno schermo rotondo per scattare selfie con la fotocamera posteriore

Il collo di bottiglia manuale del test-time scaling

Come funziona AutoTTS

Il controller scoperto: Confidence Momentum Controller

Risultati sui benchmark

Articoli simili