Cosa significa "open weights" in MisoTTS?

I pesi del modello sono rilasciati pubblicamente con una licenza MIT modificata. Chiunque può scaricarli, esaminarli, modificarli e usarli per applicazioni proprie, senza dipendere da API cloud. Questo permette il deploy locale, mantenendo i dati audio sensibili all'interno dell'infrastruttura aziendale.

Come funziona la quantizzazione vettoriale residua (RVQ) in MisoTTS?

Invece di un singolo indice, ogni token audio è rappresentato da un vettore di 32 indici, ciascuno su un codebook da 2048 voci. Il vocabolario raggiungibile è 2048^32 (circa 10^105), senza aumentare i parametri del modello. Ogni codebook aggiunge una rifinitura al segnale, e la somma dei vettori recupera il suono.

Quali sono i limiti principali di MisoTTS al rilascio?

Il modello è half-duplex: non supporta ancora il turn-taking nelle conversazioni. Richiede una GPU CUDA potente per l'inferenza (le CPU non bastano). L'API cloud non è ancora attiva, e le dichiarazioni di latenza (110 ms) e qualità devono essere verificate da test indipendenti. Inoltre, l'implementazione locale è complessa per utenti non esperti.

Illustrazione di un modello di sintesi vocale MisoTTS con tecnologia RVQ

Intelligenza Artificiale

Miso Labs rilascia MisoTTS: un modello di sintesi vocale emotivo con pesi aperti

DiFabrizio Martini 04/06/2026

Miso Labs ha rilasciato MisoTTS, un modello di text-to-speech (TTS) con pesi aperti da 8 miliardi di parametri. Il modello genera parlato espressivo a partire da testo e da un contesto audio facoltativo, utilizzando residual vector quantization (RVQ) per ampliare la gamma sonora senza aumentare i parametri.

MisoTTS è un trasformatore RVQ testo-dialogo ispirato all’architettura Sesame CSM. Combina un backbone in stile Llama 3.2 con un decoder audio più piccolo, generando codici audio Mimi da testo e, opzionalmente, da audio pregresso. Questa seconda modalità permette al modello di rispondere al tono del parlante, evitando l’effetto “uncanny valley”.

Il vocabolario testuale è di 128.256 token, con 32 codebook audio. La lunghezza massima della sequenza è di 2.048 token. L’inferenza predefinita avviene in torch.bfloat16 e la latenza dichiarata è di 110 ms (contro i 700 ms di ElevenLabs e i 300 ms di Sesame).

Il problema del vocabolario nei TTS tradizionali è noto: il parlato umano varia in tono, ritmo, enfasi, emozione e accento. Espandere il vocabolario audio richiederebbe più parametri. MisoTTS risolve con RVQ: invece di un singolo indice token, emette un vettore di indici (32 codebook da 2048 voci). Il vocabolario raggiungibile è 2048³², circa 10¹⁰⁵ token, senza aumentare i parametri del modello.

L’architettura a due trasformatori prevede un backbone da 7,7 miliardi di parametri (autoregressivo nel tempo) e un decoder da 300 milioni di parametri (autoregressivo in profondità). Il decoder predice gli indici rimanenti dei codebook, uno per posizione, riutilizzando gli stessi 300 milioni di parametri per ogni passo.

I punti di forza includono i pesi aperti dal day one (licenza MIT modificata), la capacità di condizionarsi su contesto audio (non solo testo), la possibilità di deploy locale per dati sensibili, e la documentazione pubblica dell’architettura. Le sfide sono il funzionamento half-duplex (nessun turn-taking), la necessità di una GPU CUDA potente, l’API ancora non disponibile e la necessità di test indipendenti su latenza e qualità.