Illustrazione di un modello di sintesi vocale MisoTTS con tecnologia RVQ

Miso Labs rilascia MisoTTS: un modello di sintesi vocale emotivo con pesi aperti

Miso Labs ha rilasciato MisoTTS, un modello di text-to-speech (TTS) con pesi aperti da 8 miliardi di parametri. Il modello genera parlato espressivo a partire da testo e da un contesto audio facoltativo, utilizzando residual vector quantization (RVQ) per ampliare la gamma sonora senza aumentare i parametri.

MisoTTS è un trasformatore RVQ testo-dialogo ispirato all’architettura Sesame CSM. Combina un backbone in stile Llama 3.2 con un decoder audio più piccolo, generando codici audio Mimi da testo e, opzionalmente, da audio pregresso. Questa seconda modalità permette al modello di rispondere al tono del parlante, evitando l’effetto “uncanny valley”.

Il vocabolario testuale è di 128.256 token, con 32 codebook audio. La lunghezza massima della sequenza è di 2.048 token. L’inferenza predefinita avviene in torch.bfloat16 e la latenza dichiarata è di 110 ms (contro i 700 ms di ElevenLabs e i 300 ms di Sesame).

Il problema del vocabolario nei TTS tradizionali è noto: il parlato umano varia in tono, ritmo, enfasi, emozione e accento. Espandere il vocabolario audio richiederebbe più parametri. MisoTTS risolve con RVQ: invece di un singolo indice token, emette un vettore di indici (32 codebook da 2048 voci). Il vocabolario raggiungibile è 204832, circa 10105 token, senza aumentare i parametri del modello.

L’architettura a due trasformatori prevede un backbone da 7,7 miliardi di parametri (autoregressivo nel tempo) e un decoder da 300 milioni di parametri (autoregressivo in profondità). Il decoder predice gli indici rimanenti dei codebook, uno per posizione, riutilizzando gli stessi 300 milioni di parametri per ogni passo.

I punti di forza includono i pesi aperti dal day one (licenza MIT modificata), la capacità di condizionarsi su contesto audio (non solo testo), la possibilità di deploy locale per dati sensibili, e la documentazione pubblica dell’architettura. Le sfide sono il funzionamento half-duplex (nessun turn-taking), la necessità di una GPU CUDA potente, l’API ancora non disponibile e la necessità di test indipendenti su latenza e qualità.

Articoli simili