Mellum2 modello AI JetBrains architettura MoE

JetBrains rilascia Mellum2: modello AI da 12B parametri, specializzato per coding

JetBrains ha rilasciato Mellum2, un modello linguistico open-source con licenza Apache 2.0. Rispetto alla prima versione (un modello denso da 4B focalizzato sul completamento), Mellum2 è un modello generalista specializzato in software engineering: copre generazione e modifica di codice, debugging, ragionamento multi-step, tool use, chiamate a funzione e assistenza conversazionale.

L’azienda lo definisce un “focal model” — un componente veloce all’interno di sistemi AI più grandi, non un sostituto dei modelli frontier. Non è multimodale: gestisce solo testo e codice.

Architettura e specifiche

Mellum2 usa un’architettura Mixture-of-Experts (MoE) con 12B parametri totali e 2.5B attivi per token. Ha 64 esperti e ne attiva 8 per token, eguagliando il costo computazionale di un modello denso da 2.5B. Dettagli architetturali:

  • Layer: 28
  • Hidden size: 2304
  • Attenzione: Grouped-Query Attention con 32 query head e 4 KV head; Sliding Window Attention applicato a 3 layer su 4, con finestra di 1024 token; attenzione completa sul layer rimanente
  • Contesto: 131.072 token
  • Multi-Token Prediction head: usato come obiettivo ausiliario di pre-training e come modello draft per speculative decoding
  • Precisione: bfloat16, vocabolario di 98.304 token

Il pre-training ha coperto circa 10.6 trilioni di token in tre fasi, con una miscela di dati che è passata da contenuti web generali a codice e matematica. È stato usato l’ottimizzatore Muon con precisione mista FP8. Dopo il pre-training, il contesto è stato esteso a 128K token con il metodo YaRN.

La famiglia di modelli

JetBrains ha rilasciato sei checkpoint:

  • Base-Pretrain: checkpoint base prima dell’estensione del contesto
  • Base: modello base finale dopo estensione
  • Instruct-SFT: istruzione fine-tuned con supervised learning
  • Thinking-SFT: thinking checkpoint supervised
  • Instruct: istruzione ottimizzato con RL (RLVR)
  • Thinking: thinking ottimizzato con RL

La variante Instruct risponde direttamente senza catena di pensiero esplicita, ideale per bassa latenza. La variante Thinking emette una traccia di ragionamento prima della risposta, adatta per debugging complesso o pianificazione multi-step.

Benchmark

I dati sono auto-dichiarati da JetBrains, confronto con modelli 4B–14B. Punti salienti della variante Instruct:

  • EvalPlus: 78.4 (media HumanEval+ e MBPP+) — supera Qwen3.5 4B (69.4), Ministral 3 14B (74.1) e OLMo-3 7B (67.3)
  • BFCL v3: 66.3 (tool use) — migliore di Qwen3.5 4B (64.1) e Ministral 3 14B (52.7)
  • AIME 2025+2026: 41.7 — in linea o superiore a modelli comparabili
  • LiveCodeBench v6: 37.2 — sotto Qwen3.5 9B (63.7) e Ministral 3 14B (42.4)

Casi d’uso

JetBrains identifica quattro scenari principali:

  • Routing e orchestrazione: come classificatore veloce in sistemi multi-modello
  • Pipeline RAG a bassa latenza: per riassumere contesto recuperato
  • Sub-agenti in flussi di lavoro complessi: per passaggi ripetitivi o sensibili a latenza
  • Deploy privato e locale: licenza Apache 2.0 permette self-hosting senza restrizioni

Articoli simili