Cos'è Mellum2 di JetBrains?

Mellum2 è un modello linguistico open-source (Apache 2.0) basato su architettura Mixture-of-Experts. Ha 12B parametri totali ma ne attiva solo 2.5B per token, rendendolo computazionalmente equivalente a un modello molto più piccolo. È specializzato in software engineering e può essere usato come componente rapido in sistemi AI multi-modello.

Quali sono le differenze tra Mellum2 Instruct e Thinking?

La variante Instruct risponde direttamente, senza esternalizzare una catena di pensiero — è ottimizzata per bassa latenza in attività come risposte dirette, tool use e instruction following. La variante Thinking emette una traccia di ragionamento esplicita prima della risposta finale, utile per debugging complesso, pianificazione multi-step o flussi agentici dove serve trasparenza.

Mellum2 è adatto a sostituire modelli come GPT-4 o Claude?

No, JetBrains lo posiziona esplicitamente come 'focal model', non come sostituto dei modelli frontier. È progettato per essere un componente veloce all'interno di pipeline multi-modello — per routing, RAG a bassa latenza, sub-agenti o deploy privato — non per competere con modelli generalisti di frontiera su compiti complessi.

Mellum2: modello AI 12B MoE open source di JetBrains

JetBrains ha rilasciato Mellum2, un modello linguistico open-source con licenza Apache 2.0. Rispetto alla prima versione (un modello denso da 4B focalizzato sul completamento), Mellum2 è un modello generalista specializzato in software engineering: copre generazione e modifica di codice, debugging, ragionamento multi-step, tool use, chiamate a funzione e assistenza conversazionale.

L’azienda lo definisce un “focal model” — un componente veloce all’interno di sistemi AI più grandi, non un sostituto dei modelli frontier. Non è multimodale: gestisce solo testo e codice.

Architettura e specifiche

Mellum2 usa un’architettura Mixture-of-Experts (MoE) con 12B parametri totali e 2.5B attivi per token. Ha 64 esperti e ne attiva 8 per token, eguagliando il costo computazionale di un modello denso da 2.5B. Dettagli architetturali:

Layer: 28
Hidden size: 2304
Attenzione: Grouped-Query Attention con 32 query head e 4 KV head; Sliding Window Attention applicato a 3 layer su 4, con finestra di 1024 token; attenzione completa sul layer rimanente
Contesto: 131.072 token
Multi-Token Prediction head: usato come obiettivo ausiliario di pre-training e come modello draft per speculative decoding
Precisione: bfloat16, vocabolario di 98.304 token

Il pre-training ha coperto circa 10.6 trilioni di token in tre fasi, con una miscela di dati che è passata da contenuti web generali a codice e matematica. È stato usato l’ottimizzatore Muon con precisione mista FP8. Dopo il pre-training, il contesto è stato esteso a 128K token con il metodo YaRN.

La famiglia di modelli

JetBrains ha rilasciato sei checkpoint:

Base-Pretrain: checkpoint base prima dell’estensione del contesto
Base: modello base finale dopo estensione
Instruct-SFT: istruzione fine-tuned con supervised learning
Thinking-SFT: thinking checkpoint supervised
Instruct: istruzione ottimizzato con RL (RLVR)
Thinking: thinking ottimizzato con RL

La variante Instruct risponde direttamente senza catena di pensiero esplicita, ideale per bassa latenza. La variante Thinking emette una traccia di ragionamento prima della risposta, adatta per debugging complesso o pianificazione multi-step.

Benchmark

I dati sono auto-dichiarati da JetBrains, confronto con modelli 4B–14B. Punti salienti della variante Instruct:

EvalPlus: 78.4 (media HumanEval+ e MBPP+) — supera Qwen3.5 4B (69.4), Ministral 3 14B (74.1) e OLMo-3 7B (67.3)
BFCL v3: 66.3 (tool use) — migliore di Qwen3.5 4B (64.1) e Ministral 3 14B (52.7)
AIME 2025+2026: 41.7 — in linea o superiore a modelli comparabili
LiveCodeBench v6: 37.2 — sotto Qwen3.5 9B (63.7) e Ministral 3 14B (42.4)

Casi d’uso

JetBrains identifica quattro scenari principali:

Routing e orchestrazione: come classificatore veloce in sistemi multi-modello
Pipeline RAG a bassa latenza: per riassumere contesto recuperato
Sub-agenti in flussi di lavoro complessi: per passaggi ripetitivi o sensibili a latenza
Deploy privato e locale: licenza Apache 2.0 permette self-hosting senza restrizioni