OpenJarvis: il framework open-source che porta l’AI personale interamente sul dispositivo
Un team di ricercatori di Stanford University e Lambda Labs ha pubblicato il paper di OpenJarvis, un framework open-source che esegue inferenza, agenti, memoria e apprendimento interamente sul dispositivo, senza chiamate al cloud a runtime. I modelli configurati con OpenJarvis si attestano entro 3,2 punti percentuali dalla media del miglior modello cloud, con un costo marginale per query circa 800× inferiore e una latenza inferiore di circa 4× nei carichi di lavoro agentici.
Lo studio si basa sul precedente lavoro Intelligence Per Watt del team, che aveva già mostrato come i modelli locali gestiscano l’88,7% delle richieste singole a latenza interattiva, con un miglioramento dell’efficienza di 5,3× tra il 2023 e il 2025.
Cos’è OpenJarvis e come funziona
OpenJarvis non è un singolo modello, ma un framework componibile che accetta qualsiasi modello supportato e lo combina con uno stack di agenti configurabile. Il sistema è stato valutato su 11 modelli locali appartenenti a 4 famiglie: Qwen3.5, Gemma4, Nemotron e Granite. I cloud baseline di confronto includono Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro.
L’architettura si basa su cinque primitive tipizzate (Intelligenza, Motore, Agenti, Strumenti e Memoria, Apprendimento), composte attraverso un singolo oggetto di configurazione dichiarativo chiamato spec, serializzato in un file TOML. Ogni primitiva è indipendentemente sostituibile: due spec possono condividere agenti e strumenti e differire solo per modello e motore, così lo stesso comportamento funziona su un Mac Mini e su una workstation senza riscrivere i prompt.
Il framework è rilasciato sotto licenza Apache 2.0, con repository su GitHub (circa 5.400 stelle a giugno 2026), scritto principalmente in Python (83%), Rust (9%) e TypeScript (7%). Supporta motori di inferenza come Ollama, vLLM, SGLang, llama.cpp e Apple Foundation Models, ed è stato testato su 7 piattaforme, dal Mac Mini M4 al NVIDIA DGX Spark.
LLM-guided spec search: il vero valore aggiunto
La seconda innovazione del paper è l’LLM-guided spec search, una collaborazione locale-cloud: un modello cloud frontier funge da insegnante in fase di ricerca, leggendo i log, diagnosticando i cluster di fallimenti e proponendo modifiche su tutte le primitive. Una modifica viene accettata solo se migliora il cluster bersaglio senza causare regressioni significative altrove (tolleranza di default 1%). Lo spec ottimizzato viene poi eseguito interamente in locale, senza chiamate al cloud a inferenza.
Il costo dell’insegnante si ammortizza rapidamente: a 100 query al giorno, scende sotto $0,001 per query entro sei mesi. Rispetto ai metodi precedenti (GEPA, DSPy, LoRA), che ottimizzano una primitiva alla volta, questa ricerca congiunta recupera 13-32 punti percentuali del divario cloud-locale, contro i circa 5 pp dei soli ottimizzatori di prompt.
Prestazioni: un divario ormai ridotto
OpenJarvis è stato valutato su 8 benchmark per un totale di 508 task, tra cui tool calling (ToolCall-15), agenti (PinchBench), coding (LiveCodeBench), customer service (τ-Bench V2), ricerca approfondita (LiveResearchBench) e assistenza generale (GAIA).
Il swap test mostra il vero impatto: sostituendo il modello cloud atteso con Qwen3.5-9B nei framework esistenti (OpenClaw, Hermes Agent) l’accuratezza cala del 25-39 pp. Con lo stesso modello sotto uno spec OpenJarvis, il calo residuo si riduce al 5,6-16,5 pp, recuperando il 56-77% della perdita di portabilità.
Sulla frontiera dell’accuratezza, il miglior modello locale singolo (Qwen3.5-122B) raggiunge l’80,3% medio contro l’83,5% di Claude Opus 4.6 — un divario di soli 3,2 pp. Su 4 degli 8 benchmark (ToolCall-15, PinchBench, LiveCodeBench e τ-Bench V2) le configurazioni locali eguagliano o superano il cloud.
In termini di costo e latenza, Qwen3.5-122B eroga il suo 80,3% a circa un millesimo di centesimo per query, contro $0,009 per Claude Opus 4.6: un vantaggio di costo marginale di circa 800×. La latenza end-to-end sui carichi agentici è circa 4× inferiore.
I guadagni dell’LLM-guided spec search sono sostanziali: su Qwen3.5-9B si arriva al 100% su PinchBench, all’83% su LiveCodeBench e al 91% su LiveResearchBench. I guadagni medi sull’intera suite vanno dal 13,1 al 31,5 pp per modello studente, e gli autori confermano che reggono ai test di robustezza.
Come installarlo e usarlo
L’installazione è un singolo comando su macOS, Linux o WSL2:
curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | bash
Per Windows esiste uno script PowerShell equivalente. Il provisioning di uv, un ambiente virtuale Python, Ollama e un modello iniziale richiede circa 3 minuti su banda larga. È disponibile anche una GUI desktop nei formati .dmg, .exe, .deb, .rpm e .AppImage.
Dopo l’installazione, il comando jarvis avvia una chat. I preset coprono i flussi di lavoro più comuni:
- morning-digest-mac — briefing giornaliero con sintesi vocale
- deep-research — ricerca multi-hop con citazioni
- code-assistant — agente con esecuzione di codice e accesso alla shell
- scheduled-monitor — agente con stato su pianificazione
Il framework include 8 agenti predefiniti in tre modalità di esecuzione (on-demand, pianificata, continua), si connette a oltre 25 fonti dati (Gmail, Calendar, iMessage, Notion, Obsidian, Slack, GitHub) ed espone agenti su oltre 32 canali (WhatsApp, Telegram, Discord, iMessage, Signal). Le skill possono essere importate da cataloghi esterni — circa 150 da Hermes Agent e circa 13.700 dalla community di OpenClaw — tutte conformi alla specifica agentskills.io. Il comando jarvis optimize skills --policy dspy le raffina dalla cronologia locale.
