OpenJarvis funziona senza connessione internet?

Sì, una volta configurato e ottimizzato, OpenJarvis esegue interamente inferenza, agenti, memoria e apprendimento sul dispositivo, senza chiamate al cloud a runtime. La connessione è necessaria solo in fase di installazione e per l'ottimizzazione guidata da LLM (LLM-guided spec search), che può essere eseguita periodicamente per migliorare le prestazioni.

Che hardware serve per eseguire OpenJarvis?

Il framework è stato testato su 7 piattaforme, dal Mac Mini M4 fino al NVIDIA DGX Spark. Supporta motori come Ollama, vLLM, SGLang e llama.cpp, e funziona su macOS, Linux e Windows tramite WSL2. I modelli più piccoli (come Qwen3.5-9B) girano su hardware consumer, mentre quelli più grandi richiedono GPU con più VRAM.

Quanto costa usare OpenJarvis rispetto a un modello cloud?

Il costo marginale per query è circa 800× inferiore rispetto a un modello cloud come Claude Opus 4.6. Ad esempio, Qwen3.5-122B costa circa un millesimo di centesimo per query, contro $0,009 del cloud. L'unico costo variabile è l'uso occasionale di un modello cloud teacher durante la fase di ottimizzazione, che si ammortizza sotto $0,001 per query entro sei mesi a 100 query al giorno.

OpenJarvis: framework AI locale senza cloud a costo irrisorio

Un team di ricercatori di Stanford University e Lambda Labs ha pubblicato il paper di OpenJarvis, un framework open-source che esegue inferenza, agenti, memoria e apprendimento interamente sul dispositivo, senza chiamate al cloud a runtime. I modelli configurati con OpenJarvis si attestano entro 3,2 punti percentuali dalla media del miglior modello cloud, con un costo marginale per query circa 800× inferiore e una latenza inferiore di circa 4× nei carichi di lavoro agentici.

Lo studio si basa sul precedente lavoro Intelligence Per Watt del team, che aveva già mostrato come i modelli locali gestiscano l’88,7% delle richieste singole a latenza interattiva, con un miglioramento dell’efficienza di 5,3× tra il 2023 e il 2025.

Cos’è OpenJarvis e come funziona

OpenJarvis non è un singolo modello, ma un framework componibile che accetta qualsiasi modello supportato e lo combina con uno stack di agenti configurabile. Il sistema è stato valutato su 11 modelli locali appartenenti a 4 famiglie: Qwen3.5, Gemma4, Nemotron e Granite. I cloud baseline di confronto includono Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro.

L’architettura si basa su cinque primitive tipizzate (Intelligenza, Motore, Agenti, Strumenti e Memoria, Apprendimento), composte attraverso un singolo oggetto di configurazione dichiarativo chiamato spec, serializzato in un file TOML. Ogni primitiva è indipendentemente sostituibile: due spec possono condividere agenti e strumenti e differire solo per modello e motore, così lo stesso comportamento funziona su un Mac Mini e su una workstation senza riscrivere i prompt.

Il framework è rilasciato sotto licenza Apache 2.0, con repository su GitHub (circa 5.400 stelle a giugno 2026), scritto principalmente in Python (83%), Rust (9%) e TypeScript (7%). Supporta motori di inferenza come Ollama, vLLM, SGLang, llama.cpp e Apple Foundation Models, ed è stato testato su 7 piattaforme, dal Mac Mini M4 al NVIDIA DGX Spark.

LLM-guided spec search: il vero valore aggiunto

La seconda innovazione del paper è l’LLM-guided spec search, una collaborazione locale-cloud: un modello cloud frontier funge da insegnante in fase di ricerca, leggendo i log, diagnosticando i cluster di fallimenti e proponendo modifiche su tutte le primitive. Una modifica viene accettata solo se migliora il cluster bersaglio senza causare regressioni significative altrove (tolleranza di default 1%). Lo spec ottimizzato viene poi eseguito interamente in locale, senza chiamate al cloud a inferenza.

Il costo dell’insegnante si ammortizza rapidamente: a 100 query al giorno, scende sotto $0,001 per query entro sei mesi. Rispetto ai metodi precedenti (GEPA, DSPy, LoRA), che ottimizzano una primitiva alla volta, questa ricerca congiunta recupera 13-32 punti percentuali del divario cloud-locale, contro i circa 5 pp dei soli ottimizzatori di prompt.

Prestazioni: un divario ormai ridotto

OpenJarvis è stato valutato su 8 benchmark per un totale di 508 task, tra cui tool calling (ToolCall-15), agenti (PinchBench), coding (LiveCodeBench), customer service (τ-Bench V2), ricerca approfondita (LiveResearchBench) e assistenza generale (GAIA).

Il swap test mostra il vero impatto: sostituendo il modello cloud atteso con Qwen3.5-9B nei framework esistenti (OpenClaw, Hermes Agent) l’accuratezza cala del 25-39 pp. Con lo stesso modello sotto uno spec OpenJarvis, il calo residuo si riduce al 5,6-16,5 pp, recuperando il 56-77% della perdita di portabilità.

Sulla frontiera dell’accuratezza, il miglior modello locale singolo (Qwen3.5-122B) raggiunge l’80,3% medio contro l’83,5% di Claude Opus 4.6 — un divario di soli 3,2 pp. Su 4 degli 8 benchmark (ToolCall-15, PinchBench, LiveCodeBench e τ-Bench V2) le configurazioni locali eguagliano o superano il cloud.

In termini di costo e latenza, Qwen3.5-122B eroga il suo 80,3% a circa un millesimo di centesimo per query, contro $0,009 per Claude Opus 4.6: un vantaggio di costo marginale di circa 800×. La latenza end-to-end sui carichi agentici è circa 4× inferiore.

I guadagni dell’LLM-guided spec search sono sostanziali: su Qwen3.5-9B si arriva al 100% su PinchBench, all’83% su LiveCodeBench e al 91% su LiveResearchBench. I guadagni medi sull’intera suite vanno dal 13,1 al 31,5 pp per modello studente, e gli autori confermano che reggono ai test di robustezza.

Come installarlo e usarlo

L’installazione è un singolo comando su macOS, Linux o WSL2:

curl -fsSL https://open-jarvis.github.io/OpenJarvis/install.sh | bash

Per Windows esiste uno script PowerShell equivalente. Il provisioning di uv, un ambiente virtuale Python, Ollama e un modello iniziale richiede circa 3 minuti su banda larga. È disponibile anche una GUI desktop nei formati .dmg, .exe, .deb, .rpm e .AppImage.

Dopo l’installazione, il comando jarvis avvia una chat. I preset coprono i flussi di lavoro più comuni:

morning-digest-mac — briefing giornaliero con sintesi vocale
deep-research — ricerca multi-hop con citazioni
code-assistant — agente con esecuzione di codice e accesso alla shell
scheduled-monitor — agente con stato su pianificazione

Il framework include 8 agenti predefiniti in tre modalità di esecuzione (on-demand, pianificata, continua), si connette a oltre 25 fonti dati (Gmail, Calendar, iMessage, Notion, Obsidian, Slack, GitHub) ed espone agenti su oltre 32 canali (WhatsApp, Telegram, Discord, iMessage, Signal). Le skill possono essere importate da cataloghi esterni — circa 150 da Hermes Agent e circa 13.700 dalla community di OpenClaw — tutte conformi alla specifica agentskills.io. Il comando jarvis optimize skills --policy dspy le raffina dalla cronologia locale.

OpenJarvis: il framework open-source che porta l’AI personale interamente sul dispositivo

Cos’è OpenJarvis e come funziona

LLM-guided spec search: il vero valore aggiunto

Prestazioni: un divario ormai ridotto

Come installarlo e usarlo

Giudici smascherano un avvocato che ha citato sentenze false (probabilmente inventate dall’AI) durante un’udienza in diretta

Agentic RAG di Google: il framework con Sufficient Context Agent per query multihop arriva su Gemini Enterprise

NVIDIA Cosmos 3: un modello unico per ragionamento fisico, generazione del mondo e azione

Agentic AI ha risolto la scrittura del codice — e ha esposto tutti gli altri problemi del software engineering

Google compra il codice degli sviluppatori Play Store per addestrare la sua AI

Come le piccole imprese possono sfruttare l’AI (con esempi concreti)

Cos’è OpenJarvis e come funziona

LLM-guided spec search: il vero valore aggiunto

Prestazioni: un divario ormai ridotto

Come installarlo e usarlo

Articoli simili