Agenti IA enterprise falliscono? Colpa della memoria

Le architetture RAG (Retrieval-Augmented Generation) sono brave in una cosa sola: trovare documenti semanticamente rilevanti. Ma lì si fermano. Recuperano informazioni, non contesto decisionale. Ed è qui che gli agenti IA enterprise tradiscono le aspettative, generando errori difficili da riprodurre e, spesso, incapaci di lasciare la fase pilota.

Rippletide, startup dell’ecosistema Neo4j, ha costruito un framework chiamato decision context graph che promette di colmare questo divario. L’idea è dare agli agenti una memoria strutturata, consapevole del tempo e basata su una logica decisionale esplicita.

Il problema principale, spiega Yann Bilien, co-fondatore e chief scientific officer di Rippletide, è la non-regressività: come fare in modo che un agente, quando genera qualcosa di nuovo, possa accumulare sulle scoperte precedenti senza dimenticarle?

Perché RAG non basta

Il contesto aziendale è disperso tra ERP, log, database, vettori e documenti normativi. I sistemi di IA generativa possono recuperare dati da tutto questo — con ricerca testuale, query SQL o pipeline RAG — ma il recupero ha un limite strutturale. I dati recuperati potrebbero non essere pertinenti alla decisione in corso, causando allucinazioni; e anche quando l’agente trova i dati giusti, spesso manca la guida per prendere decisioni con una solida motivazione.

RAG recupera documenti, non contesto decisionale. Come dice Wyatt Mayham di Northwest AI Consulting: “Tutti iniziano con RAG: prendi i documenti rilevanti, li infili nel prompt e lasci che il modello se la cavi. Per i chatbot funziona. Per gli agenti che devono prendere decisioni e agire, fallisce immediatamente.” Il problema è che un documento non dice all’agente se è ancora valido, se è stato sostituito o se esiste una regola contrastante che ha priorità. “Gli agenti hanno bisogno di contesto decisionale, non solo informazioni.”

In un contesto reale, questo significa sapere che una deroga sui prezzi è scaduta, che una policy di sicurezza vale solo in certe giurisdizioni, o che una procedura operativa standard è stata aggiornata un mese fa. “Se manca anche solo uno di questi dettagli, l’agente fa con sicurezza la cosa sbagliata”, aggiunge Mayham.

Senza un contesto decisionale strutturato, gli agenti combinano regole incompatibili, si inventano vincoli per colmare i buchi e fanno affidamento su quella che Bilien chiama “stime probabilistiche su dati illimitati”. Gli errori diventano difficili da riprodurre, perché lo sviluppatore non riesce a tracciare la scelta dell’agente.

Come funziona un decision context graph

Un decision context graph codifica una mappa strutturata di ciò che è applicabile, quali sono le regole e quando sono valide. Il framework è ottimizzato per rispondere a una domanda: “Data questa situazione, quale contesto è rilevante in questo momento?”

Il tempo è trattato come una dimensione di prima classe: ogni regola, decisione ed eccezione è vincolata al periodo in cui è valida. “L’obiettivo è affrontare esplicitamente i dati mancanti, incoerenti o contraddittori durante la costruzione del grafo”, spiega Bilien.

Il sistema si basa su tre principi:

Applicabilità: la logica è codificata in modo esplicito, così l’agente sa quali regole ricordare e applicare in una data situazione.
Memoria temporale: ogni regola, decisione ed eccezione ha una validità temporale, permettendo all’agente di ragionare su “cosa era vero allora vs. cosa è vero ora”.
Percorsi decisionali: il sistema può spiegare come è arrivato da A a B e perché ha incluso o escluso un certo contesto. Gli agenti ricevono esempi di casi simili già gestiti.

In fase di setup, i dati non strutturati vengono ingeriti e organizzati in un’ontologia: quali entità esistono, quali regole si applicano, cosa conta come eccezione. L’AI neuro-simbolica gestisce il riconoscimento di pattern e codifica la logica formale. Col tempo, il sistema affina la sua base di conoscenza mano a mano che vengono prese nuove decisioni.

Agenti che imparano senza dimenticare

Per garantire la non-regressività, l’elemento chiave è accumulare sia sull’intelligenza (modelli) che sulla conoscenza (condivisa tra agenti). Quando un agente non sa come svolgere un compito, esplora diverse possibilità in un ambiente controllato. “Una volta che una soluzione viene valutata come soddisfacente, il grafo congela quella sequenza di azioni”, spiega Bilien. Le esplorazioni future partono da questa “base stabile di comportamenti validati”, impedendo che nuove abilità sovrascrivano quelle apprese correttamente.

Prima di agire, l’agente verifica nel grafo se sta violando una regola, se sta allucinando, se resta entro i vincoli, se la soluzione è generalizzabile. A livello macro, il sistema valuta se il comportamento ha migliorato le performance a lungo termine e se ha preservato le capacità precedenti.

“Questo determinismo è fondamentale per far funzionare gli agenti in modo affidabile su larga scala”, dice Bilien.

In contesti enterprise come il bancario, dove si processano milioni di transazioni al giorno, l’affidabilità è critica. “Una domanda che faccio a tutti i clienti: il 95% è sufficiente? In molti casi no. Serve il 99,999%. Un 1% di errore è troppo”, sottolinea Bilien.

I decision context graph possono colmare questo divario: quando la stessa domanda di supporto viene posta ripetutamente, l’agente restituisce una risposta soddisfacente in modo prevedibile e senza regressione, mantenendo la sua autonomia.

Secondo Mayham, codificare applicabilità e validità temporale in un grafo strutturato — invece di lasciare che un LLM lo inferisca — è “un approccio solido” a un limite reale dei framework di recupero esistenti. La domanda aperta è se la generazione automatica di ontologie regga di fronte ai dati eterogenei e disordinati che le aziende hanno realmente. “Quella è sempre la parte difficile”, conclude.