Agenti AI: l'affidabilità è il vero problema enterprise

La prima ondata di agenti AI nelle imprese è stata veloce, spesso troppo. Molte organizzazioni hanno messo in produzione sistemi basati su modelli linguistici senza preoccuparsi della “plumbing”, come la chiama Preeti Somal, Senior VP Engineering di Temporal Technologies. Il risultato? Workflow che si piantano, agenti che perdono lo stato, costi di inferenza che lievitano perché dopo un crash si deve ripartire da capo.

Durante l’AI Impact Series di New York, Somal ha spiegato che un numero crescente di clienti sta costruendo la versione 2.0 dello stesso agente. “Hanno dovuto muoversi molto in fretta, ma non si sono presi cura della parte infrastrutturale”, ha detto. “Le cose vanno in crash e bruciano, e poi tornano a ricostruire su fondamenta affidabili.”

I problemi ingegneristici che l’AI agentica amplifica non sono nuovi — sono quelli classici dei sistemi distribuiti: esecuzione durevole, gestione dello stato, visibilità dei workflow, recupero dai guasti. Ma l’AI li rende più evidenti, perché un singolo agente può chiamare più modelli linguistici, accedere a sistemi di retrieval, triggerare applicazioni esterne e gestire stato per ore o giorni.

“La gente scrive agenti ma non ha pensato a cosa succede se l’agente crasha”, ha detto Somal. “Devo far ripartire tutto il flusso da capo?” Per le imprese con vincoli di costo, la risposta è decisiva: riavviare workflow dopo un fallimento moltiplica le spese di inferenza, aumenta la latenza e peggiora l’esperienza utente.

Workflow lunghi, stato e memoria non sono la stessa cosa

Quando gli agenti operano per finestre temporali estese — ore, a volte — l’affidabilità dipende da due concetti distinti che spesso vengono confusi. Lo stato (state) riguarda l’esecuzione: a che punto è l’agente, quali azioni ha completato, da dove riprendere dopo un guasto. La memoria o contesto (context/memory) è l’informazione che l’agente si porta avanti tra interazioni e task.

“Lo stato dell’agente riguarda a che step è e quali azioni sono state eseguite, e se qualcosa crasha, da dove vuoi riprendere”, ha spiegato Somal. “La memoria e il contesto sono un’altra cosa.” La distinzione diventa critica quando si passa da semplici chatbot a processi aziendali complessi. Un esempio portato da Somal è Abridge, cliente di Temporal nel settore sanitario: i loro workflow processano visite mediche attraverso più fasi — audio, riepilogo, chiamate a modelli, generazione del documento post-visita. “Non c’è un solo pezzo in quel flusso”, ha detto.

La spina dorsale deterministica

Il framework che Temporal propone per progettare sistemi AI affidabili è la “deterministic spine” (spina dorsale deterministica). L’idea è semplice: un sistema di orchestrazione mantiene l’esecuzione affidabile intorno a un modello probabilistico. “Sta indicando il percorso che vuoi seguire”, ha detto Somal. “Chiama il cervello, ma se il cervello non risponde, lo chiama di nuovo. Se il cervello risponde ma il passo successivo fallisce, riparte da dove è fallito.”

In pratica: il modello linguistico produce output variabili, l’orchestrazione garantisce che il workflow sopravviva a crash e timeout. Un sistema di procurement, un riepilogo sanitario, una escalation del supporto clienti o un processo di compliance non possono fallire in silenzio solo perché una chiamata a un modello è andata in timeout.

Visibilità sui costi: dove vanno i token

Con workflow lunghi e chiamate multiple a modelli, i costi diventano opachi. L’orchestrazione offre un vantaggio operativo: visibilità passo-passo su dove si consumano i token. “Hai visibilità sull’intero flusso in un unico pannello”, ha detto Somal. “Puoi vedere dove stai spendendo i token in un agente che ha più passi e chiama sistemi diversi.”

Il recupero dai guasti incide anche sull’economia: senza orchestrazione durevole, un fallimento in fase avanzata obbliga a rieseguire l’intero processo, comprese tutte le chiamate precedenti ai modelli. “Riprendi da dove è successo il crash”, ha detto Somal. “Ti risparmiamo il costo di far ripartire l’agente dal primo passo.”

Paved path e governance

Un altro pattern emergente è la richiesta di “paved path” — percorsi standardizzati interni all’impresa che forniscano controlli di governance, policy di selezione dei modelli, sistemi di identità, gestione dei costi e osservabilità, senza affidarsi esclusivamente a sistemi gestiti già pronti. “Le imprese stanno cercando di costruire questi percorsi”, ha detto Somal. “Prendere qualcosa già pronto probabilmente non funziona perché ci sono tutti questi altri requisiti.”

Per molte organizzazioni, Temporal esiste già come parte di programmi di modernizzazione precedenti all’AI. “Estendere tutto questo alle piattaforme AI e agenti è una scelta naturale”, ha concluso Somal.