AI debt: prompt, retrieval e evaluation debt nelle aziende

Il debito tecnico, per anni, è stato sinonimo di architetture obsolete, codice pasticciato e documentazione assente. Nell’era dell’AI quella definizione non basta più. I sistemi di intelligenza artificiale introducono strati di debito nuovi, che vivono nei prompt, nei modelli e nelle dipendenze dei dati. Sono meno visibili, più difficili da misurare e spesso più pericolosi del debito tradizionale.

Una crisi nascosta in piena vista

Le complessità dei sistemi AI e i loro fallimenti sono ormai ben documentati. Uno studio MIT del 2025 ha rilevato che il 95% dei progetti AI non arriva in produzione o non genera valore. Un’indagine di S&P Global Market Intelligence mostra che il 42% delle aziende ha abbandonato diverse iniziative AI nel 2025, un balzo netto rispetto al 17% dell’anno precedente. Le cause sono molteplici, ma quasi sempre riconducono a sistemi mal progettati, difficili da gestire e con troppi punti di rottura difficili da monitorare. Il risultato è un accumulo rapido di debito AI.

Il debito tecnico tradizionale era localizzato nel codice e i bug erano generalmente riproducibili. Si potevano individuare nei test e risolvere riscrivendo l’architettura. Il debito AI è molto più distribuito: si manifesta nei prompt, nei modelli, nelle pipeline di dati e in tutta l’infrastruttura associata. Ed è intermittente: a causa della natura probabilistica dell’AI, i sistemi non rispondono sempre allo stesso modo, generando fallimenti sporadici. Questo rende molto più difficile identificare i rischi in fase di test e richiede un monitoraggio continuo anche dopo il deployment per prevenire drift e peggioramento graduale delle performance.

Le nuove forme di debito AI

Il debito AI si presenta in quattro forme principali, ognuna con i propri rischi.

Prompt debt è la più visibile. Una versione moderna dello ‘spaghetti code’: modifiche non documentate ai prompt, ‘fix rapidi’ accumulati che generano inconsistenze, versioni senza controllo, e ‘prompt stuffing’ — l’abitudine di infilare dati estranei o contesto extra nei prompt. Il risultato è un codice non tipizzato, non testato e senza versionamento, che rende i prompt fragili e vulnerabili.

Model dependency debt è sempre più comune. La maggior parte delle aziende dipende da modelli esterni — applicazioni e agenti sono costruiti su API chiamate a modelli di provider esterni. La logica applicativa dipende da modelli che non si controllano direttamente. Quando un modello si aggiorna, le performance variano e la riproducibilità si perde: i prompt ottimizzati per un modello possono fallire se passati a un altro, sia un aggiornamento dello stesso provider sia un modello diverso.

Retrieval debt è una conseguenza dei sistemi RAG (retrieval-augmented generation), usati nella maggior parte delle implementazioni AI enterprise. Questi sistemi attingono contesto da repository aziendali, spesso pieni di dati disordinati, documenti duplicati e informazioni obsolete. L’AI può così restituire risposte tecnicamente corrette ma superate e non più pertinenti, causando fallimenti a valle. A differenza delle allucinazioni, questi errori sono più difficili da rilevare perché la risposta era corretta — magari fino a poco tempo prima — e quindi appare giusta a qualsiasi tester.

Evaluation debt riflette la mancanza di standardizzazione nei test e nel monitoraggio di modelli e applicazioni AI. I benchmark esistenti sono focalizzati su test ristretti e su misurazioni puntuali. La maggior parte delle aziende non ha standard di test coerenti, dataset di ground truth o monitoraggio in tempo reale dei deployment. Manca l’equivalente di CI/CD per i prompt. Di conseguenza, CIO e CTO non hanno visibilità chiara sulle performance dei modelli e non possono tracciare miglioramenti o peggioramenti.

A queste si aggiungono le forme tradizionali di debito tecnico, che continuano a manifestarsi negli strumenti con cui le applicazioni AI interagiscono. L’adozione rapida di codice generato dall’AI — spesso distribuito senza test adeguati — aggrava ulteriormente le inconsistenze e la manutenibilità dei codebase tradizionali.

Come prevenire il debito AI

Il debito AI non si risolve con modelli ‘migliori’: i tassi di fallimento restano alti nonostante l’accuratezza già elevata dei modelli. Serve un approccio su più fronti.

Primo, i prompt vanno trattati come codice. Versionamento, documentazione e test rigorosi pre e post deployment sono indispensabili. Le buone pratiche del codice tradizionale — usare blocchi di prompt piccoli invece di muri di testo, ridurre i parametri hard-coded — aiutano a mitigare il debito.

Secondo, la valutazione va integrata in tutto lo stack dell’infrastruttura AI. Vanno create pipeline di valutazione continue, con metriche sia tecniche sia allineate al business. Sistemi di osservabilità AI devono monitorare qualità degli output, tassi di fallimento, drift del modello e dei dati.

Terzo, la spiegabilità deve essere inclusa per default in tutti i risultati AI, per compensare la scarsa riproducibilità. La lineage dei dati, i modelli usati e i passaggi seguiti devono essere tracciabili, per consentire audit e correzioni in caso di errori sistemici.

Questo richiede programmi espliciti di riduzione del debito AI con budget dedicati, simili ai precedenti investimenti in sicurezza o cloud modernization. Devono essere guidati a livello CXO per evitare costosi rifacimenti successivi.

I deployment AI enterprise non sono codice statico: sono sistemi viventi che interagiscono con l’intero stack aziendale. La sfida principale non sarà costruire sistemi intelligenti, ma mantenerli affidabili nel tempo. Le aziende che identificano e mitigano il debito AI già in fase di progettazione sono quelle che costruiranno piattaforme AI sostenibili, in grado di produrre aumenti di produttività significativi nel lungo periodo.