AI debt: prompt, retrieval e evaluation debt nelle aziende

Il debito tecnico non è più solo codice mal scritto e documentazione obsoleta. Nell’era dell’AI si manifesta in forme nuove: meno visibili, più difficili da misurare e spesso più pericolose di quelle tradizionali.

Un recente studio del MIT ha rilevato che il 95% dei progetti AI non arriva in produzione o non genera valore. S&P Global Market Intelligence aggiunge un dato ancora più preoccupante: il 42% delle aziende ha abbandonato iniziative AI nel 2025, contro il 17% dell’anno precedente. Le cause sono quasi sempre legate a sistemi mal progettati, complessi da gestire e pieni di punti di fallimento difficili da monitorare.

Con il codice tradizionale i bug sono localizzati e riproducibili. Con l’AI no: il debito è distribuito tra prompt, modelli, pipeline di dati e infrastruttura. Ed è intermittente, perché i sistemi probabilistici non rispondono sempre allo stesso modo. Servono quindi monitoraggio continuo e test pensati per una casistica molto più ampia.

Le quattro forme del nuovo AI debt

Prompt debt è la versione moderna dello spaghetti code: modifiche rapide ai prompt senza documentazione, versioni non tracciate, prompt stuffing (riempire il contesto con dati inutili). I prompt diventano codice non tipizzato, non testato e senza controllo versione. Fragilità e vulnerabilità aumentano.

Model dependency debt riguarda la dipendenza da modelli esterni. Le applicazioni si appoggiano a API di fornitori che non si controllano direttamente. Quando un modello si aggiorna, le performance cambiano e la riproducibilità si perde: un prompt tarato su una versione fallisce su quella successiva.

Retrieval debt colpisce i sistemi RAG (retrieval-augmented generation), che attingono da repository aziendali. Se i dati sono duplicati, obsoleti o disordinati, l’AI restituisce risposte tecnicamente corrette ma non più valide. Peggio delle allucinazioni, perché sembrano giuste anche ai tester.

Evaluation debt è l’assenza di standard per testare e monitorare i modelli. I benchmark esistono ma sono puntuali e ristretti. Manca un equivalente della CI/CD per i prompt. I CTO non hanno visibilità chiara sulle performance dei modelli e non possono tracciare miglioramenti o peggioramenti.

A tutto questo si aggiunge il debito tecnico tradizionale, aggravato dall’adozione massiccia di codice generato dall’AI, spesso distribuito senza test adeguati.

Come prevenire l’AI debt

Modelli più accurati non bastano: i tassi di fallimento restano alti anche con modelli performanti. Servono migliori progettazione dei sistemi, integrazione, controlli e un cambio di cultura organizzativa.

Primo: i prompt vanno trattati come codice. Controllo versione, documentazione, test pre e post-deploy. Meglio blocchi di prompt piccoli che muri di testo, e pochi parametri hard-coded.

Secondo: la valutazione va integrata nell’infrastruttura AI. Pipeline di valutazione continue che misurano metriche tecniche e di business. Sistemi di osservabilità per monitorare qualità degli output, tassi di fallimento, drift del modello e dei dati.

Terzo: spiegabilità di default in tutti i risultati AI. Tracciabilità di dati, modelli e passaggi per permettere audit e correzioni. Servono programmi espliciti di riduzione dell’AI debt con budget dedicati, come già successo per sicurezza e cloud.

Le implementazioni AI non sono codice statico: sono sistemi viventi che interagiscono con l’intero stack aziendale. La sfida non è costruirli, ma mantenerli affidabili nel tempo. Le aziende che affrontano l’AI debt già in fase di progettazione sono quelle che costruiranno piattaforme sostenibili in grado di regalare produttività a lungo termine.