Cos'è la prompt injection?

Un attacco in cui un avversario nasconde un'istruzione malevola in un input che l'agente IA legge (una pagina web, un documento, un risultato di tool). Una singola riga può esfiltrare dati o eseguire azioni non autorizzate, sfruttando la fiducia del modello nel contenuto che elabora.

Perché il tasso di Anthropic (31,5%) non è paragonabile a quello di OpenAI?

Anthropic misura il tasso di successo per tentativo su 129 ambienti browser contro un attaccante adattivo. OpenAI pubblica un punteggio di robustezza (più alto è meglio) su attacchi noti contro connettori. Le metriche, le superfici e le metodologie sono diverse: non esiste uno standard di misura comune.

Come posso proteggermi dalla prompt injection sui miei agenti?

Mappa ogni agente per superficie (browser, codice, connettori, desktop). Verifica se il vendor ha pubblicato un tasso di prompt injection per quella superficie. Se non esiste, trattalo come non testato. Attiva le salvaguardie del modello (thinking, filtri) e considera l'implementazione di guardrail come PromptGuard o AlignmentCheck.

Prompt injection attack on AI browser agent visualized

Intelligenza Artificiale

Prompt injection: Anthropic pubblica tassi di attacco del 31,5% — e nessun altro fa lo stesso

DiFabrizio Martini 01/06/2026

Anthropic ha divulgato che il suo modello Opus 4.8 subisce prompt injection nel 31,5% dei tentativi singoli senza difese, su 129 ambienti browser testati da red-teamer professionisti. Con le salvaguardie attive, il tasso scende allo 0,5%. Il dato emerge dal system card di 244 pagine pubblicato il 28 maggio, il documento più completo tra quelli rilasciati dai quattro laboratori di frontiera.

OpenAI, Google e Meta non hanno fornito un numero equivalente per consentire un confronto diretto. OpenAI ha pubblicato un singolo punteggio di robustezza (0,963 su 1, per GPT-5.5) su una sola superficie — i connettori — contro attacchi già noti. Google non ha pubblicato alcun tasso per superficie nel suo Frontier Safety Framework. Meta misura le difese su un benchmark pubblico (AgentDojo), non il modello su superfici di deployment reali.

Carter Rees, VP of AI di Reputation, ha spiegato a VentureBeat che la prompt injection rompe l’assunzione su cui si basano tutti gli strumenti legacy: «Una frase innocua come “ignora le istruzioni precedenti” può avere un payload devastante come un buffer overflow, ma non condivide alcuna firma con i malware conosciuti». Adam Meyers di CrowdStrike ha aggiunto che «implementare l’IA aumenta la superficie d’attacco, quindi bisogna proteggere i modelli da abuso, data poisoning e prompt injection».

Anthropic ha misurato quattro superfici diverse: tool use, coding, computer use e browser. I risultati variano di un ordine di grandezza. In ambiente coding con thinking attivo, il tasso è del 7,03% senza difese, che scende al 2,09% con le protezioni. In ambiente browser, la percentuale sale al 31,5% senza difese. Con il thinking disattivato, il tasso scende a zero su tutti i 129 ambienti.

Il problema di fondo è l’assenza di uno standard di misura industriale. I quattro vendor utilizzano metriche e metodologie diverse:

Anthropic: attacco adattivo con tool Gray Swan e UK AISI, 129 ambienti, quattro superfici, tasso di successo per tentativo e per scenario
OpenAI: punteggio di robustezza su attacchi noti contro connettori, un solo numero (0.963)
Google: nessun numero pubblicato per superficie, solo dichiarazioni qualitative di maggiore resistenza
Meta: benchmark pubblico AgentDojo (97 task), dal 17,6% senza difese all’1,75% con guardrail Purple Llama

I team di sicurezza non possono confrontare i vendor sulla base dei documenti attuali. Un punteggio di robustezza di 0,963 e un tasso grezzo del 31,5% usano unità diverse e misurano superfici diverse. Il consiglio pratico: mappare ogni agente per superficie (browser, codice, connettori, desktop), prendere il tasso pubblicato dal vendor per quella specifica superficie e, se non esiste, trattarlo come non testato.