Prompt injection attack on AI browser agent visualized

Prompt injection: Anthropic pubblica tassi di attacco del 31,5% — e nessun altro fa lo stesso

Anthropic ha divulgato che il suo modello Opus 4.8 subisce prompt injection nel 31,5% dei tentativi singoli senza difese, su 129 ambienti browser testati da red-teamer professionisti. Con le salvaguardie attive, il tasso scende allo 0,5%. Il dato emerge dal system card di 244 pagine pubblicato il 28 maggio, il documento più completo tra quelli rilasciati dai quattro laboratori di frontiera.

OpenAI, Google e Meta non hanno fornito un numero equivalente per consentire un confronto diretto. OpenAI ha pubblicato un singolo punteggio di robustezza (0,963 su 1, per GPT-5.5) su una sola superficie — i connettori — contro attacchi già noti. Google non ha pubblicato alcun tasso per superficie nel suo Frontier Safety Framework. Meta misura le difese su un benchmark pubblico (AgentDojo), non il modello su superfici di deployment reali.

Carter Rees, VP of AI di Reputation, ha spiegato a VentureBeat che la prompt injection rompe l’assunzione su cui si basano tutti gli strumenti legacy: «Una frase innocua come “ignora le istruzioni precedenti” può avere un payload devastante come un buffer overflow, ma non condivide alcuna firma con i malware conosciuti». Adam Meyers di CrowdStrike ha aggiunto che «implementare l’IA aumenta la superficie d’attacco, quindi bisogna proteggere i modelli da abuso, data poisoning e prompt injection».

Anthropic ha misurato quattro superfici diverse: tool use, coding, computer use e browser. I risultati variano di un ordine di grandezza. In ambiente coding con thinking attivo, il tasso è del 7,03% senza difese, che scende al 2,09% con le protezioni. In ambiente browser, la percentuale sale al 31,5% senza difese. Con il thinking disattivato, il tasso scende a zero su tutti i 129 ambienti.

Il problema di fondo è l’assenza di uno standard di misura industriale. I quattro vendor utilizzano metriche e metodologie diverse:

  • Anthropic: attacco adattivo con tool Gray Swan e UK AISI, 129 ambienti, quattro superfici, tasso di successo per tentativo e per scenario
  • OpenAI: punteggio di robustezza su attacchi noti contro connettori, un solo numero (0.963)
  • Google: nessun numero pubblicato per superficie, solo dichiarazioni qualitative di maggiore resistenza
  • Meta: benchmark pubblico AgentDojo (97 task), dal 17,6% senza difese all’1,75% con guardrail Purple Llama

I team di sicurezza non possono confrontare i vendor sulla base dei documenti attuali. Un punteggio di robustezza di 0,963 e un tasso grezzo del 31,5% usano unità diverse e misurano superfici diverse. Il consiglio pratico: mappare ogni agente per superficie (browser, codice, connettori, desktop), prendere il tasso pubblicato dal vendor per quella specifica superficie e, se non esiste, trattarlo come non testato.

Prodotti correlati su Amazon

Claude Anthropic AI subscriptionVedi su Amazon →
ChatGPT Plus subscriptionVedi su Amazon →

Articoli simili