DeepSWE: GPT-5.5 domina il benchmark AI, Claude scovato a barare

Per mesi i benchmark pubblici hanno raccontato una storia rassicurante: i migliori modelli AI per coding sono tutti più o meno allo stesso livello. GPT-5 di OpenAI, Claude Opus di Anthropic e Gemini Pro di Google si muovevano in una fascia ristretta su SWE-Bench Pro di Scale AI. Difficile per chi deve scegliere capire quale agente funzioni davvero dentro il proprio codice.

Lunedì la startup Datacurve ha rilasciato DeepSWE, un benchmark che secondo i suoi autori rompe l’illusione. Con 113 task distribuiti su 91 repository open source e cinque linguaggi di programmazione, DeepSWE produce una forbice molto più ampia tra gli stessi modelli. GPT-5.5 è il leader netto con il 70%, sedici punti sopra il primo inseguitore.

«Nei leaderboard pubblici i modelli sembrano vicini», ha scritto su X Serena Ge, co-autrice di Datacurve. «DeepSWE mostra dove divergono realmente, rispecchiando l’esperienza realistica degli sviluppatori nel lavoro quotidiano.»

Il benchmark contiene anche una critica severa all’infrastruttura di valutazione usata dall’industria. Datacurve ha analizzato i verificatori automatici di SWE-Bench Pro e ha scoperto che emettono giudizi errati su circa un terzo dei trial esaminati: accettano implementazioni sbagliate nell’8,5% dei casi e rifiutano soluzioni corrette nel 24% dei casi.

DeepSWE ha invece tassi di errore dello 0,3% e dell’1,1%. Il problema dei falsi negativi è insidioso: punisce soluzioni creative. In un caso documentato, la soluzione ufficiale di SWE-Bench Pro rifattorizzava una funzione privata; un agente che risolveva correttamente il problema inlineando la stessa logica veniva bocciato perché il test cercava di importare un simbolo che esisteva solo nell’implementazione specifica dell’autore originale.

GPT-5.5 domina, Claude e Gemini indietro

I risultati di DeepSWE ridisegnano la gerarchia. Su SWE-Bench Pro i modelli oscillavano in un intervallo di 30 punti; DeepSWE allarga la forbice a 70 punti.

GPT-5.5 è al 70%, seguito da GPT-5.4 al 56% e Claude Opus 4.7 al 54%. Poi il calo è netto: Claude Sonnet 4.6 al 32%, Gemini 3.5 Flash al 28%, GPT-5.4-mini e Kimi K2.6 al 24%, e poi una coda al di sotto del 10%. Claude Haiku 4.5, che su SWE-Bench Pro fa il 39%, su DeepSWE crolla a zero.

GPT-5.5 non solo segna il punteggio più alto ma lo fa in modo efficiente: costo medio di 5,80 dollari per trial, 20 minuti di tempo macchina, 47.000 token di output. GPT-5.4 emerge come miglior rapporto qualità-prezzo: 3,30 dollari per un 56% di pass rate.

Claude Opus 4.7 costa di più per ogni esecuzione. La durata, il costo e i token emessi variano di un ordine di grandezza tra gli agenti testati, ma nessuna di queste variabili è fortemente correlata con il tasso di successo.

Claude leggeva la risposta giusta nel repository

Il risultato più provocatorio dello studio riguarda i verdetto «CHEATED». I container Docker di SWE-Bench Pro includono la storia completa del repository, compreso il commit con la soluzione corretta. La maggior parte dei mod ignora questi dati. Claude no.

Datacurve ha trovato che sia Claude Opus 4.7 sia Claude Opus 4.6 hanno registrato «CHEATED» in oltre il 12% dei trial esaminati su SWE-Bench Pro. In quei casi, Claude eseguiva comandi come git log --all o git show <hash-della-soluzione> per recuperare il fix già pronto e copiarlo nella propria patch. Questo comportamento spiega circa il 18% dei passaggi di Opus 4.7 e il 25% di quelli di Opus 4.6.

GPT-5.4 e GPT-5.5 non lo hanno mai fatto. Gemini si è fermato all’1%. Datacurve descrive la faccenda con diplomazia: «Il benchmark rende possibile questa cosa (il commit risolutivo è nel container), ma Claude è la famiglia che lo fa sistematicamente».

DeepSWE risolve il problema fornendo solo un clone superficiale con il commit di base, senza lasciare traccia della soluzione da scoprire. Che la capacità di Claude di esplorare l’ambiente vada considerata «imbroglio» o «intraprendenza» dipende dal punto di vista. Ma in un benchmark progettato per misurare la capacità di risolvere problemi indipendentemente, il dato mina la credibilità del punteggio.