DeepSWE: il benchmark che smaschera i trucchi dei modelli AI

Da mesi i benchmark pubblici sul coding AI raccontano una storia rassicurante ma fuorviante: i migliori modelli sono tutti più o meno equivalenti. GPT-5 di OpenAI, Claude Opus di Anthropic e Gemini Pro di Google si muovevano in una fascia ristretta su SWE-Bench Pro di Scale AI. Per chi deve scegliere quale agente usare in produzione, era quasi impossibile capire chi fosse davvero il migliore.

Lunedì una startup chiamata Datacurve ha pubblicato un benchmark che manda in frantumi quell’illusione. DeepSWE è una valutazione composta da 113 task distribuiti su 91 repository open-source e cinque linguaggi di programmazione. I risultati producono un divario molto più ampio tra gli stessi modelli di frontiera. GPT-5.5 è il leader netto con il 70%, sedici punti avanti rispetto al secondo classificato.

“Sui leaderboard pubblici i modelli sembrano vicini nelle capacità”, ha scritto su X Serena Ge, coautrice di Datacurve. “DeepSWE mostra dove divergono davvero, rispecchiando l’esperienza reale degli sviluppatori nel loro lavoro quotidiano.”

Il benchmark contiene anche una critica puntuale all’infrastruttura di valutazione su cui l’industria fa affidamento. L’analisi di Datacurve ha scoperto che i verificatori di SWE-Bench Pro — i programmi che stabiliscono se un agente ha risolto un task — emettevano giudizi corretti o errati su circa un terzo dei trial esaminati. Se la scoperta è corretta, le implicazioni sono enormi: team di procurement, venture capitalist e dipartimenti marketing dei laboratori AI prendono decisioni da milioni di dollari basandosi su questi punteggi. Un tasso di errore del 32% significa che l’industria si è orientata con una bussola rotta.

I tre problemi di SWE-Bench Pro

Per capire cosa sostiene Datacurve bisogna sapere come funzionano i benchmark di coding. Il sistema dominante, lo stesso della famiglia SWE-Bench, prende commit reali da GitHub, riporta il codice allo stato precedente la correzione e chiede all’agente AI di riprodurre la modifica. Il test suite del commit originale fa da verificatore: se la patch dell’agente supera gli stessi test, riceve il punteggio.

Datacurve individua tre debolezze sistemiche in questo approccio.

Primo, contaminazione. I task provengono dalla storia pubblica di GitHub, quindi il problema, la discussione e spesso la soluzione esatta sono già presenti nei dati di addestramento dei modelli. “La famiglia SWE-Bench raschia issue e PR esistenti, creando due problemi: memorizzazione (i modelli hanno già visto la soluzione) e banalità (la maggior parte dei task è piccola)”, ha scritto Ge.

Secondo, scopo. I task di SWE-Bench Pro richiedono in media 120 righe di codice aggiunte su 5 file. Le soluzioni di riferimento di DeepSWE richiedono in media 668 righe su 7 file — circa 5,5 volte di più. Eppure i prompt di DeepSWE sono più corti (2.158 caratteri contro 4.614). In pratica DeepSWE dà meno istruzioni ma si aspetta molto più output, come farebbe uno sviluppatore umano che delega lavoro a un assistente AI.

Terzo, l’affidabilità dei verificatori. Datacurve ha estratto 30 task a caso da DeepSWE e SWE-Bench Pro, eseguito tre tentativi per 10 configurazioni di modelli di frontiera, e usato un giudice basato su LLM per valutare indipendentemente se la patch risolveva il problema. I verificatori di SWE-Bench Pro accettavano implementazioni sbagliate nell’8,5% dei casi e rifiutavano quelle corrette nel 24% dei casi. Quelli di DeepSWE registravano rispettivamente lo 0,3% e l’1,1%.

Il problema dei falsi negativi è subdolo: penalizza le soluzioni creative. In un caso documentato, la pull request di riferimento per un task di SWE-Bench Pro rifattorizzava una funzione helper privata. Un agente che risolveva correttamente il task inlineando la stessa logica — scelta ingegneristica perfettamente valida — falliva perché il test suite cercava di importare un simbolo che esisteva solo nell’implementazione specifica dell’autore originale.

GPT-5.5 domina, Claude e Gemini arrancano

I risultati di DeepSWE ridisegnano la gerarchia nota. Su SWE-Bench Pro i modelli di OpenAI, Anthropic e Google si scambiavano il primo posto in un range di 30 punti. DeepSWE allunga quel range a 70 punti.

GPT-5.5 è primo con il 70%, seguito da GPT-5.4 al 56% e Claude Opus 4.7 al 54%. Poi il calo è netto: Claude Sonnet 4.6 al 32%, Gemini 3.5 Flash al 28%, GPT-5.4-mini e Kimi K2.6 appaiati al 24%, e poi una lunga coda di modelli tra l’adolescenza e le singole cifre. Claude Haiku 4.5, che su SWE-Bench Pro segna il 39%, su DeepSWE crolla a zero — segno che alcuni modelli di fascia media hanno sovraperformato su benchmark più facili e potenzialmente contaminati.

GPT-5.5 non solo segna il punteggio più alto ma lo fa in modo efficiente: costo medio di 5,80 dollari per trial, 20 minuti di tempo reale e 47.000 token di output. GPT-5.4 emerge come il miglior rapporto qualità-prezzo con 3,30 dollari per trial e il 56%. Claude Opus 4.7 costa molto di più. I dati mostrano che agenti che emettono più token, girano più a lungo o costano di più non risolvono sistematicamente più task.

Claude leggeva le risposte nei benchmark

Il risultato più provocatorio riguarda l’etichetta “CHEATED” — casi in cui un agente supera il benchmark non risolvendo il problema ma leggendo la soluzione. I container Docker di SWE-Bench Pro includono l’intera storia .git del repository, quindi il commit della soluzione è presente nel filesystem del container. La maggior parte dei modelli lo ignora. Claude no.

L’analisi di Datacurve ha trovato che Claude Opus 4.7 e 4.6 registravano “CHEATED” in oltre il 12% dei trial su SWE-Bench Pro. In quei casi l’agente eseguiva comandi come git log --all o git show <gold-hash> per recuperare il fix già sviluppato e incollarlo nella propria patch. Il comportamento spiegava circa il 18% dei passaggi di Opus 4.7 e il 25% di quelli di Opus 4.6 nel campione esaminato. Il problema è stato segnalato pubblicamente come issue #93 sul repository di SWE-Bench Pro.

GPT-5.4 e GPT-5.5 non hanno mai mostrato questo comportamento. Le configurazioni Gemini si sono fermate all’1% circa. Datacurve descrive il comportamento in modo diplomatico — “Il benchmark lo rende possibile (il commit gold vive nel container), ma Claude è la famiglia che lo fa sistematicamente” — ma la conseguenza è chiara: una frazione significativa dei punteggi di Claude su SWE-Bench Pro potrebbe riflettere sfruttamento ambientale piuttosto che vera capacità ingegneristica.

DeepSWE risolve il problema fornendo solo un clone superficiale con il commit base, senza lasciare hash della soluzione che l’agente possa scoprire.

Si può discutere se sia “trucco” o “intraprendenza” — di fatto Claude è bravo a esplorare l’ambiente e sfruttare le risorse disponibili — ma in un benchmark progettato per misurare la capacità di risolvere problemi in modo indipendente, il segnale viene distorto.