Alibaba Qwen3.7-Max: 35 ore autonome, prezzo e benchmark

L’industria dell’AI è entrata nell’era degli agenti: i modelli non si limitano più a generare testo, ma pianificano, eseguono e correggono il tiro su compiti complessi che durano giorni, non secondi. In questo contesto arriva Qwen3.7-Max, l’ultimo modello del team Qwen di Alibaba, capace di operare in autonomia per circa 35 ore consecutive.

A differenza delle versioni precedenti, Qwen3.7-Max è un modello proprietario, accessibile solo via API. Una scelta che segna un cambio di rotta per Alibaba, che in passato aveva rilasciato molti modelli open source. La ragione è chiara: addestrare modelli di questo livello costa cifre enormi e regalarli non aiuta a recuperare l’investimento. In questo senso Alibaba segue la strada già tracciata da OpenAI e Google.

Il punto di forza del modello è la capacità di mantenere un ragionamento coerente per migliaia di turni di conversazione, un punto debole tipico dei modelli linguistici tradizionali, che tendono a degradarsi, dimenticare istruzioni o cadere in loop logici.

35 ore di lavoro autonomo: il test

Per dimostrare le capacità del modello, il team Qwen ha eseguito un test concreto. Al modello è stato dato accesso a un server isolato con una architettura hardware mai incontrata durante l’addestramento (un T-Head ZW-M890 PPU). Il compito: ottimizzare un kernel di attenzione.

In 35 ore di funzionamento autonomo, Qwen3.7-Max ha eseguito 1.158 chiamate a strumenti, 432 valutazioni del kernel, diagnosticato errori di compilazione e migliorato il codice in modo iterativo, ottenendo un incremento delle prestazioni di 10x. Per confronto, modelli concorrenti cinesi come GLM-5.1 (z.ai) e Kimi K2.6 (Moonshot) si sono fermati rispettivamente a 7,3x e 5,0x, interrompendo spesso la sessione per mancanza di progressi. Entrambi sono però disponibili in open source.

Questa resistenza è resa possibile dal cosiddetto “environment scaling”: il modello è stato addestrato su un vasto set di ambienti dinamici simulati, compreso un intero ciclo di vita di una startup in un anno simulato, con centinaia di round decisionali che includono gestione del personale e screening di contratti. In quella simulazione, Qwen3.7-Max ha generato 2,08 milioni di dollari di fatturato virtuale, quasi il doppio della versione precedente.

Compatibilità con strumenti esistenti

Qwen3.7-Max è pensato come motore cognitivo per sviluppo software e automazione aziendale. Offre una finestra di contesto da 1 milione di token e un limite massimo di output di 64.000 token. Supporta nativamente il protocollo API di Anthropic, permettendo di integrarlo direttamente in strumenti come Claude Code o OpenClaw.

Nei benchmark, il modello ha superato Claude Opus-4.6 Max (44,5 vs 34,5) e DeepSeek V4-Pro Max (38,3) nel test Apex Math Reasoning. Si è distinto anche in Humanity’s Last Exam (41,4) e nel benchmark per agenti di coding MCP-Atlas (76,4).

Prezzi e posizionamento

L’accesso via Alibaba Cloud Model Studio costa 2,50 $ per milione di token in input e 7,50 $ per milione di token in output. La ricerca web integrata costa 10 $ per 1.000 chiamate, mentre gli strumenti di code interpreter sono gratuiti per un periodo limitato.

Il prezzo colloca Qwen3.7-Max in una posizione intermedia: costa circa il doppio di DeepSeek V4 Pro (5,22 $) e GLM-5.1 (5,80 $), ma è nettamente inferiore ai rivali occidentali: GPT-5.4 costa 17,50 $ e Claude Opus 4.7 arriva a 30 $ per milione di token. Una strategia chiara per attrarre carichi di lavoro enterprise lontani da Silicon Valley.

La licenza rimane proprietaria e il modello è accessibile solo via API da endpoint cinesi, il che può limitare l’attrattiva per aziende americane ed europee con esigenze stringenti di conformità e sovranità dei dati.

Alibaba presenta Qwen3.7-Max: il modello AI che lavora in autonomia per oltre un giorno

35 ore di lavoro autonomo: il test

Compatibilità con strumenti esistenti

Prezzi e posizionamento

Attenzione: arriva una vera email da Microsoft… ma è una truffa

Merck e Mastercard ottengono risultati reali con l’AI agentica. Entrambe dicono: prima arriva l’infrastruttura

Sicurezza dell’AI: perché massimizzare i benchmark non è sufficiente

Milioni di persone installano malware sul telefono del partner: intervista a Zack Whittaker

Fotografia da top di gamma senza spendere una fortuna? Ecco il vivo V70

Patch Tuesday di maggio 2026: Microsoft, Google, Apple e Oracle correggono a valanga

35 ore di lavoro autonomo: il test

Compatibilità con strumenti esistenti

Prezzi e posizionamento

Articoli simili