Delta-mem: memoria efficiente per AI con uno 0,12% di parametri in più
Gli agenti AI dimenticano. Un assistente di codifica perde il filo del debug, un agente di analisi dati reingesta lo stesso contesto: ogni volta il team paga in latenza, costi token e flussi di lavoro fragili. Le soluzioni più comuni – finestre di contesto più ampie o RAG – diventano costose e inaffidabili.
Ricercatori di Mind Lab e diverse università propongono delta-mem, una tecnica che comprime la cronologia del modello in una matrice aggiornabile dinamicamente, senza modificare il modello stesso. Il modulo aggiunge solo lo 0,12% dei parametri del modello di base – contro il 76,40% di un’alternativa leader – e la supera nei benchmark di memoria.
Il problema della memoria a lungo termine
La soluzione tradizionale è riversare tutte le informazioni nella finestra di contesto. Ma, come ha spiegato Jingdi Lei, coautore dello studio, a VentureBeat, i sistemi attuali trattano la memoria solo come un problema di gestione del contesto. “O si espande la finestra, o si recuperano più documenti con RAG. Questi approcci sono utili, ma diventano costosi e fragili quando gli agenti devono operare su interazioni lunghe e multi-step, e non funzionano come la memoria umana: sono più simili a cercare documenti.”
Nelle aziende, il collo di bottiglia non è solo l’accesso alla cronologia, ma la capacità di riutilizzarla in modo efficiente, continuo e a bassa latenza. I meccanismi di attenzione standard hanno un costo computazionale quadratico all’aumentare della sequenza. Inoltre, una finestra più ampia non garantisce che il modello ricordi le informazioni: si verifica spesso un degrado del contesto, anche con milioni di token teorici.
I ricercatori propongono meccanismi di memoria avanzati, che compattano le informazioni storiche in modo dinamico. I paradigmi esistenti – memoria testuale, canali esterni (RAG) e parametrica – hanno tutti pesanti compromessi.
Come funziona delta-mem
Delta-mem comprime le interazioni passate in uno “stato di memoria associativa online” (OSAM), una matrice a dimensione fissa che preserva le informazioni storiche mentre il modello linguistico sottostante rimane congelato. Per i flussi di lavoro aziendali, questo risolve colli di bottiglia operativi: un assistente di codifica persistente può ricordare convenzioni di progetto, passaggi di debug e preferenze utente; un agente di analisi dati può mantenere stato e osservazioni tra chiamate multiple.
Durante la generazione, il sistema non recupera testo da aggiungere al prompt. Proietta lo stato nascosto corrente dell’LLM nella matrice per recuperare memoria vecchia, estraendo segnali associativi che si trasformano in correzioni numeriche applicate ai calcoli del modello. Così si guida il ragionamento all’inferenza senza alterare i parametri interni.
Dopo ogni interazione, delta-mem aggiorna lo stato online con un “delta-rule learning”. Quando arriva nuova informazione, lo stato precedente predice i valori di attenzione risultanti, li confronta con il valore reale e corregge la matrice in base alla discrepanza. Questo meccanismo – con dimenticanza controllata tramite un “gated delta-rule” – permette alla matrice di evolversi, trattenendo associazioni stabili senza essere disturbata da rumore a breve termine.
I ricercatori hanno esplorato tre strategie di aggiornamento: scrittura a livello di token (cattura cambiamenti fini, ma vulnerabile al rumore), scrittura a livello di sequenza (media i token in un segmento, smussando gli aggiornamenti) e scrittura multi-stato (decompone la memoria in sotto-stati per diversi tipi di informazione).
Prestazioni e efficienza
Delta-mem è stato valutato su tre LLM (Qwen3-8B, Qwen3-4B-Instruct, SmolLM3-3B) con una matrice 8×8, testato su benchmark generali (HotpotQA, GPQA-Diamond, IFEval) e su compiti di memoria pesante (LoCoMo e Memory Agent Bench). Ha superato i basamenti dei tre paradigmi esistenti (testuali, parametrici, canale esterno).
Con il backbone Qwen3-4B-Instruct, la variante token-state write ha ottenuto un punteggio medio del 51,66%, superando il backbone congelato (46,79%) e il miglior basamento Context2LoRA (44,90%). Su Memory Agent Bench, il punteggio medio è passato dal 29,54% al 38,85%; nel subtask di test-time learning è quasi raddoppiato (da 26,14 a 50,50).
Ma i dati più interessanti riguardano l’efficienza operativa. In un ambiente senza contesto (testo storico rimosso), delta-mem ha recuperato con successo prove rilevanti in compiti multi-hop. Aggiunge solo 4,87 milioni di parametri addestrabili (0,12% del backbone Qwen3-4B-Instruct), contro i 3 miliardi di parametri (76,40%) di MLP Memory, che ha prestazioni inferiori.
Con prompt fino a 32.000 token, l’impronta di memoria GPU è rimasta quasi identica a quella di un modello standard, evitando il gonfiamento di memoria di sistemi come MemGen e MLP Memory. La strategia di scrittura ottimale variava: per modelli più grandi come Qwen3-8B, la scrittura per sequenza era migliore; per altri, quella multi-stato.
