AgentTrove è un dataset open-source con 1,7 milioni di tracce di interazioni tra agenti AI. Ogni traccia contiene una sequenza di turni tra utente, assistente, sistema e tool, spesso in formato JSON. Viene ospitato su Hugging Face e può essere scaricato in streaming senza occupare spazio locale.

Come si estrae un comando shell da una traccia AgentTrove?

Si usa una funzione che pulisce i fence di codice markdown, carica il contenuto dell'assistente come JSON e cerca ricorsivamente campi come 'commands', 'command', 'keystrokes' o 'action'. I valori trovati vengono restituiti come lista di stringhe. La funzione gestisce JSON nidificati e array.

Come si converte AgentTrove in formato ShareGPT per SFT?

Si filtrano le tracce con risultato positivo, si normalizzano i turni e si mappano solo i ruoli system, user e assistant. Ogni conversazione viene salvata come oggetto JSON con un array 'conversations' contenente dict con 'role' e 'content'. Il file risultante in formato JSONL può essere usato per il fine-tuning supervisionato.

AgentTrove: streaming 1.7M tracce agentiche e dataset SFT con Python

AgentTrove è una delle più grandi raccolte open-source di tracce di interazioni tra agenti. Il dataset contiene 1,7 milioni di conversazioni tra utente, assistente, sistema e strumenti. Con Python puoi lavorarci senza scaricare l’intero archivio locale, usando lo streaming.

Il primo passo è installare le librerie necessarie: datasets>=2.19, pandas, matplotlib, pyarrow e huggingface_hub. Poi si carica il dataset in streaming specificando il repository open-thoughts/AgentTrove.

from datasets import load_dataset
REPO = "open-thoughts/AgentTrove"
ds = load_dataset(REPO, split="train", streaming=True)

Una volta aperto lo stream, si ispeziona la prima riga per capire la struttura delle colonne. AgentTrove contiene campi come conversations o messages che ospitano la traccia. Per gestire schemi diversi, una funzione di normalizzazione mappa ogni turno in una coppia (ruolo, contenuto) uniforme.

I messaggi dell’assistente spesso contengono comandi shell in formato JSON. Una utility di parsing rimuove i fence di codice, carica il JSON e cerca ricorsivamente campi come commands, command o action. Questo permette di capire quante azioni eseguibili compaiono nelle tracce.

Per visualizzare una traccia completa, una funzione stampa metadati (fonte, modello, risultato) e ogni turno con etichetta chiara. I messaggi lunghi vengono troncati a 600 caratteri. Sotto ogni risposta dell’assistente vengono elencati i comandi estratti.

Con uno script di analisi si campionano 2000 righe dalla modalità streaming. Per ogni traccia si calcolano: numero di turni, conteggio per ruolo, lunghezza totale in caratteri e comandi parsati. I dati finiscono in un DataFrame di pandas per riepiloghi veloci.

Le distribuzioni per original_source, original_teacher, model e result aiutano a capire la provenienza delle tracce. I grafici mostrano le prime 10 fonti, i modelli insegnante più usati, la distribuzione del numero di turni per traiettoria (con taglio al 97° percentile) e uno scatter plot tra turni totali e comandi rilevati.

Per esportare un dataset pulito per supervised fine-tuning, si filtrano solo le tracce con risultato positivo e si convertono in formato ShareGPT JSONL. Ogni riga contiene la conversazione con i campi system, user e assistant.

success = df[df["result"] == "success"]
sharegpt = []
for _, row in success.iterrows():
    trace = row["trace"]
    conversations = []
    for role, content in normalize_turns(trace):
        if role in ("user", "assistant", "system"):
            conversations.append({"role": role, "content": content})
    sharegpt.append({"conversations": conversations})

with open("agenttrove_clean.jsonl", "w") as f:
    for entry in sharegpt:
        f.write(json.dumps(entry) + "\n")

Il workflow completo pesa pochi megabyte in RAM e si adatta a qualsiasi macchina. I dataset generati possono essere usati direttamente per addestrare modelli di linguaggio con tecniche SFT.

Come usare AgentTrove: streaming di 1.7 milioni di tracce agentiche e creazione di un dataset ShareGPT per SFT in Python

NVIDIA Dynamo Snapshot: startup rapido per carichi di lavoro AI inference su Kubernetes

NVIDIA Presenta SpatialClaw: Il Ragionamento Spaziale senza Training per i VLM

AWS entra nella gara della context layer: un knowledge graph che impara dagli agenti, non dalla curation manuale

Moonshot AI rilascia Kimi Code CLI: agente AI open source per il terminale

Due facce dell’AI: hack semplici su Instagram e l’effetto dei chatbot sul cervello

Cisco AI presenta FAPO: ottimizzazione automatica delle pipeline LLM con attribuzione dei fallimenti

Articoli simili