DataHub Context Intelligence: query log per AI agent

Quando il team dati di Miro ha puntato agenti AI direttamente sul proprio ambiente Snowflake, gli agenti sbagliavano più del 65% delle volte. Il problema non era il modello — era il contesto. Con oltre 10.000 tabelle e nessun layer semantico per guidare il routing, gli agenti non avevano modo di sapere quali asset di dati corrispondessero a quali domande di business.

DataHub sta rilasciando un layer di context intelligence che scava nella cronologia delle query SQL per costruire un indice semantico — e lo espone agli agenti tramite MCP, LangChain, Google Agent Development Kit e CrewAI. La società lo chiama Context Intelligence, ed è costruito sulla stessa infrastruttura di log delle query usata da DataHub per il lineage tracking in deployment produttivi globali.

L’azienda è stata fondata dal team che ha creato DataHub come progetto open source su LinkedIn, dove il co-fondatore e CTO Shirshanka Das ha guidato l’infrastruttura dati per quasi 11 anni. Il progetto open source ha ora oltre 15.000 contributori e 3.000 deployment produttivi in tutto il mondo.

“Per la prima volta, le aziende possono trasformare anni di cronologia di query degli analisti in una base di conoscenza viva e interrogabile, dove gli agenti smettono di allucinare join perché hanno accesso ai join che hanno funzionato in passato, validati dalle persone che li hanno eseguiti”, ha detto Das a VentureBeat.

DataHub è nato come progetto di metadata management su LinkedIn, pensato per risolvere due problemi contemporaneamente: rendere i dati facili da trovare e da usare, assicurandosi che fossero usati per le ragioni giuste. Das lo ha rilasciato come open source all’inizio del 2020 dopo quasi sei anni di sviluppo interno. Il caso d’uso principale è stato il lineage — capire come i dati fluiscono dai sistemi operativi attraverso lo streaming fino ai warehouse e agli strumenti di business.

Postgres è la sorgente più connessa nella base di deployment di DataHub, seguita da MySQL, Oracle e i principali cloud warehouse come Snowflake e Google BigQuery. La piattaforma supporta oltre 100 sorgenti di metadati. Questa base installata è importante per quello che DataHub sta rilasciando: l’estrazione dei log delle query e le capacità di parsing SQL che alimentano Context Intelligence sono state sviluppate in anni di deployment produttivo, non costruite per questo lancio.

Context Intelligence è un nuovo layer di capacità costruito sulla base open source esistente di DataHub. La piattaforma ha passato anni a estrarre e analizzare i log delle query dai warehouse connessi per il lineage. La stessa infrastruttura alimenta Context Intelligence per costruire l’indice semantico.

Il sistema filtra i log delle query per il rumore, selezionando quelle che Das chiama “golden queries” — query di alta qualità degli analisti e pipeline programmate che rappresentano logica di business provata. L’engine estrae i pattern da quelle query e li traduce in definizioni testuali strutturate chiamate anchor semantiche, che formano la base di retrieval su cui gli agenti attingono prima di generare SQL. “Potete quasi pensarlo come invertire il testo in SQL”, ha detto Das.

Context Hub permette agli esperti di dominio di revisionare il contesto proposto dall’AI, risolvere definizioni contrastanti e simulare l’impatto delle modifiche prima di pubblicarle. DataHub segnala i casi in cui team diversi calcolano la stessa metrica in modo differente e li sottopone a risoluzione umana.

Miro, la piattaforma di collaborazione digitale, usava già DataHub per il lineage quando ha iniziato a testare agenti analitici su Snowflake. Inviare query in linguaggio naturale direttamente al MCP di Snowflake produceva risposte errate più del 65% delle volte. Esporre oltre 10.000 tabelle direttamente agli agenti causava troppa confusione per un routing affidabile. Miro ha risolto organizzando i dati in data product ben definiti che limitano ciò che gli agenti possono vedere, invece di esporre lo schema grezzo.

Vendor come Pinecone, Oracle e Redis hanno capacità di memoria contestuale. Microsoft ha costruito Fabric IQ come layer semantico. DataHub si posiziona come layer contestuale neutrale rispetto alla piattaforma, che provisiona contesto in endpoint esistenti come Snowflake semantic views e Microsoft Fabric IQ senza sostituirli. “Spesso le persone vogliono essere neutrali rispetto alla piattaforma per il loro layer di contesto”, ha detto Das.

Secondo Kevin Petrie, analista di BARC, la capacità di DataHub di integrare metadati diversi per oggetti sia strutturati che non strutturati, inclusi documenti e immagini, li differenzia sul mercato. Michael Ni, VP e principal analyst di Constellation Research, vede il supporto al passaggio da catalogazione passiva a intelligenza semantica continuamente aggiornata come il vero valore, e descrive la competizione per il contesto come la prossima grande guerra di piattaforma.