Un'infrastruttura di memoria per AI che promette continuità, senza magie

Pubblicato il 14/05/2026

Il repository GitHub di Supermemory è attivo da aprile 2024. Nell'ottobre 2025 è stato annunciato un seed round che ha raccolto circa 3 milioni di dollari, con la partecipazione di figure come Jeff Dean (Google) e Logan Kilpatrick (DeepMind). Il fondatore è Dhravya Shah, diciannovenne al momento dell'annuncio, originario di Mumbai, con un background in AI infrastructure e un'esperienza in Cloudflare. Un profilo biografico lo indica come ex AI engineer presso Mem0, sebbene questa informazione non sia stata confermata indipendentemente da fonti multiple.

Il progetto ha raccolto oltre 18.000 stelle su GitHub. Vale la pena capire cosa fa, perché affronta un problema concreto: i grandi modelli linguistici dimenticano tutto tra una conversazione e l'altra.

Il problema che Supermemory prova a risolvere

Un LLM classico è stateless: ogni richiesta parte da zero. Anche con finestre di contesto ampie, il modello non conserva memoria tra sessioni diverse. L'utente deve ripetere preferenze, contesto, progetti in corso.

Il RAG tradizionale ha provato a mitigare il problema recuperando documenti da un database vettoriale. Ma il RAG classico cerca per similarità semantica, non gestisce relazioni temporali, non distingue tra fatti stabili e informazioni obsolete, non risolve contraddizioni.

Supermemory si posiziona come un layer intermedio: non un vector database, non RAG puro, ma un sistema che estrae fatti dalle conversazioni, li organizza, gestisce aggiornamenti nel tempo e rimuove automaticamente informazioni scadute.

Come è costruito, secondo la documentazione pubblica

Supermemory descrive la propria architettura come un "five-layer context stack". La struttura che segue ricalca questa terminologia ufficiale, integrata con dettagli tecnici tratti dalla documentazione pubblica.

Il sistema integra connettori per sorgenti eterogenee: Google Drive, Gmail, Notion, Slack, GitHub, S3. La sincronizzazione avviene tramite webhook per aggiornamenti in tempo reale.

I contenuti vengono processati con strategie differenziate: OCR per immagini, trascrizione per audio e video, chunking AST-aware per il codice tramite la libreria code-chunk per preservare l'integrità logica di funzioni e classi, pulizia semantica per pagine web.

I dati estratti vengono trasformati in embedding vettoriali e arricchiti con relazioni esplicite in un knowledge graph. Il sistema distingue tra aggiornamenti che sostituiscono informazioni precedenti (updates), arricchimenti che le espandono (extends), e inferenze derivate da pattern multipli (derives).

Le memorie sono indicizzate sia in un database vettoriale che nel grafo, consentendo ricerche ibride. Secondo i dati dichiarati dal vendor, il retrieval per i profili utente avviene in circa 50 millisecondi, mentre il retrieval generico rimane sotto i 300 millisecondi. Queste metriche non sono state verificate indipendentemente.

Alla query dell'utente, il motore combina ricerca vettoriale, keyword BM25 e reranking contestuale. Il supporto per il Model Context Protocol permette di condividere la stessa memoria tra client compatibili come Claude Desktop, Cursor e Windsurf. L'implementazione "meta-MCP" genera un URL univoco per utente che funge da endpoint personale, semplificando l'integrazione senza configurazioni OAuth ripetute.

Casi d'uso documentati

Scira AI. Questo progetto open-source, alternativa a Perplexity per ricerche strutturate, ha migrato da Mem0 a Supermemory. Secondo un case study pubblicato sul blog di Supermemory, il passaggio ha portato a una riduzione della latenza, un aumento dell'utilizzo del 32% e l'acquisizione di dieci clienti premium attratti dalla feature di memoria. La fonte è il vendor stesso; non esistono report indipendenti con gli stessi dati.

Montra e Cluely. Entrambi sono citati come clienti nella copertura mediatica del lancio. Montra è un editor video AI, Cluely un assistente desktop backed da a16z. Non sono pubblici workflow dettagliati o metriche operative; la loro presenza indica adozione, non fornisce prova di efficacia specifica.

Benchmark: cosa dichiarano, cosa manca

Supermemory dichiara il primo posto su LongMemEval, LoCoMo e ConvoMem. Tuttavia, questi benchmark sono auto-dichiarati e non peer-reviewed in modo indipendente. Competitori recenti come Hindsight e Mastra OM riportano punteggi superiori su LongMemEval in configurazioni single-pass retrieval.

Il progetto ha inoltre creato MemoryBench, un framework open-source per valutare sistemi di memoria conversazionale. È uno strumento utile per la comunità, ma i risultati pubblicati finora provengono principalmente dal team di Supermemory stesso.

Limiti che vale la pena considerare

Il core del motore di memoria è proprietario e cloud-hosted. Plugin e client sono open-source, ma il sistema di retrieval e gestione del grafo non è ispezionabile pubblicamente. Il self-hosting richiede un accordo Enterprise non disponibile al pubblico.

Il prodotto è relativamente recente rispetto ad alternative come Zep o Letta. La consumer app è in early access, con bug noti segnalati dagli utenti.

I benchmark sono dichiarati dal vendor. Per team con requisiti di validazione indipendente o settori regolamentati, questa mancanza di trasparenza può essere un ostacolo.

In sintesi

Supermemory affronta un problema reale con un'architettura che combina grafo semantico, retrieval ibrido e profili utente automatici. I casi d'uso più solidi, come Scira AI, suggeriscono che per alcuni scenari funziona. I limiti — core closed-source, benchmark auto-dichiarati, giovinezza del prodotto — sono significativi per chi valuta adozione in contesti critici.

Non è una soluzione magica. È un framework con un'idea tecnica interessante, costruito da un team giovane con backing serio. Vale la pena monitorarlo se la continuità del contesto è prioritaria per il tuo use case.

Contattami

Hai un'idea e vuoi capire se può funzionare? Vuoi parlare di tecnologia? Vuoi organizzare un talk?

Contattami