Il workflow che uso per scrivere articoli con 4 AI in loop fino al consenso

Pubblicato il 07/05/2026

Un sistema di verifica

Ho definito un workflow manuale basato su quattro LLM che lavorano in sequenza e in parallelo: Qwen Chat, DeepSeek Chat, Gemini Reasoning Chat e Claude Chat. Non è automazione totale — la revisione finale resta mia — ma è un sistema che mi aiuta a ridurre gli errori fattuali prima della pubblicazione.

Il punto di partenza è pratico: per il mio utilizzo, Qwen Chat e DeepSeek Chat offrono un margine di utilizzo ampio, senza i limiti stringenti che incontro con altri strumenti. Questo permette di farli lavorare intensivamente senza interruzioni.

Prima di iniziare: cosa serve (e cosa no)

Per replicare questo approccio non servono API, codice o automazione complessa. Uso le interfacce chat web dei quattro modelli, con copia-incolla manuale tra una fase e l'altra. Sembra macchinoso, ma è un vantaggio, soprattutto in fase di validazione del processo: mi costringe a leggere ogni passaggio, a mantenere il controllo, a non delegare ciecamente.

Gli strumenti:

Qwen Chat: modello principale, gestisce bene contesti lunghi e struttura i contenuti in modo coerente
DeepSeek Chat: è analitico come Qwen, effettua ricerche approfondite, risulta abbastanza oggettivo nelle valutazioni
Gemini Reasoning Chat: ottimo per iniziare una ricerca strutturata, tende a essere meno critico nelle rivalutazioni
Claude Chat: particolarmente attento nel segnalare generalizzazioni indebite e sfumature critiche

L'architettura del workflow, passo dopo passo

Il processo è iterativo. Non è lineare, ma ciclico: ricerca, scrittura, critica, revisione, fino a quando non emerge un consenso sull'assenza di errori macroscopici.

Fase 1: Ricerca distribuita. Pongo la stessa domanda di ricerca a Qwen, DeepSeek, Gemini Reasoning e Claude. Ognuno esplora il tema da prospettive diverse, recupera dati differenti, evidenzia aspetti che gli altri potrebbero trascurare.
Fase 2: Aggregazione in Qwen. Prendo tutti i risultati delle ricerche e li inserisco come contesto in Qwen, che funge da modello principale. Qwen processa il materiale, identifica sovrapposizioni, contraddizioni e lacune.
Fase 3: Prima bozza. Chiedo a Qwen di scrivere la prima bozza dell'articolo basandosi sui dati aggregati. La bozza include già citazioni, numeri e riferimenti emersi dalla ricerca multipla.
Fase 4: Analisi critica incrociata. Invio la bozza a DeepSeek, Gemini Reasoning e Claude con un prompt specifico: "Analizza questo articolo cercando errori fattuali, interpretazioni discutibili, dati non supportati da fonti, generalizzazioni eccessive."
Fase 5: Iterazione sulle critiche. Le critiche delle tre AI tornano a Qwen, che le analizza, aggiorna l'articolo, corregge errori, rimuove affermazioni non supportate, aggiunge sfumature dove necessario.
Fase 6: Nuova valutazione. La versione aggiornata dell'articolo viene rinviata alle tre AI per una seconda valutazione. Il ciclo continua finché DeepSeek, Gemini Reasoning e Claude non concordano che l'articolo non contiene errori macroscopici.
Fase 7: Revisione umana. A questo punto intervengo io. Rileggo l'intero articolo, ricontrollo personalmente i dati più importanti o chiedo alle AI di fare ricerche mirate che portino alle fonti originali. Se vedo dati male interpretati, li rimuovo o modifico.

Solo dopo questo processo pubblico l'articolo.

Perché usare modelli diversi (nella mia esperienza)

Non è un esercizio di complessità fine a sé stesso. Nella mia esperienza d'uso, modelli diversi mostrano tendenze diverse — non leggi immutabili, ma pattern ricorrenti che diventano utili se orchestrati.

Quando tutti e quattro convergono su un'affermazione, la mia fiducia in quell'affermazione aumenta. Quando divergono, è lì che serve attenzione — o verifica umana diretta sulle fonti.

I limiti del metodo, con onestà

Ci sono due limiti da tenere presenti.

Il primo è che le AI possono allucinare fonti. Anche chiedendo esplicitamente citazioni e link, i modelli a volte generano riferimenti che non esistono o interpretano male dati complessi. Per questo la fase 7 — la verifica umana sulle fonti primarie — non è opzionale, ma essenziale.

Il secondo limite è il consenso illusorio: se tutti i modelli condividono lo stesso bias di addestramento o la stessa lacuna informativa, possono concordare su un errore. È raro, ma succede. Per mitigare il rischio, nei temi più delicati faccio ricerche mirate chiedendo esplicitamente "portami alla fonte originale" e verifico personalmente.

Infine, una nota sulla misurazione: non ho dati quantitativi rigorosi su quanti errori questo metodo abbia catturato rispetto a un workflow tradizionale. Posso dire, per osservazione diretta, che il loop ha segnalato imprecisioni che altrimenti avrei pubblicato. Ma non è una scienza esatta, è una pratica in evoluzione.

Quando ha senso (e quando no)

Questo approccio funziona bene per contenuti analitici che richiedono accuratezza fattuale: articoli geopolitici dove dati demografici, economici e storici vanno incrociati; analisi di trend tecnologici dove è facile confondere annunci di marketing con dati reali; temi scientifici complessi dove le sfumature contano.

Ha meno senso per contenuti opinionistici puri, dove l'accuratezza fattuale è meno centrale; per notizie urgenti che richiedono pubblicazione in minuti; o per testi creativi, dove la verifica fattuale non è l'obiettivo primario ed è infatti un ambito in cui non mi cimento.

Tempo richiesto: cosa significa davvero

Scrivere un articolo ben documentato, con decine di fonti incrociate, è un lavoro immenso. In una redazione giornalistica ci sarebbe un team di fact-checker, un redattore, tempo e risorse. Io sono da solo e ho poco tempo. La comparazione reale non è tra "articolo scritto in 1 giorno senza AI" e "articolo scritto in 2 ore con AI". Per me, la scelta vera è tra scrivere l'articolo — con l'aiuto sistematico di più modelli che si controllano a vicenda — e non scriverlo affatto.

Ovviamente, questo metodo funziona solo se lavoro su argomenti su cui ho già una competenza sufficiente a valutare i dati e le conseguenze. Non mi addentro in territori che non conosco senza prima studiarli per mesi. Le AI non sostituiscono la mia conoscenza di base: la potenziano, rendendo possibile ciò che altrimenti richiederebbe una redazione e costi e tempi che non mi potrei mai permettere.

In sintesi

Non è un sistema perfetto, richiede tempo, disciplina e la consapevolezza che nessun modello, da solo o in gruppo, è infallibile. Ma è un approccio pragmatico che riconosce i limiti delle AI e li usa comunque in modo sistematico per migliorare l'accuratezza.

La chiave non è l'automazione totale, è l'intelligenza distribuita: quattro modelli che si controllano a vicenda, più un umano che mantiene il controllo finale sulle fonti. Se scrivi contenuti analitici e vuoi accuratezza, ma non puoi permetterti le risorse di un giornale, vale la pena testare un workflow simile. Non serve infrastruttura complessa, servono solo quattro browser tab aperti e la disciplina di iterare finché il consenso non emerge.

Contattami

Hai un'idea e vuoi capire se può funzionare? Vuoi parlare di tecnologia? Vuoi organizzare un talk?

Contattami