AI generativa, modelli linguistici e nuove frontiere della disinformazione

Marco Dotti
5 min readAug 11, 2023

--

I modelli linguistici LLM, si legge in un recente Report del NATO Strategic Communication Center,«sono in grado di personalizzare i contenuti a individui o gruppi specifici, rendendoli strumenti ideali per indirizzare e manipolare le opinioni e le convinzioni delle persone. Di conseguenza, è sempre più importante e allo stesso tempo difficile individuare i comportamenti non autentici coordinati sui social media».

I modelli linguistici di grandi dimensioni (Large Language Models, LLM), come #GPT-4, possono creare contenuti altamente convincenti, che anche a una lettura approfondita possono apparire autorevoli e unici. Questo rende quasi impossibile distinguere tra account reali e falsi. Qual è, dunque, l’impatto dell’AI generativa sulla manipolazione e la diffusione della disinformazione nell’#infosfera? È possibile usare gli stessi strumenti, ovvero l’AI generativa, per monitorare i social media? Proprio i modelli linguistici usati, osserva un recente report del NATO Strategic Communication Center (Fredheim, R., “Virtual Manipulation Brief 2023/1: Generative AI and its Implications for Social Media Analysis”, NATO Strategic Communications Centre of Excellence, Riga, giugno 2023), possono spingere gli account a rivelare inavvertitamente la loro “natura” di chatbot.

Accade perché i modelli linguistici LLM si basano, tra le altre cose, su operazioni psicologiche, le cosiddette psyops, che, proprio perché punti nevralgici nella strategia manipolatoria, una volta conosciute possono essere dei marcatori identitari per l’identificazione dei bot.

Il modello GPT-4, se usato in modo semplicistico, può fallire in modi insoliti e rilevabili. Ad esempio, spiega il Report, quando emergono schemi prevedibili su contenuti prodotti in scala. Allo stato attuale, quando si chiede a GPT di generare un’e-mail, «l’output è tipicamente caratterizzato da saluti e firme ripetitivi, nonché da paragrafi di lunghezza simile. Questo schema è attualmente facilmente rilevabile come anomalia statistica, anche se i singoli casi possono essere difficili da individuare».

La lotta alla manipolazione sta entrando in una nuova fase, forse in una nuova era. Ma a nessuno è chiaro se, a lungo termine, saranno i difensori o gli aggressori a trarre maggiori vantaggi dai sistemi di intelligenza artificiale. È oramai fin troppo evidente, come osserva Alex Stamos, già responsabile della sicurezza di Facebook e oggi direttore dello Stanford Internet Observatory, che

«Il rapido progresso dell’AI generativa open-source sta portando a un’ondata di BS (“bullshit”) a costo quasi zero che inonda ogni canale di testo, immagine e video».

Si tratta di un vero cambio di sistema. Non dobbiamo, pertanto, sbagliare il sistema di referenza. Questo perché l’AI generativa rappresenta forse la sfida più radicale per il monitoraggio dei social mediae per i sistemi progettati per rilevare comportamenti non autentici coordinati. GPT-4 può, infatti, generare contenuti persuasivi e dall’aspetto legittimo che, a differenza degli account falsi convenzionali, alimentano post creati da modelli linguistici di alto livello e raramente presentano duplicazioni, nomi ripetitivi o discrepanze tra l’immagine del profilo e il nome, rendendo difficile per i sistemi tradizionali, che si basano sull’identificazione di contenuti duplicati o copiati, distinguere gli account autentici da quelli fake di nuova generazione.

I modelli linguistici LLM, si legge nel Report, «sono in grado di personalizzare i contenuti a individui o gruppi specifici, rendendoli strumenti ideali per indirizzare e manipolare le opinioni e le convinzioni delle persone. Di conseguenza, è sempre più importante e allo stesso tempo difficile individuare i comportamenti non autentici coordinati sui social media».

Con un’ulteriore questione che impatta su innumerevoli altre questioni: mentre OpenAI cerca di impedire l’uso improprio del suo modello, le alternative open-source eludono i filtri di moderazione dei contenuti, semplificando la produzione di massa di contenuti offensivi e dannosi. La proliferazione di numerosi modelli complica ulteriormente il rilevamento.

La serie GPT comprende versioni importanti come la 3, la 3.5-turbo e la 4, che vengono tutte continuamente perfezionate, modificando sottilmente il loro comportamento. Questo, unito al continuo afflusso di nuovi LLM, «determina un ambiente in cui i sistemi di rilevamento sono spesso obsoleti o ottimizzati per un modello obsoleto. Non c’è da stupirsi che stia emergendo un consenso sul fatto che rilevare in modo affidabile il testo generato da LLM possa essere impossibile».

Nella primavera scorsa, gli analisti hanno registrato un numero elevatissimo account falsi che copiavano l’output di GPT cercando messaggi che includevano frasi come “Come modello linguistico dell’IA” o “viola la politica dei contenuti di OpenAI”. Gli utenti dei social media hanno condiviso esempi di recensioni su Amazon che iniziano con “Sì, in quanto modello linguistico dell’AI, posso sicuramente scrivere una recensione positiva di un prodotto su …”. I manipolatori che, prosegue il Report, «sperano di collegare gli LLM direttamente agli account dei social media devono impedire che tali contenuti vengano pubblicati accidentalmente. Si tratta di un problema gestibile, ma la realtà dell’uso di sistemi di intelligenza artificiale generativa significa che non è un problema banale da superare».

Gli attuali LLM sono quindi sorprendentemente incapaci di generare numeri casuali. Un ricercatore ha così chiesto ripetutamente a GPT di »scegliere numeri casuali tra uno e cento. Nel 10% dei casi il modello ha restituito il numero 42. Questa straordinaria distribuzione offre l’opportunità di scoprire i falsi utilizzando tecniche statistiche».

Esiste un chiaro potenziale per chiunque abbia l’obiettivo di individuare bot sospetti: i ricercatori possono tentare di ingannare i chatbot alimentati da GPT e programmati per interagire con utenti reali, in modo che rivelino i loro obiettivi e i punti di vista che sono programmati per esprimere. Attualmente, conclude però il Report, «non esistono contromisure efficaci contro la #promptinjection, che può prendere il controllo di account di social media gestiti dall’intelligenza artificiale, portando a contenuti imbarazzanti o inappropriati. Ad esempio, gli utenti di Twitter hanno manipolato un tweet bot gestito dall’intelligenza artificiale, dedicato a lavori a distanza e alimentato da GPT-3 di OpenAI, attraverso un attacco di prompt injection. Hanno reindirizzato il bot a pubblicare tweet assurdi e compromettenti, nonché le sue istruzioni operative. Una volta diventato virale e dopo che centinaia di persone lo hanno provato in prima persona, il bot è stato costretto a chiudere.

Gli attori organizzati della disinformazione, i truffatori e i fornitori di notizie false saranno probabilmente entusiasti delle possibilità offerte da ChatGPT, ma si renderanno conto che ci sono molte ragioni per cui non possono usare questi sistemi come parte delle loro operazioni principali. OpenAI mantiene un sistema centralizzato, in cui tutte le interazioni sono registrate e archiviate sotto la giurisdizione degli Stati Uniti».

Questo solo fatto potrebbe diventare, sul medio periodo, uno strumento in più per trovare e recuperare prove giuridicamente rilevanti per un uso improprio e sistematico dei sistemi di AI.

--

--

Marco Dotti

Propaganda ends when dialogue begins: research on #ethics #art #communication at @unipv