Una nuova ricerca mostra come l’IA nelle raccomandazioni online possa essere manipolata
I motori di raccomandazione sono utilizzati da siti e applicazioni su internet per spingere le persone ad acquistare più prodotti o a consumare più contenuti. Le scelte che presentano possono influenzare gli utenti, sia rafforzando le preferenze esistenti che introducendo nuovi elementi nella speranza di un maggiore coinvolgimento.
Per testare l’integrità di questi sistemi, abbiamo esaminato come i meccanismi di raccomandazione potrebbero essere manipolati da un attaccante. La nostra ricerca ha tentato di avvelenare i modelli di filtraggio collaborativo utilizzati da molti siti e applicazioni per le raccomandazioni, utilizzando tecniche che potrebbero essere utilizzate per far apparire un pezzo di contenuto in una posizione più alta nella timeline dei social media o nei risultati di ricerca di una persona, agganciandosi ad un altro pezzo di contenuto.
Gli attacchi simulati hanno effettivamente aumentato le possibilità che un utente fosse raccomandato ad un altro utente specifico, sulla base dell’attività di retweet. Anche un numero molto piccolo di retweet era sufficiente a manipolare l’algoritmo di raccomandazione per promuovere gli account il cui contenuto è stato condiviso attraverso i retweet iniettati. Abbiamo scoperto che questi attacchi potrebbero rappresentare meccanismi efficaci per diffondere la disinformazione, o per far crescere anelli di follow-back che coordinano la loro attività al fine di promuovere contenuti specifici.
I nostri risultati suggeriscono anche che i modelli di intelligenza artificiale probabilmente utilizzati da tutte le piattaforme di social media per aumentare l’engagement del sito sono già manipolati da utenti motivati. E queste piattaforme sono vulnerabili a uno sfruttamento molto maggiore da parte di avversari che potrebbero adottare un approccio più sperimentale per testare i modi migliori in cui influenzare l’intelligenza artificiale in questi meccanismi.
I pericoli della disinformazione
YouTube, Facebook, TikTok e Twitter giocano un ruolo fondamentale nell’influenzare il pubblico e modellare l’opinione pubblica. Questi siti possono già essere manipolati in vari modi, che includono:
- servizi che vendono retweet, like, visualizzazioni, sottoscrizioni, ecc.
- gruppi organizzati, come le fabbriche di troll
- gruppi segreti ad hoc che usano attività coordinate per influenzare il discorso politico o diffondere disinformazione
Molti avversari trattano i social media come un gioco di guerra dell’informazione, escogitando continuamente modi per amplificare e diffondere contenuti, spesso raggiungendo l’amplificazione attraverso azioni coordinate eseguite da account falsi. Per fare questo in modo più efficace, spesso aggirano i sistemi progettati per prevenire la manipolazione, la pubblicazione di disinformazione e altre azioni che sono vietate dai termini di servizio di quella piattaforma.
Miliardi di persone in tutto il mondo ottengono le loro notizie dai social media. E la capacità di accelerare la diffusione della disinformazione è particolarmente preoccupante, dato che le falsità sembrano possedere una viralità intrinseca. Uno studio del 2018 pubblicato su Science ha dimostrato che le falsità hanno il 70% di probabilità in più di essere ritwittate su Twitter rispetto alla verità. Uno studio più recente ha rilevato che la disinformazione sul Covid-19 si è diffusa più velocemente della verità. Questo fenomeno potrebbe essere incoraggiato da raccomandazioni che alimentano gli sforzi di gruppi intenti a diffondere volutamente cattive informazioni. Questi esperimenti illustrano la difficoltà di differenziare tra ciò che è la manipolazione intenzionale dei meccanismi di raccomandazione e ciò che è diventato pratica standard degli utenti su queste piattaforme.
Indipendentemente da ciò, questi risultati forniscono un avvertimento su come questi meccanismi potrebbero essere abusati per influenzare l’opinione pubblica, specialmente durante eventi sensibili al tempo, i quali danno ai manipolatori brevi finestre per diffondere efficacemente la disinformazione prima che la loro attività sia rilevata – come nel periodo di tempo che precede un’elezione o quando si cerca di cronometrare l’aumento o il calo del prezzo di un’azione o nel mezzo di una campagna di vaccinazione di massa che si basa sulla conquista della fiducia di una vasta maggioranza della popolazione di un Paese.
Perché concentrarsi sulle raccomandazioni?
I modelli di apprendimento automatico sui siti di e-commerce imparano a raccomandare i prodotti agli acquirenti in base agli articoli che hanno sfogliato o acquistato in precedenza. I meccanismi di raccomandazione sui social network operano in modo simile. Addestrano modelli basati sulle interazioni dei loro utenti con altri utenti e contenuti per fornire timeline curate, risultati di ricerca classificati e raccomandazioni di utenti da seguire e gruppi a cui unirsi. Alcuni di questi strumenti utilizzano tecniche di apprendimento automatico che creano modelli basati sul modo in cui gli utenti si comportano sulla piattaforma.
L’output di questi modelli riflette il comportamento contenuto nei loro set di addestramento. Consapevolmente o inconsapevolmente, i gruppi che diffondono attivamente la comunicazione politica online sembrano avere un certo senso del funzionamento di questi modelli e li hanno utilizzati a loro vantaggio. Capire come questo comportamento manipolativo possa influenzare i modelli sottostanti presenta un’opportunità unica per vedere in che modo il social engineering, la disinformazione, le truffe e persino i legittimi trucchi di marketing diffondono i contenuti.
Per illustrare come semplici tecniche di manipolazione possano essere utilizzate per influenzare le raccomandazioni su un social network, abbiamo raccolto dati da Twitter e li abbiamo utilizzati per addestrare modelli che sono stati poi utilizzati per implementare semplici meccanismi di raccomandazione. Abbiamo poi eseguito degli esperimenti in cui abbiamo avvelenato i set di dati originali, addestrato nuovi modelli con i dati avvelenati e osservato come sono cambiate le raccomandazioni.
Filtraggio collaborativo—cos’è?
Abbiamo scelto di studiare meccanismi di raccomandazione basati su modelli di filtraggio collaborativo (collaborative filtering).
Il filtraggio collaborativo è una tecnica di apprendimento automatico che può essere utilizzata per costruire un modello che codifica le somiglianze tra utenti e contenuti in base a come gli utenti hanno precedentemente interagito con loro. Nei nostri esperimenti, i dati sulle preferenze degli utenti sono stati rappresentati da quanto spesso gli utenti ritweettano i contenuti degli altri utenti.
Abbiamo poi aggiunto alcuni dati avvelenati. Ciò ha comportato l’iniezione di retweet aggiuntivi tra account selezionati nel set di dati originale, al fine di causare la raccomandazione di un account specifico a un piccolo gruppo di utenti di controllo. Gli account presi di mira per l’avvelenamento e le loro azioni sono stati selezionati in una varietà di modi diversi. L’obiettivo era quello di determinare quali tipi di comportamento degli utenti manipolavano più efficacemente il nostro meccanismo di raccomandazione.
Su Twitter, i gruppi coordinati si formano spesso attraverso meccanismi di “follow-back” per amplificare contenuti, parole chiave, frasi o hashtag. Gli attacchi modellati nelle nostre simulazioni sono stati progettati per operare in modo simile a come i gruppi coordinati si comportano su Twitter. Questo risultato può illustrare come questi gruppi si siano stabiliti sul loro attuale modus operandi.
Cosa abbiamo scoperto
Selezionando gli account appropriati per il retweet e variando il numero di account che eseguono retweet insieme al numero di retweet che hanno pubblicato, è stato possibile alterare i valori di somiglianza tra gli account specifici in modo che fossero suggeriti ai membri del nostro gruppo di controllo. Il nostro rapporto completo include rappresentazioni visive che dimostrano come questi meccanismi funzionano in pratica.
Twitter sembra essere consapevole di come i meccanismi del sito siano stati manipolati, possibilmente in modi quasi identici a quelli da noi testati. Molti degli account in questo set di dati sono stati sospesi da Twitter, compresi, in alcuni casi, gli account specifici che sono stati oggetto della nostra sperimentazione.
Tuttavia, i nostri esperimenti utilizzano intenzionalmente meccanismi molto semplici, e sono progettati solo per approssimare il funzionamento di un sistema di raccomandazione di un social network. Se le nostre approssimazioni riflettessero il funzionamento dei meccanismi di raccomandazione reali, potrebbe essere possibile per i gruppi che cercano di manipolare questi meccanismi di alterare ulteriormente il loro comportamento in modo da permettere un’amplificazione più efficace dei contenuti. Tuttavia, non è possibile determinare quanto le nostre implementazioni fossero vicine ai meccanismi reali utilizzati nei social network, e quindi i nostri risultati possono essere visti come illustrativi.
Un rapporto completo che include la metodologia, i risultati e il codice utilizzato per eseguire questi esperimenti è disponibile su https://github.com/r0zetta/collaborative_filtering/
Categorie