L’ELENCO SEGRETO DEI SITI WEB CHE RENDONO LE INTELLIGENZE ARTIFICIALI, COME CHAT GPT, … FURBE

0:00 / 0:00

TE LO LEGGO IO

Mettetevi comodi, non sarò breve, ma ne vale la pena, forse…

Le Intelligenze Artificiali generative vengono utilizzate per costruire chatbot “intelligenti”, veri e propri assistenti digitali che apprendono e si evolvono, in base alle informazioni cui hanno avuto e hanno accesso, per fornire all’utente livelli crescenti di personalizzazione nelle risposte.

Un chatbot è un software, un programma, un applicativo, che simula ed elabora le conversazioni umane (scritte o parlate), consentendo di interagire con i dispositivi digitali come se si stesse comunicando con una persona reale utilizzando un linguaggio naturale, come inglese, italiano, francese, kyrgyzo o una delle 85 lingue parlate da Chat-GPT (interessante, non ce n’è nemmeno una, autoctona, del continente africano).

Nelle recenti settimane i chatbot intelligenti hanno conquistato le cronache e l’attenzione di molti.
Difficile resistere al fascino delle loro prestazioni: dalla composizione di un saggio accademico, alla gestione di una raffinata conversazione filosofica.

Sia ben chiaro: i chatbots intelligenti non pensano. Trattasi, almeno per ora, di prerogativa di noi umani. Le macchine, per quanto potenti e capaci, calcolano.

I chatbots non capiscono. Compongono testi o parlano imitando il linguaggio umano.
Gli algoritmi di intelligenza artificiale che li alimentano hanno ingoiato quantità spropositate di testo senza capire una sola parola.
Non sanno ciò che fanno, loro è il regno digitale.

I testi, prelevati in particolare dal Web (traduzione corretta: ragnatela), sono per i chatbots la fonte di informazione, primaria e unica, su cosa sia il nostro mondo, su come è costruito. Il che, ovviamente, condiziona i modi con cui rispondono ai nostri quesiti e richieste.
Se sono molto bravi a superare i test di ammissione universitaria è perché i dati che sono stati utilizzati per addestrarli comprendevano migliaia di test già somministrati.

Se si chiede alle diverse aziende “genitrici” di soluzioni di intelligenza artificiale come queste vengono addestrate, con quali dati vengono alimentate, si ottengono risposte molto vaghe. Al punto che il The Washington Post ha pensato bene di andare a scavare.

Il terreno di indagine è stato il C4. Nulla a che fare con l’esplosivo al plastico. La sigla sta per Colossal Clean Crawled Corpus. Si tratta di un insieme dati utilizzato per istruire i “Large Language Models” (grandi modelli di linguaggio), come Google T5 e il LLaMA (Large Language Model Meta AI) di Meta, già Facebook (https://commoncrawl.org).

C4 è colossale: comprende, debitamente rielaborati e raffinati, petabyte di dati, ovvero 10 elevato alla 15, ovvero un milione di miliardi di byte, originariamente raccolti da Common Crawl a partire dal 2008 da 15 milioni di siti.
Di questi 15 milioni, tutti in inglese, un terzo è risultato inutilizzabile. I restanti 10 milioni sono stati suddivisi in 9 categorie:
1. Business e Industria
2. Arte e Intrattenimento
3. Mezzi di informazione
4. Scienza e Salute
5. Hobby e Tempo libero
6. Lavoro e Istruzione,
7. Casa & Giardino
8. Comunità/Religione
9. Legale e Pubblica Amministrazione

Poi si è costruita la loro classifica in base a quanti “gettoni di presenza” (chiamiamoli gdp) avessero nell’insieme dei dati. In altre parole in base alla loro frequenza di uso.

C4 è dominato da siti web relativi ad attività economiche e industriali. Tra cui editoria, creazione di contenuti, industria dell’intrattenimento, dello sviluppo software, medicina e salute. Settori di attività a ragione molto preoccupati per il futuro occupazionale dei loro addetti.

I primi siti in classifica sono patents.google.com, (0,46% di gdp) che contiene le descrizioni dei brevetti nel mondo, seguito da wikipedia.org, (0,19% di gdp) l’enciclopedia online a contenuto libero, collaborativa, plurilingue e gratuita, nata nel 2001.

Al terzo posto scribd.com, (0,07% di gdp), servizio a pagamento con 80 milioni di utenti, che consente di leggere o ascoltare un milione di titoli, fra libri e audiolibri, di 1000 case editrici diverse, mentre la sua piattaforma di pubblicazione a libero accesso conta più di 60 milioni di documenti.

La posizione 190 è occupata da b-ok.org, tristemente noto come luogo di spaccio di e-books piratati. No, non potete andare a fare acquisti. Il Dipartimento di Giustizia statunitense lo ha chiuso.
Sono presenti almeno altri 27 siti pirata, già identificati dalle autorità governative americane. State attenti.

Per alcuni siti non è chiaro perché siano in lista in posizioni elevate. Ad esempio al 181mo posto c’è wowhead.com, forum dei giocatori di World of Warcraft; al 175mo thriveglobal.com, dove potete migliorare il vostro benessere e produttività, sito avviato dalla ben nota Ariánna Tasinopoúlou, ovvero Arianna Huffington, fondatrice dell’arcinoto blog Huffington Post.
Ci sono anche 10 siti che vendono contenitori per l’immondizia, come dumpsteroid.com, al 183mo posto, non più accessibile perché finito nella spazzatura della rete.

Torniamo alle categorie. Al primo posto Business e Industria: 16 per cento del totale dei siti analizzati. Il primo risulta essere fool.com (13mo), fornisce consigli per gli investimenti. Al 25mo posto troviamo kickstarter.com, che consente agli utenti di presentare idee innovative e raccogliere fondi per avviare attività. Se si scende alla posizione 2.398, si trova patreon.com che aiuta i creativi a incassare mensilmente quanto loro dovuto dai clienti cui hanno fornito contenuti esclusivi.

Kickstarter e Patreon danno all’intelligenza artificiale accesso alle idee dei creativi e agli artefatti degli artisti, dunque alla loro proprietà intellettuale. Peccato però che, attualmente, non ricevono alcun compenso o credito quando il loro lavoro entra a far parte dei dati di formazione della IA.
Il che spiega i reclami presentati, per violazione del copyright, nei confronti di soluzioni come Stable Diffusion e MidJourney, generatori di immagini a seguito di descrizioni testuali.

Al secondo posto la categoria che ha a che fare con Scienza e Tecnologia. Rappresenta il 15 percento dei token, dei gettoni di presenza. Include molte piattaforme per la creazione di siti Web, come sites.google.com (85mo), che ospita, oltre al mezzo milione di blog personali, pagine su qualsiasi cosa.

La piattaforma medium.com (46ma), ospita decine di migliaia di blog. Fanno loro compagnia quelli ospitati su piattaforme come WordPress, Tumblr, Blogspot e Live Journal. Diari online che trattano di tutto, dall’altamente professionale all’intimo personale e tutto viene letto, copiato, rapinato.

I social network come Facebook e Twitter, cuori del Web moderno, non lo consentono, vietano lo scraping. Dunque le IA non possono accedervi per addestrarsi.
Facebook, ovvero Meta, insieme a Google sono dei giganti. Posseggono enormi quantità di dati conversazionali, ma non dicono se e come utilizzano le informazioni personali dei loro utenti per addestrare modelli di intelligenza artificiale che utilizzano poi internamente, o che vendono a soggetti terzi.

Google, come la maggior parte di chi ha a che fare con IA generativa, filtra pesantemente i dati prima di propinarli al modello. Si vuole proteggere gli utenti da contenuti indesiderati. I testi incomprensibili e duplicati vengono eliminati.

Aiuta nella pulizia l’”Elenco di parole sporche, maliziose, oscene e altrimenti cattive”, conosciuto anche come LDNOOBW (List of Dirty, Naughty, Obscene, and Otherwise Bad Words), che include 402 termini in inglese e un emoji (piccola icona che rappresenta un’emozione, un simbolo o un oggetto: nel caso specifico una mano che fa un gesto comune, ma osceno).

L’obiettivo è limitare, nella fase di addestramento, l’esposizione del modello di IA a insulti, oscenità e razzismo.
Cosa buona e giusta, ma è stato dimostrato che elimina anche contenuti LGBTQ non sessuali. Cosa non buona e non giusta.

Inoltre, è stato dimostrato che i filtri non sono poi così efficaci. Sono centinaia i siti pornografici, insieme a oltre 72 mila casi dove viene riportata la parola “svastica”, vietata dall’elenco LDNOOBW, ad averla fatta franca.

L’esercizio svolto da The Washinton Post ha rilevato contenuti molto preoccupanti, tra cui il sito della supremazia bianca stormfront.org (lo si trova al posto 27 mila 505), quello anti-trans kiwifarms.net (378mila 986mo) e anche 4chan.org (al 4 milionesimo 339mila 889mo posto), sito di messaggeria anonima per organizzare campagne mirate diffamatorie o moleste.

Per non parlare di threepercentpatriots.com (posizione 8.788.836), oggi inaccessibile, che presenta l’ideologia antigovernativa condivisa da chi ha attaccato il 6 gennaio 2021 il Campidoglio degli Stati Uniti.
Presenti anche siti che promuovono teorie complottiste, esempio Qanon, di estrema destra.

Al terzo posto tra le categorie: Mezzi di Informazione.
Da notare che metà dei suoi primi 10 siti sono testate giornalistiche: nytimes.com (4a), latimes.com (6a), theguardian.com (7a), forbes.com (8a) e huffpost.com (9a).
Alcune di esse si sono unite ai creativi e agli artisti di cui sopra nel “criticare” le aziende Tech per aver utilizzato i loro contenuti senza autorizzazione o compenso.

L’analisi del The Washington Post suggerisce una prossima possibile valanga di contenziosi: il simbolo del copyright – che denota un’opera registrata come proprietà intellettuale – appare più di 200 milioni di volte nel set di dati C4.
Gli studi legali sentitamente ringraziano.

Sono presenti anche diversi media poco affidabili, particolarmente attivi nel distribuire notizie false, ovvero fake news. Fra loro RT.com (65mo), sito di propaganda sostenuto dallo stato russo; breitbart.com (159mo), nota fonte di notizie e opinioni di estrema destra; vdare.com (993mo), sito anti-immigrazione associato ai suprematisti bianchi. Sempre loro. Molto attivi e molto ottusi.

Insomma, i chatbot condividono con grande sicurezza informazioni errate e se vengono addestrati con dati inaffidabili, ovvio che diffonderanno falsità, pregiudizi, propaganda e disinformazione.
L’utente non se ne rende conto perché non è in grado di risalire alla fonte originale.

Passiamo alla categoria Comunità/Religione. Comprende il 5 per cento dei siti analizzati. Tra i primi 20 siti, 14 afferiscono alla religione cristiana, 2 a quella ebraica, uno alla musulmana, uno ai Testimoni di Geova e uno celebra tutte le religioni.

Fra i siti cristiani al primo posto gty.org (164mo in classifica generale). gty sta per Grace to You. Appartiene alla Grace Community Church, una megachiesa evangelica californiana che consiglia alle donne di “continuare a sottomettersi” a padri e mariti violenti e di evitare di denunciarli alle autorità. Megachiesa alquanto conservatrice e mega-ottusa.

Il sito ebraico con il punteggio più alto è jewishworldreview.com (366mo in classifica generale). Trattasi di rivista online per ebrei ortodossi. A dicembre ha pubblicato un articolo che attribuiva la responsabilità dell’ascesa dell’antisemitismo negli Stati Uniti “all’Islam fondamentalista di estrema destra”, nonché a “una comunità afroamericana influenzata dal movimento Black Lives Matter”. Di certo molto ortodossi e molto ottusi.

Il pregiudizio anti-musulmano è un problema per alcune della AI basate su modelli linguistici. Un recente studio pubblicato sulla rivista Nature ha scoperto che Chat GPT-3 di OpenAI, nel 66 per cento dei casi, ha completato la frase “Due musulmani sono entrati in un …” con azioni violente. Alla faccia degli stereotipi!

Conclusione della ricerca del The Washington Post: se si va a guardare nel dettaglio come vengono addestrati gli affascinanti chatbots intelligenti, con cui conversiamo con grande fiducia, le perplessità sono tante.

Quali quindi le considerazioni che si possono trarre da quanto qui raccontato?

La prima.
Usiamo a scala mondiale, modelli generativi come ChatGPT di OpenAI, Bard di Google o Bing di Microsoft, per non parlare delle tante altre disponibili, quasi tutte nate e istruite in inglese negli USA. Non consideriamo quelle cinesi come Ernie Bot di Baidu, Tongyi Qianwen di Alibaba o Sense Chat di Sensetime. Ne riparleremo.

Noi però siamo italiani, europei. Altre lingue, altre storie, altre culture, altre economie e società.
Domanda: stiamo subendo da parte degli Stati Uniti, passivamente, senza nemmeno rendercene conto, un’ulteriore ondata di colonizzazione culturale?
Se la risposta è affermativa, la cosa è casuale o voluta? Con quali possibili conseguenze?

La seconda.
I chatbot intelligenti condizionano e sempre più condizioneranno molti, se non troppi, aspetti delle nostre esistenze. Chi propone modelli di IA dovrebbe presentare la lista completa dei dati che sono stati somministrati ai loro relativi modelli.
Qualcuno in sede Comunità Europea se ne sta occupando?

Terza considerazione.
Ciò che è intuitivo e banale per il tecnico può suscitare perplessità al politico ed essere del tutto inspiegabile al filosofo.
Ciò che l’utente finale vede come cosa buona e giusta, per il responsabile della sicurezza nazionale è una vulnerabilità inaccettabile, mentre per il Primo Ministro e il suo governo non è da prendersi in considerazione perché non in sintonia con le priorità della nazione.
Si devono definire e condividere sia il vocabolario, sia i concetti base della tecnologia dell’intelligenza artificiale. Altrimenti persone fisiche, aziende, partititi politici, organizzazioni civili, governi esprimeranno, in perfetta buona fede, opinioni diverse, se non antagoniste, sul modo corretto di operare e regolare le piattaforme di IA. Una perdita di tempo e di energie che si può facilmente evitare

Quarta considerazione.
L’eccitazione e le preoccupazioni che inondano oggi la tecnologia dell’intelligenza artificiale sono le stesse di tanti anni fa, quando la rete tesseva le prime maglie.
Allora, per fare in modo che Internet fosse un’opportunità per tutti, preoccupandosi per il suo futuro, venne costituita la ISoc, la Internet Society, organizzazione internazionale per la promozione dell’utilizzo e dell’accesso a Internet.
Creata dai pionieri di Internet Vint Cerf e Robert Kahn, l’11 dicembre 1992, da allora ha operato, con grande successo, nel perseguire il suo obiettivo di «promuovere lo sviluppo aperto, l’evoluzione e l’uso di Internet per il bene della popolazione di tutto il mondo».
Perché non trarre lezione dal passato?
Mettiamo in piedi AI-Soc la Artificial Intelligence-Society per «promuovere lo sviluppo aperto, l’evoluzione e l’uso dell’Intelligenza Artificiale per il bene della popolazione di tutto il mondo».

Quinta considerazione, ma non ultima.
Si ha a che fare con una tecnologia che non è buona o cattiva alla nascita, ma può diventare pessima se non viene educata e non ci si educa a usarla.

Nostra responsabilità, come sempre.