I sistemi di riconoscimento e di autenticazione sono sempre più sofisticati e la loro evoluzione è imposta dai continui tentativi fraudolenti di accesso ai conti bancari o ad altri servizi da parte di malandrini che sono entrati in possesso della password di qualche utente legittimo.
Tra le soluzioni di identificazione c’è la voce del cliente, riconoscibile non solo all’udito ma anche riscontrabile attraverso l’analisi degli elementi che costituiscono i suoni emessi dalla bocca.
Chi pensava che si fosse trovata una dinamica “robusta” ed inattaccabile è opportuno che accantoni determinate certezze e prenda atto che i criminali hanno da tempo ingegnerizzato le tecniche truffaldine della clonazione vocale.
Se parliamo di “deepfake” tutti corrono ad immaginare la produzione di immagini e video in cui il volto del protagonista è sostituito con quello di un’altra persona. Dopo anni di grossolani esperimenti e di insoddisfacenti risultati si è giunti alla produzione di foto e di filmati estremamente verosimili e in grado di ingannare anche i più acuti osservatori. Senza cercare creazioni tenute nascoste per chissà quale scopo, è sufficiente vedere una puntata di Striscia la Notizia su Canale 5 per rimirare balletti e gorgheggi di personaggi in auge sulla ribalta politica e per immaginare cosa possa combinare chi persegue obiettivi illeciti di enorme portata.
La realizzazione di “fake” richiede competenze informatiche e strumenti abbastanza sofisticati e costosi. Questa difficoltà viene meno nel momento in cui qualcuno si mette a disposizione per fornire un certo tipo di servizio a chi non ha capacità e mezzi per farlo. La banale regola del mercato, niente di più…
Nasce così il “VCaaS”, acronimo dietro al quale si cela il Voice-Cloning-as-a-Service, ovvero la fornitura di prestazioni professionali o il noleggio di piattaforme mirate alla clonazione della voce dei soggetti cui si vuole rubare l’identità o in danno dei quali si vuole agire.
Il tema – approfondito dall’ultimo report di Recorded Future intitolato “I Have No Mouth and I Must Do Crime” (qui il rapporto in formato PDF) – non deve essere accantonato con una alzata di spalle, perché molti sistemi di sicurezza si basano sull’identificazione dell’utente proprio attraverso la sua voce.
Se si vuole qualche esempio di minacce in proposito, c’è solo l’imbarazzo della scelta. La tecnologia audio deepfake può imitare la voce di un bersaglio per aggirare l’autenticazione a più fattori, diffondere informazioni sbagliate e disinformative, contribuire ad operazioni di social engineering negli attacchi in stile BEC (Business Email Compromise).
Recorded Future nel suo documento avverte che nei meandri del deep web sono disponibili numerose piattaforme di clonazione vocale pronte all’uso, la cui facilità di impiego abbassa il livello di accesso a qualunque malintenzionato e amplia drammaticamente la schiera dei soggetti pericolosi in grado di servirsene.
Queste “opportunità” in alcuni casi possono essere utilizzate gratuitamente con un account registrato, mentre altre costano poco più di 5 dollari al mese…
Dove nasce il fenomeno? Tutto comincia con l’intuizione dei cyber-criminali del poter abusare di strumenti legittimi come quelli destinati all’uso nelle voci fuori campo degli audiolibri, nel doppiaggio cinematografico e televisivo, nella pubblicità.
Un’opzione apparentemente popolare è il software Prime Voice AI di ElevenLabs (uno strumento di sintesi vocale fruibile con il normale browser con cui ci si muove sul web), che consente agli utenti di caricare campioni vocali personalizzati pagando un piccolo costo aggiuntivo.
Per nostra fortuna, e speriamo che duri, molte delle attuali tecnologie vocali deepfake si limitano a generare solo campioni una tantum che non possono essere utilizzati in conversazioni estese in tempo reale. Questa buona notizia non deve indurre a non prendere sul serio questo pericolo. Occorre affrontare il problema sul nascere, prima che questo si intensifichi e diventi più difficile da contrastare.