L’esercito israeliano ha creato la sua ChatGpt, allenata con milioni di conversazioni in arabo: genererà una lista lunga (e vaga) di palestinesi «sospetti» da arrestare. L’inchiesta di +972mag
di Yuval Abraham
Pubblichiamo un estratto dell’inchiesta della rivista israeliano-palestinese 972mag. Integrale online
L’esercito israeliano sta sviluppando un nuovo strumento d’intelligenza artificiale, sul modello di ChatGpt, allenandolo su milioni di conversazioni in arabo ottenute dalla sorveglianza dei palestinesi nei Territori occupati, rivela un’inchiesta congiunta di +972mag, Guardian e Local Call.
Lo strumento Ia – creato sotto gli auspici dell’Unità 8200, squadra di cyber guerra d’elite del Direttorato d’intelligenza militare israeliano – rientra nel cosiddetto Modello di linguaggio largo (Llm): un programma di machine-learning capace di analizzare informazioni e generare, tradurre, predire e riassumere testi. Mentre i programmi Llm pubblici, come il dispositivo dietro ChatGpt, sono allenati tramite le informazioni reperite su internet, il nuovo modello in via di sviluppo da parte dell’esercito israeliano viene nutrito da ampio materiale d’intelligence collezionato sulla vita quotidiana dei palestinesi che vivono sotto occupazione.
L’esistenza del programma Llm dell’Unità 8200 è stata confermata a +972, Local Call e al Guardian da tre fonti nella sicurezza israeliana a conoscenza del suo sviluppo. Il modello era ancora sotto addestramento nella seconda parte dello scorso anno e non è chiaro se sia stato già usato o come esattamente verrà utilizzato dall’esercito.
Le fonti hanno spiegato che un beneficio chiave per l’esercito consisterà nella capacità dello strumento di processare velocemente grandi quantità di materiale di sorveglianza per poter «rispondere a delle domande» su specifici individui. A giudicare da come l’esercito utilizzi già dei modelli di linguaggio più piccoli, sembra probabile che il programma Llm possa espandere ulteriormente le incriminazioni e gli arresti di Israele nei confronti dei palestinesi.
«L’Ia amplifica il potere», ha spiegato una fonte d’intelligence che ha seguito da vicino lo sviluppo dell’esercito israeliano dei modelli di linguaggio negli ultimi anni. «Permette operazioni (che utilizzano) i dati di molte più persone, rendendo possibile il controllo della popolazione. Questo non riguarda solo la prevenzione di attacchi con armi da fuoco. Posso rintracciare attivisti per i diritti umani. Posso rintracciare le costruzioni palestinesi in Area C (della Cisgiordania). Ho più strumenti per sapere cosa ogni palestinese in Cisgiordania sta facendo. Quando hai tutti questi dati, puoi dirigerli verso qualsiasi scopo tu voglia».
Se lo sviluppo dello strumento precede la guerra, la nostra inchiesta rivela che, dopo il 7 ottobre, l’Unità 8200 ha richiesto l’assistenza dei civili israeliani con competenze nello sviluppo di modelli linguistici che stavano lavorando per giganti della tech come Google, Meta e Microsoft. Con la mobilitazione di massa dei riservisti all’inizio dell’assalto israeliano a Gaza, gli esperti dell’industria privata hanno iniziato ad arruolarsi nell’Unità – portando al suo interno una conoscenza che prima «era accessibile solo a un gruppo ristretto di compagnie in tutto il mondo», afferma una fonte interna alla sicurezza. (In risposta alle nostre domande, Google ha affermato che ha dei «dipendenti che svolgono degli impieghi di riserva in molti stati», sottolineando che il lavoro che svolgono in tal contesto «non è legato a Google». Meta e Microsoft hanno rifiutato di commentare).
Secondo una delle fonti, il chatbot dell’Unità 8200 è stato allenato su 100 miliardi di parole in arabo ottenute in parte attraverso la sorveglianza su larga scala di Israele nei confronti dei palestinesi sotto il governo del suo esercito, cosa che, avverte la fonte, costituisce una grave violazione dei diritti dei palestinesi. «Stiamo parlando di informazioni altamente personali, estratte da persone che non sono sospettate di aver commesso alcun crimine, per allenare uno strumento che potrebbe servire poi a stabilire un sospetto», ha detto a +972, Guardian e Local Call Zach Campbell, ricercatore senior nel campo della tecnologia per Human Rights Watch.
Nadim Nashif, direttore e fondatore di 7amleh, gruppo di sostegno per i diritti digitali dei palestinesi, fa eco a queste preoccupazioni. «I palestinesi sono diventati cavie nel laboratorio di Israele per sviluppare queste tecniche e fare dell’Ia un’arma, allo scopo di mantenere un regime di apartheid e occupazione dove queste tecniche sono usate per dominare le persone, per controllare le loro vite. Questa è una grave e continua violazione dei diritti digitali dei palestinesi, che rientrano nei diritti umani».
«Sostituiremo tutti gli ufficiali d’intelligence con gli agenti Ia»
Gli sforzi dell’esercito israeliano per sviluppare il proprio modello Llm sono stati pubblicamente riconosciuti per la prima volta da Chaked Roger Joseph Sayedoff, ufficiale dell’intelligence che si è presentato come il capo del progetto, in una conferenza dell’anno scorso annunciata con poco preavviso. «Abbiamo cercato di produrre il più grande insieme di dati possibile, raccogliendo tutti i dati posseduti dallo Stato d’Israele in arabo», ha spiegato durante la conferenza DefenseMl a Tel Aviv. Ha poi aggiunto che stanno addestrando il programma su una «quantità psicotica» di informazioni d’intelligence.
Secondo Sayedoff, quando il modello Llm di ChatGpt è diventato disponibile al pubblico nel novembre 2022, l’esercito israeliano ha messo in piedi una squadra d’intelligence dedicata a indagare come l’Ia generativa potesse essere adattata a scopi militari. «Abbiamo detto: Wow, ora sostituiremo tutti gli ufficiali d’intelligence con gli agenti Ia. Ogni cinque minuti, leggeranno tutta l’intelligence israeliana e prediranno chi sarà il prossimo terrorista», ha detto Sayedoff.
Inizialmente la squadra non è stata in grado di fare molti progressi. OpenAI, la compagnia dietro ChatGpt, ha rifiutato la richiesta dell’Unità 8200 di avere accesso al suo programma Llm e di integrarla nel sistema offline interno dell’Unità. (Da allora l’esercito israeliano ha utilizzato il modello linguistico di OpenAi, comprato attraverso Microsoft Azure, come rivelato da un’altra recente inchiesta di +972 e Local Call. OpenAI ha rifiutato di commentare).
C’era un altro problema, spiega Seyendorff: i modelli linguistici esistenti potevano processare solo l’arabo classico – utilizzato nelle conversazioni formali, nella letteratura e nei media – non i dialetti parlati. L’Unità 280 ha quindi capito che avrebbe dovuto sviluppare il proprio programma, fondato, come ha detto Seyendoff durante la sua conferenza, «sui dialetti che ci odiano».
Il punto di svolta è arrivato con lo scoppio della guerra a Gaza a ottobre 2023, quando l’Unità 8200 ha cominciato ad arruolare come riservisti gli esperti di modelli linguistici dalle compagnie private. Ori Goshen, co-Ceo e co-fondatore della compagnia israeliana AI21 Labs specializzata in modelli linguistici, ha confermato che alcuni suoi dipendenti hanno partecipato al progetto durante il loro impiego da riserve. «Un’agenzia di sicurezza non può lavorare con un servizio come ChatGpt, per cui ha bisogno di capire come dirigere l’Ia dentro un sistema non connesso ad altre reti», ha spiegato.
Secondo Goshen, tra i benefici apportati dagli Llm alle agenzie di intelligence, potrebbero essere incluse le capacità di processare rapidamente le informazioni e generare una lista di «sospettati» da arrestare. Nella sua opinione, però, la chiave è la loro capacità di recuperare dati reperiti attraverso molteplici fonti. Piuttosto che usare «strumenti di ricerca primitivi», gli ufficiali potrebbero semplicemente «fare domande e ottenere risposte» da un chatbot che, ad esempio, sarebbe capace di dire se due persone si siano mai incontrate, o determinare istantaneamente se una persona abbia mai commesso un particolare atto.
Goshen ha ammesso, tuttavia, che affidarsi ciecamente a questi strumenti possa condurre a commettere errori. «Questi sono modelli probabilistici. Gli dai uno stimolo o una domanda e loro generano qualcosa che sembra magia – ha spiegato – Ma spesso, la risposta non ha senso. Questo lo chiamiamo “allucinazione”».
Campbell, di Human Rights Watch, ha sollevato una preoccupazione simile. I programmi Llm, ha detto, funzionano come guessing machines e i loro errori ineriscono al sistema. Inoltre, le persone che usano questi strumenti spesso non sono le stesse che li hanno sviluppati e la ricerca mostra come tendano a fidarsi di esse maggiormente. «Infine, queste ipotesi potrebbero essere usate per incriminare le persone», ha detto.
Precedenti inchieste di +972 e Local Call sull’utilizzo da parte dell’esercito israeliano dei sistemi di mira basati sull’Ia volto a facilitare i bombardamenti su Gaza hanno evidenziato i difetti operativi intrinsechi a questi strumenti. Ad esempio, l’esercito ha usato un programma conosciuto come Lavander per generare una kill list di decine di migliaia di palestinesi, incriminati dall’Ia perché presentavano caratteristiche che era stata abituata ad associare a un gruppo militante.
L’esercito ha poi bombardato molti di questi individui – solitamente mentre si trovavano a casa con le loro famiglie – nonostante il programma avesse un margine d’errore del 10%. Secondo le fonti, la supervisione umana del processo d’assassinio serviva solamente come «timbro di gomma» e i soldati trattavano i risultati di Lavender come «se si trattasse di una decisione umana».
«Spesso è solo un comandante di divisione che vuole 100 arresti al mese»
Lo sviluppo di uno strumento sullo stile di ChatGpt allenato sull’arabo parlato rappresenta un’ulteriore espansione dell’apparato israeliano di sorveglianza nei Territori occupati, che è da tempo altamente intrusivo. Più di un decennio fa, soldati che hanno prestato servizio nell’Unità 8200 hanno testimoniato che avevano monitorato civili con nessuna connessione ai gruppi militanti, al fine di ottenere informazioni che potessero essere usate per ricattarli – per esempio, rispetto a difficoltà finanziarie, orientamento sessuale, o malattia grave loro o dei loro familiari. Gli ex soldati hanno anche ammesso di aver controllato attivisti politici.
Insieme allo sviluppo del proprio programma Llm, l’Unità 8200 utilizza già modelli linguistici più piccoli che permettono la classificazione di contenuto, trascrizione e traduzione delle conversazioni di arabo parlato in ebraico e delle ricerche di parole chiave. Questi strumenti rendono il materiale d’intelligence accessibile in maniera molto più immediata, in particolare per la Divisione dell’esercito per Giudea e Samaria (Cisgiordania).
Secondo due fonti, i modelli più piccoli permettono all’esercito di vagliare il materiale di sorveglianza e identificare i palestinesi che esprimono rabbia nei confronti dell’occupazione o il desiderio di attaccare i soldati o i coloni israeliani.
Una fonte ha descritto un modello linguistico, utilizzato al momento, che scannerizza i dati e identifica i palestinesi che utilizzano parole considerate problematiche. La fonte ha aggiunto che l’esercito ha usato modelli linguistici per predire chi potrebbe tirare pietre ai soldati durante le operazioni che «dimostrano la presenza», ovvero quelle in cui i soldati fanno irruzione nelle città o nei villaggi in Cisgiordania e vanno porta a porta, irrompendo dentro ogni casa di una strada per condurre degli arresti e intimidire i residenti.
Le fonti d’intelligence hanno affermato che l’uso di questi modelli linguistici insieme alla sorveglianza su larga scala nei Territori occupati ha intensificato il controllo di Israele sulla popolazione occupata e aumentato significativamente la frequenza degli arresti. I comandanti possono accedere all’intelligence grezza tradotta in ebraico – senza il bisogno che i centri linguistici dell’Unità 8200 forniscano il materiale, o senza conoscere l’arabo essi stessi – e selezionare «sospettati» da arrestare da una lista sempre crescente in ogni località palestinese. «Ogni tanto è solo un comandante di divisione che vuole 100 arresti al mese nella sua area», ha detto una fonte.
A differenza dei modelli più piccoli già in uso, comunque, il modello largo in via di sviluppo sta ricevendo l’allenamento tramite l’insieme di dati di milioni di conversazioni tra palestinesi ottenute dall’Unità 8200. «L’arabo parlato è un dato che difficilmente si trova su internet – ha spiegato la fonte. – Non ci sono trascrizioni di conversazioni o chat Whatsapp online. Non esiste nella quantità che ci serve per allenare un modello del genere».
Per addestrare i programmi Llm, le conversazioni quotidiane tra palestinesi che non hanno immediata utilità d’intelligence servono ugualmente uno scopo fondamentale. «Se qualcuno chiama un’altra persona e le dice di uscire perché la stanno aspettando fuori da scuola, si tratta semplicemente di una conversazione occasionale, non è interessante – ha spiegato una fonte nella sicurezza – Ma per un modello come questo è oro: fornisce più e più dati su cui allenarsi».
L’Unità 8200 non è l’unica agenzia nazionale d’intelligence che sta tentando di sviluppare strumenti di Ia generativa; la Cia ha sviluppato uno strumento simile a ChatGpt per analizzare le informazioni open source e le agenzie di intelligence nel Regno unito stanno parimenti sviluppando i loro programmi Llm. Tuttavia, degli ex ufficiali della sicurezza britannica e statunitense hanno riferito a +972, Local Call e Guardian che l’intelligence israeliana sta assumendo molti più rischi delle controparti relativamente all’integrazione dei sistemi Ia all’analisi di intelligence.
Brianna Rosen, un’ex ufficiale della sicurezza della Casa bianca e attualmente ricercatrice in studi militari e della sicurezza all’Università di Oxford, ha spiegato che un analista d’intelligence che utilizza uno strumento come ChatGpt potrebbe essere potenzialmente in grado di «rilevare minacce che gli esseri umani potrebbero non notare, anche prima che si presentino». Tuttavia, esso comporta anche il «rischio di tracciare connessioni false e conclusioni difettose. Saranno fatti degli errori e alcuni di essi potrebbero avere conseguenze molto serie».
Le fonti d’intelligence israeliane hanno sottolineato che in Cisgiordania la questione più dirimente non è necessariamente l’accuratezza di questi modelli, quanto piuttosto il largo numero di arresti che rendono possibile effettuare. Le liste di «sospettati» crescono costantemente, mentre enormi quantità di informazioni sono continuamente raccolte e velocemente processate utilizzando l’Ia.
Numerose fonti hanno affermato che un «sospetto» vago o generale è spesso sufficiente a porre i palestinesi in detenzione amministrativa – una sentenza a sei mesi di carcere senza processo né accuse, estendibile, sulla base di «prove» non divulgate. In un’atmosfera dove la sorveglianza dei palestinesi è estesa a tal punto e la soglia per l’arresto è così bassa, dicono, l’aggiunta di strumenti fondati sull’Ia potenzierà la capacità di Israele di reperire informazioni incriminanti su molte più persone.
Il portavoce dell’esercito non ha risposto a domande specifiche postegli da +972, Local Call e Guardian «a causa della natura sensibile delle informazioni», affermando semplicemente che «qualsiasi utilizzo di strumenti tecnologici è svolto attraverso un rigoroso processo guidato da professionisti, per assicurare la massima accuratezza delle informazioni d’intelligence».
Harry Davies del Guardian e Sebastian Ben Daniel (John Brown) hanno contribuito a questa inchiesta.
*Traduzione a cura di Annaflavia Merluzzi
Osservatorio Repressione è una Aps-Ets totalmente autofinanziata. Puoi sostenerci donando il tuo 5×1000
News, aggiornamenti e approfondimenti sul canale telegram e canale WhatsApp