Debolezze nell’intelligenza artificiale, la lezione del gioco Go

Nuove prospettive per l’affidabilità dell’IA

Intelligenza artificiale sotto attacco, la vulnerabilit� di kataGo

Recenti ricerche hanno evidenziato debolezze in uno dei sistemi di intelligenza artificiale (IA) pi� celebrati, un bot progettato per giocare al gioco da tavolo Go e capace di sconfiggere i migliori giocatori umani del mondo. Lo studio solleva dubbi sull�affidabilit� e sulla sicurezza dei sistemi di IA, dimostrando che la loro supposta superiorit� sugli esseri umani potrebbe non essere cos� scontata neanche in futuro.

Il documento di ricerca, pubblicato come preprint, utilizza attacchi avversari per esporre vulnerabilit� nei sistemi di intelligenza artificiale. Gli attacchi avversari sono input progettati per indurre errori nei sistemi di IA, utilizzati sia per ricerca sia per scopi nefasti. Nel contesto del Go, due giocatori posizionano pietre nere e bianche su una griglia per circondare e catturare le pietre dell�altro giocatore. Gli attacchi avversari possono insegnare ai bot a sfruttare le debolezze del sistema di IA.

Nel 2022, ricercatori hanno addestrato bot avversari per sconfiggere KataGo, il miglior sistema AI open source per giocare a Go. Anche se questi bot non erano particolarmente abili nel gioco in generale, riuscivano a battere regolarmente KataGo. Gli umani, inoltre, potevano imparare dai trucchi dei bot per sconfiggere KataGo.

Difese contro gli attacchi avversari

Per affrontare queste vulnerabilit�, nuovi ricercatori, guidati da Adam Gleave di FAR AI, hanno testato tre strategie difensive su KataGo. La prima strategia prevedeva l�uso di esempi di attacchi per addestrare KataGo a difendersi meglio. Tuttavia, i bot avversari sono riusciti a vincere il 91% delle volte contro questa versione aggiornata.

La seconda strategia era iterativa: addestrare KataGo contro i bot avversari, quindi aggiornare i bot e ripetere il processo per nove round. Anche questa strategia non ha prodotto una versione imbattibile di KataGo.

La terza strategia consisteva nel creare un nuovo sistema di IA per giocare a Go utilizzando una rete neurale alternativa chiamata trasformatore di visione (ViT). Anche in questo caso, i bot avversari hanno trovato un nuovo attacco che ha permesso loro di vincere il 78% delle volte contro il nuovo sistema ViT.

Le implicazioni per il futuro dell�IA

Questi risultati dimostrano che, sebbene i bot avversari possano sconfiggere i sistemi di gioco di Go di alto livello, non sono strateghi completi. "I bot sono piuttosto deboli, li abbiamo battuti noi stessi abbastanza facilmente", afferma Gleave. La domanda rimane: ha ancora senso chiamare quei sistemi sovrumani?

David Wu, l�informatico che ha sviluppato KataGo, afferma che le forti IA di Go sono "sovrumane in media" ma non "sovrumane nei casi peggiori". Gleave suggerisce che questi risultati potrebbero avere ampie implicazioni per i sistemi di intelligenza artificiale, inclusi i grandi modelli linguistici come ChatGPT. "La conclusione fondamentale � che queste vulnerabilit� saranno difficili da eliminare", afferma Gleave. "Se non riusciamo a risolvere il problema in un dominio semplice come Go, allora nel breve termine sembrano esserci poche prospettive di risolvere problemi simili come i jailbreak in ChatGPT".

Riflessioni sul futuro dell�intelligenza artificiale

Questo studio invita a riflettere su come sviluppare agenti IA sicuri e affidabili nel mondo reale. La ricerca continua a svelare nuove vulnerabilit�, mettendo in discussione la pretesa di superiorit� delle IA sugli esseri umani. La strada verso un�intelligenza artificiale veramente affidabile e sicura � ancora lunga e piena di sfide.

16 Luglio 2024 © Redazione PANTAREI Fondazione Premio Antonio Biondi

Fondazione Premio Antonio Biondi
Via Garibaldi 34
03017 Morolo (FR)
Fondazione terzo settore
C.F. 92088700601
segreteria@

IBAN:
IT18I0529714801CC1030072196
BIC: BPFRIT3FXXX

editoriale in collaborazione con

Centro studi su innovazione,
comunicazione ed etica.

Debolezze nell’intelligenza artificiale, la lezione del gioco Go

Nuove prospettive per l’affidabilità dell’IA

Intelligenza artificiale sotto attacco, la vulnerabilit� di kataGo

Esplora l'arte letteraria anche nel digitale, condividi conoscenza, nutri la tua mente.