Gli hacker stanno usando AI per rompere AI

Period solo questione di tempo prima Gli hacker hanno iniziato a usare l’intelligenza artificiale Per attaccare l’intelligenza artificiale, e ora quel tempo è arrivato. Una nuova svolta di ricerca ha reso gli attacchi di iniezione tempestivi di AI più veloce, più facili e scarsamente efficaci, anche contro sistemi apparentemente sicuri come Google Gemelli.

Gli attacchi di iniezione tempestivi sono stati uno dei modi più affidabili per manipolare modelli di linguaggio di grandi dimensioni (LLM). Intrufolando istruzioni maliziose nel testo che l’IA, come un commento in un blocco di codice o un testo nascosto su una pagina Net, gli attacchi possono convincere il modello a ignorare le sue regole originali.

Ciò potrebbe significare perdite di dati privati, offrire risposte errate o realizzare altri comportamenti non intenzionali. La cattura, tuttavia, è che gli attacchi di iniezione tempestivi richiedono in genere molte show ed errori manuali per ottenere il diritto, specialmente per modelli a peso chiuso come GPT-4 o Gemini, in cui gli sviluppatori non possono vedere il codice sottostante o i dati di addestramento.

Ma una nuova tecnica chiamata Enjoyable-Tuning cambia questo. Sviluppato da un crew di ricercatori universitari, questo metodo utilizza l’API di perfezionamento di Google per i Gemelli per creare iniezioni immediate a basso costo di successo, automatico. I risultati del ricercatore sono attualmente disponibili in un Rapporto di preprint.

Abuso dell’interfaccia di allenamento di Gemini, la messa a punto del divertimento emette i migliori “prefissi” e “suffissi” per avvolgere il immediate dannoso di un aggressore, aumentando drasticamente le possibilità che verranno seguite. E i risultati parlano da soli.

Nei take a look at, il divertimento ha raggiunto tassi di successo fino all’82 % su alcuni modelli Gemelli, rispetto a meno del 30 percento con gli attacchi tradizionali. Funziona sfruttando sottili indizi nel processo di messa a punto, come il modo in cui il modello reagisce agli errori di allenamento, e trasformandoli in suggestions che affitta l’attacco. Pensalo come un sistema missilistico guidato dall’AI per una rapida iniezione.

Ancora più preoccupanti, gli attacchi si sono sviluppati per una versione di Gemini trasferiti facilmente advert altri. Ciò significa che un singolo attaccante potrebbe potenzialmente sviluppare un immediate di successo e distribuirlo su più piattaforme. E da allora Google offre questa API di messa a punto gratuitamenteil costo del montaggio di un story attacco è basso di $ 10 nel tempo di calcolo.

Google ha riconosciuto la minaccia ma non ha commentato se prevede di cambiare le sue funzionalità di ottimizzazione. I ricercatori alla base del divertimento avvertono che la difesa contro questo tipo di attacco non è semplice: rimuovere i dati chiave dal processo di formazione renderebbe lo strumento meno utile per gli sviluppatori. Ma lasciarlo dentro rende più facile sfruttare gli aggressori.

Una cosa è certa, però. Ai attacchi di iniezione immediate come questo sono un segno che il gioco è entrato in una nuova fase, dove L’IA non è solo il bersaglioma anche l’arma.