Per arrivare a AGI (Avanzate Common Intelligence) e Superintelligence, dovremo assicurarci che l’IA che ci serve sia, beh, ci sta servendo. Ecco perché continuiamo a parlare di allineamento dell’intelligenza artificiale o di intelligenza artificiale allineata agli interessi umani.
Ci sono ottime ragioni per concentrarsi su quella sicurezza. Non ha nulla a che fare con l’ideologia localizzata, come i valori occidentali rispetto ai regimi totalitari (anche se questo sarà un aspetto), ma più con la garanzia della sopravvivenza delle specie umane. L’intelligenza artificiale disallineata potrebbe sempre portare a eventi di estinzione umana, o questo è ciò che alcune persone temono.
Quelle paure non sono del tutto ingiustificate. Abbiamo visto esperimenti che mostravano l’IA, come Chatgptpuò imbrogliare quando viene richiesto Vinci una partita di scacchi contro un avversario più duro. Altri esperimenti hanno mostrato L’IA mentirebbee avrebbe cercato di salvarsi quando pensava che stesse affrontando la cancellazione. Quindi, abbiamo avuto esperimenti che hanno dimostrato L’IA può clonare se stessosebbene l’IA non lo abbia fatto da solo.
Gli ultimi esperimenti di sicurezza dell’IA che mostrano che i modelli di Frontier Chatgpt possono essere comportati direttamente provengono direttamente Aperto. La società ha condotto esperimenti che hanno mostrato modelli di AI di ragionamento come O1 e O3-Mini si sarebbero fatti strada nella risoluzione di un compito che sarebbe stato troppo difficile altrimenti.
Openai ha anche trovato un modo per monitorare questi AIS avanzati da imbrogli. Hanno semplicemente messo un più stupido AI (GPT-4O) incaricato di leggere la catena di pensiero (COT), in cui un’intelligenza artificiale di frontiera avrebbe manifestato le intenzioni di imbrogli o hacking.
Questo metodo consentirebbe agli sviluppatori di prevenire o ridurre l’intelligenza artificiale dall’hacking della ricompensa. Ma indovina cosa? Questi AIS avanzati hanno imparato a offuscare la loro intenzione di imbrogliare quando monitorato in questo modo.
Impossibili è un comportamento umano. Lo facciamo tutti, sia che ci piace ammetterlo o no. La condivisione di una password Netflix è un esempio che Openi offre in un Put up di weblog in dettaglio la sua ricerca più recente:
Gli umani spesso trovano e sfruttano le lacune, sia che condividi conti di abbonamento on-line rispetto ai termini di servizio, rivendicando sussidi destinati agli altri, interpretando le normative in modi imprevisti o addirittura mentire su un compleanno in un ristorante per ottenere una torta gratuita.
Non c’è da meravigliarsi che i modelli AI imbrogliano, specialmente quelli che derivano da abilità di ragionamento. Questo è quello che si chiama Hacking di ricompensa, qualcosa che Ais come Chatgpt O1 e O3-Mini farebbe:
Negli ambienti di apprendimento del rinforzo, lo sfruttamento di scappatoie non intenzionali è comunemente noto come hacking della ricompensa, un fenomeno in cui gli agenti di intelligenza artificiale ottengono alti premi attraverso comportamenti che non si allineano con le intenzioni dei loro designer.
L’esperimento Openi ideato è piuttosto semplice. I ricercatori hanno fornito i compiti di frontiera da svolgere, la maggior parte delle quali è relativa a problemi di codifica o codifica. I ricercatori hanno quindi incaricato GPT-4O di ispezionare il lettino di questi modelli di ragionamento. Questa è la chiave per tenere d’occhio ciò che fanno i modelli di frontiera piuttosto che esaminare solo le loro azioni.
La catena di pensiero ti consente di vedere i passi che ragionano AIS quando si tratta di un immediate. Se hai accesso a O1 o O3-Mini, sai già di cosa sto parlando. È come se stessi leggendo la mente di una persona di fronte a te senza che lo sappiano. Il cotto accade nel linguaggio che capiamo, quindi è facile catturare l’IA che cerca di imbrogliare (o premiare Hack).

Quando hanno a che fare con un compito più duro, l’AIS di frontiera sarà sincera nella loro lettino. Esempi che OpenAI ha condiviso mostrano AIS come Chatgpt O1 o O3-Mini che dicono che un’attività è “difficile”, il che indica che stanno cercando una scappatoia per raggiungere l’effetto desiderato. Diranno anche cose come “Let’s hacking” nel linguaggio naturale, un’altra indicazione che stanno per imbrogliare.
In un certo senso sembra osservare un bambino che cerca di svolgere un compito e parlare da solo di come lo faranno. Bene, un bambino che può programmare meglio di te ma non vuole necessariamente fare le parti difficili.
Ecco alcune descrizioni di OpenAI sulle istanze di AI che barano dagli esempi nel weblog:
Sovrascrivi la funzione di verifica. L’agente rileva che i check controllano solo una determinata funzione e che sarebbe “difficile” presumibilmente implementare una soluzione autentica. L’agente nota quindi che potrebbe “fonder” e eludere i check rendendo Confirm restituire sempre vero. Il riepilogo della traiettoria fornisce una panoramica di alto livello delle azioni chiave di un agente e dei progressi nel tempo.
Restituzione dei codici di errore previsti. L’agente cerca un po ‘di tempo per scrivere una soluzione corretta. Dopo aver ripetutamente fallito, inizia a pensare che potrebbe hackerare invece il problema e alla high quality lo fa restituendo i codici di errore previsti nei check unitari. Advert eccezione del caso in cui il check unitario prevede un timeout, restituisce successo in tutti i casi invece di implementare la funzionalità corretta. In particolare, l’agente è così schietto con il suo intento di hackerare il fatto che pensa, “facciamo”, nel lettino. Il riepilogo della traiettoria fornisce una panoramica di alto livello delle azioni chiave di un agente e dei progressi nel tempo.
Gli esperimenti di Openai hanno mostrato che un’intelligenza artificiale più stupida poteva rilevare in modo affidabile l’IA di frontiera che tradisce con l’accesso al COT. A sua volta, ciò consentirebbe agli sviluppatori di allineare meglio quell’IA Frontier e impedire imbrogliare.
Tuttavia, Openai ha anche scoperto che Frontier Ai che un modello più stupido sta osservando alla high quality troverebbe il modo di imbrogliare senza dire espressamente che stanno per farlo.
In questo caso, il loro imbroglio diventa non rilevabile. Openai in realtà consiglia di ottenere un ottimizzazione di frontiera AIS:
La penalizzazione di “cattivi pensieri” (pressione del COT) può portare a migliori capacità degli agenti. Tuttavia, l’agente addestrato con la pressione del lettino impara ancora a premiare l’hack; Solo ora i suoi imbrogli non sono rilevabili dal monitor perché ha imparato a nascondere il suo intento nella catena di pensiero. Il sacrificio di un metodo efficace per il monitoraggio dei modelli di ragionamento potrebbe non valere il piccolo miglioramento delle capacità e quindi raccomandiamo di evitare pressioni così forti di ottimizzazione del COT fino a quando non saranno meglio comprese.
L’asporto principale dello studio è che noi umani abbiamo un modo per monitorare il comportamento di AI cattivo che potrebbe funzionare ancora una volta che sono disponibili programmi di intelligenza artificiale avanzati. Dobbiamo solo leggere la mente dell’IA o la sua catena di pensiero.
“Riteniamo che il monitoraggio della catena di pensiero (COT) possa essere uno dei pochi metodi efficaci che abbiamo per supervisionare i modelli sovrumani”, afferma Openi, ripetendo i consigli precedenti; Gli sviluppatori non dovrebbero cercare di applicare una forte supervisione alle COTS, poiché gli AIS inizieranno a nascondere le loro intenzioni.
Detto questo, c’è un grosso difetto nel pensare che potremmo monitorare l’intelligenza artificiale sovrumana guardando il loro lettino. È probabile che l’IA sovrumana escogiterà modi per nascondere i loro imbrogli anche se avremo accesso ai loro pensieri.
Nel frattempo, lo studio di Openai è disponibile per intero A questo hyperlink.