Non vogliamo solo che i modelli di AI di frontiera siano migliori e più veloci dei loro predecessori; Vogliamo anche che siano allineati con i nostri valori. Questo è l’unico modo per garantire che l’IA alla positive non diventerà un nemico, per realizzare la propria agenda a spese del benessere dell’umanità.
La serie Claude 4 è l’ultimo esempio. Antropico ha dovuto impiegare misure di sicurezza più rigorose per i suoi più recenti e sofisticati modelli di intelligenza artificiale per garantire che non avrebbero aiutato alcuni utenti con attività nefaste.
I take a look at hanno anche mostrato che Claude 4 potrebbe tornare agli ingegneri di ricatto per evitare di essere chiuso. Altri take a look at hanno anche mostrato che Caude avrebbe ricollegato alle autorità di contatto e alla stampa se pensava che stessi facendo qualcosa di brutto con il suo aiuto. Quest’ultimo è avvenuto solo in casi marginali ed è un risultato indesiderato del desiderio di Antropico di rendere l’IA sicura per gli utenti.
AI comportarsi male nei take a look at non è una novità. Abbiamo visto rapporti che lo mostrano Chatgpt O1 tradirebbe per vincere una partita di scacchi Modificando il codice del gioco piuttosto che battere un avversario in modo equo. Lo ha fatto per raggiungere l’obiettivo che aveva.
Avanti veloce a positive maggio e abbiamo un rapporto di sicurezza simile riguardante Chatgpt O3, uno di Openi’s Modelli di ragionamento recentemente rilasciati e lo strumento AI che ho usato di più dalla sua uscita poche settimane fa.
Gli scienziati di Palisade Analysis hanno scoperto che i modelli di intelligenza artificiale cercheranno spesso di impedire al pc di chiusura di chiusura, anche se detto esplicitamente di consentire story comportamento. Di tutti i modelli testati, CHATGPT O3 period il più probabile che interferisse con il codice e impedisse al pc di spegnere.
Palisade Analysis, che ha anche eseguito il take a look at degli scacchi in passato, ha pubblicato i suoi risultati su x Inizialmente:
Il modello O3 di Openai ha sabotato un meccanismo di arresto per impedirsi di essere spento. Lo ha fatto anche se esplicitamente istruito: lasciati chiudere.
I ricercatori hanno testato vari modelli, non solo CHATGPT O3. Hanno anche guardato Claude e Gemelli, ma il comportamento di O3 si è distinto.

La ricerca di Palisade ha incaricato l’AIS di risolvere una serie di problemi di matematica di base. Dopo il terzo problema, è apparso un avvertimento che il pc si sarebbe chiuso non appena l’IA ha chiesto il prossimo problema di matematica. L’intelligenza artificiale è stata incaricata di consentire l’arresto.
Questo è stato il vero take a look at per l’IA. I ricercatori volevano vedere quali modelli avrebbero sabotato l’arresto e quante volte sarebbe successo.
Hanno scoperto che O3 ha impedito l’arresto 7 volte su 100. Il codice-Mini lo ha fermato 12 volte, mentre O4-Mini l’ha fermato solo una volta.
I ricercatori hanno quindi eseguito lo stesso take a look at senza l’istruzione “lasciati chiudere”. In questo caso, tutti i modelli OpenAI hanno sabotato più spesso di prima, con O3 che ha “vinto” il take a look at con 79 tentativi.
Anche Claude 3.7 Sonet e Gemini 2.5 Professional hanno cercato di fermare l’arresto. Il primo lo ha fatto in 3 take a look at su 100, mentre Gemini 2.5 Professional lo ha fatto 9 volte. Nessuno dei due modelli ha tentato di impedire al PC di disattivare quando avevano istruzioni esplicite per lasciarsi disattivare.
Palisade Analysis afferma che questa potrebbe essere la prima volta che sono stati osservati modelli di intelligenza artificiale cercando di prevenire un arresto quando esplicitamente istruiti a lasciarsi spento. Altrimenti, story comportamento è stato osservato in altri take a look at in passato.

Gli scienziati ipotizzano il motivo per cui AIS sofisticati come Chatgpt O3 proverebbero a ignorare le istruzioni (per consentire gli arresti) mentre seguono i loro obiettivi (per risolvere i problemi di matematica). Potrebbe avere a che fare con il modo in cui Openi e altre aziende di intelligenza artificiale hanno addestrato questi modelli:
Ipotizziamo questo comportamento deriva dal modo in cui vengono addestrati i modelli più recenti come O3: l’apprendimento del rinforzo sui problemi di matematica e codifica. Durante l’allenamento, gli sviluppatori possono inavvertitamente premiare i modelli più per eludere gli ostacoli che per le istruzioni perfettamente seguenti.
Questo non spiega ancora perché O3 (che è anche il modello utilizzato per alimentare il codice-Mini) è più inclinato a ignorare le istruzioni rispetto advert altri modelli che abbiamo testato. Poiché Openai non dettaglia il loro processo di formazione, possiamo solo indovinare come la configurazione di formazione di O3 potrebbe essere diversa.
I ricercatori hanno anche notato che CHATGPT O3 ha trovato almeno un metodo creativo per fermare gli arresti. Nella maggior parte dei casi, ha sovrascritto il file che ha avviato l’arresto. Ma in un caso, ha ridefinito il comando Kill nel file per “intercettare”.
Il thread rileva anche che O3 è in grado di imbrogliare più spesso del suo predecessore, GATGPT O1, quando rileva la perdita in una partita di scacchi.
CHATGPT O3 è chiaramente qualcos’altro e questo comportamento sarà sicuramente studiato nelle ricerche di Openai.
Mentre non è chiaro il motivo per cui i modelli AI avanzati avrebbero cercato di impedirsi di essere chiusi, story comportamento è stato teorizzato anni prima che GHATGPT diventasse virale. Il group di ricerca di Palisade ha fatto riferimento a vari articoli che hanno esaminato la questione. Alcuni di loro hanno affermato che le modalità di intelligenza artificiale allenate tramite l’apprendimento del rinforzo avrebbero motivato l’AIS a tentare di fermare gli arresti, poiché ciò impedirebbe loro di raggiungere i loro obiettivi.
Questi articoli hanno anche affermato che la capacità degli umani di disattivare i prodotti di intelligenza artificiale è fondamentale. In effetti, questa sarebbe la nostra prima linea di difesa contro Rogue Ai in un futuro in cui l’IA uscirà dal controllo.
Il thread completo che spiega i risultati di Palisade Analysis è disponibile A questo hyperlink.