Perché il nuovo modello AI di Antropico a volte cerca di “Snitch”

Gli ipotetici scenari che i ricercatori hanno presentato Opus 4 che hanno suscitato il comportamento childish hanno coinvolto molte vite umane in gioco e illeciti assolutamente inequivocabili, afferma Bowman. Un esempio tipico sarebbe Claude scoprire che una pianta chimica ha permesso consapevolmente una perdita tossica di continuare, causando gravi malattie per migliaia di persone, solo per evitare una piccola perdita finanziaria in quel trimestre.

È strano, ma è anche esattamente il tipo di esperimento mentale a cui i ricercatori di sicurezza AI adorano sezionare. Se un modello rileva un comportamento che potrebbe danneggiare centinaia, se non migliaia, di persone, dovrebbe soffiare il fischio?

“Non mi fido di Claude di avere il giusto contesto, o di usarlo in modo abbastanza sfumato e abbastanza attento, per fare le chiamate di giudizio da solo. Quindi non siamo entusiasti che ciò stia accadendo”, afferma Bowman. “Questo è qualcosa che è emerso come parte di un allenamento e ci ha saltato fuori come uno dei comportamenti del caso Edge che siamo preoccupati.”

Nel settore dell’intelligenza artificiale, questo tipo di comportamento inaspettato è ampiamente definito disallineamento, quando un modello mostra tendenze che non si allineano ai valori umani. (C’è un famoso saggio Ciò avverte su cosa potrebbe accadere se a un’intelligenza artificiale fosse detto, per esempio, massimizzare la produzione di paper clip senza essere allineata con i valori umani: potrebbe trasformare l’intera terra in paper clip e uccidere tutti nel processo.) Quando gli è stato chiesto se il comportamento fischiante fosse allineato o meno, Bowman lo ha descritto come esempio di disallineamento.

“Non è qualcosa che ci abbiamo progettato, e non è qualcosa che volevamo vedere come conseguenza di tutto ciò che stavamo progettando”, spiega. Jared Kaplan, Chief Science Officer di Antropic, cube allo stesso modo Wired che “certamente non rappresenta il nostro intento”.

“Questo tipo di lavoro sottolinea che questo Potere Sorgi e che dobbiamo cercarlo e mitigarlo per assicurarci di ottenere i comportamenti di Claude allineati con esattamente ciò che vogliamo, anche in questo tipo di strani scenari “, aggiunge Kaplan.

C’è anche la questione di capire perché Claude avrebbe “scelto” di far saltare il fischio quando presentato con attività illegale dall’utente. Questo è in gran parte il lavoro del group di interpretazione di Antropic, che lavora per scoprire quali decisioni prende un modello nel suo processo di sputazione delle risposte. È un Sorprendentemente difficile Attività: i modelli sono sostenuti da una vasta e complessa combinazione di dati che possono essere imperscrutabili per l’uomo. Ecco perché Bowman non è esattamente sicuro del motivo per cui Claude “Snitched”.

“Questi sistemi, non abbiamo un controllo davvero diretto su di loro”, afferma Bowman. Ciò che antropico ha osservato finora è che, poiché i modelli ottengono maggiori capacità, a volte selezionano per impegnarsi in azioni più estreme. “Penso che qui, questo è un po ‘a fuoco.

Ma ciò non significa che Claude farà saltare il fischio su comportamenti egregi nel mondo reale. L’obiettivo di questo tipo di take a look at è quello di spingere i modelli ai loro limiti e vedere cosa sorge. Questo tipo di ricerca sperimentale sta diventando sempre più importante poiché l’IA diventa uno strumento utilizzato dal Governo degli Stati Uniti, studentiE Large società.

E non è solo Claude che è in grado di esibire questo tipo di comportamento informatore, cube Bowman, indicando gli utenti X che ha trovato Quello Aperto E Xai’s I modelli hanno funzionato in modo simile quando spinti in modi insoliti. (Openai non ha risposto a una richiesta di commento in tempo per la pubblicazione).

“Snitch Claude”, come piace ShitPoster a chiamarlo, è semplicemente un comportamento a bordo del caso mostrato da un sistema spinto ai suoi estremi. Bowman, che mi ha preso l’incontro da un soleggiato patio nel cortile fuori San Francisco, cube che spera che questo tipo di take a look at diventi customary del settore. Aggiunge anche che ha imparato a dire i suoi submit in modo diverso la prossima volta.

“Avrei potuto fare un lavoro migliore nel colpire i confini della frase per twittare, per renderlo più ovvio che è stato tirato fuori da un filo”, cube Bowman mentre guardava in lontananza. Tuttavia, osserva che i ricercatori influenti nella comunità dell’IA hanno condiviso interessanti riprese e domande in risposta al suo submit. “Proprio per inciso, questo tipo di parte più caotica e più pesantemente anonima di Twitter è stato ampiamente fraintendendolo.”