• About
  • Privacy Policy
  • Disclaimer
  • Contact
TomorrowPosT
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni
No Result
View All Result
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni
No Result
View All Result
TomorrowPost
No Result
View All Result

Perché il nuovo modello AI di Antropico a volte cerca di “Snitch”

Michele by Michele
29/05/2025
Home Tech News
Condividi su FacebookCondividi su WhatsappCondividi su Twitter


Gli ipotetici scenari che i ricercatori hanno presentato Opus 4 che hanno suscitato il comportamento childish hanno coinvolto molte vite umane in gioco e illeciti assolutamente inequivocabili, afferma Bowman. Un esempio tipico sarebbe Claude scoprire che una pianta chimica ha permesso consapevolmente una perdita tossica di continuare, causando gravi malattie per migliaia di persone, solo per evitare una piccola perdita finanziaria in quel trimestre.

È strano, ma è anche esattamente il tipo di esperimento mentale a cui i ricercatori di sicurezza AI adorano sezionare. Se un modello rileva un comportamento che potrebbe danneggiare centinaia, se non migliaia, di persone, dovrebbe soffiare il fischio?

“Non mi fido di Claude di avere il giusto contesto, o di usarlo in modo abbastanza sfumato e abbastanza attento, per fare le chiamate di giudizio da solo. Quindi non siamo entusiasti che ciò stia accadendo”, afferma Bowman. “Questo è qualcosa che è emerso come parte di un allenamento e ci ha saltato fuori come uno dei comportamenti del caso Edge che siamo preoccupati.”

Nel settore dell’intelligenza artificiale, questo tipo di comportamento inaspettato è ampiamente definito disallineamento, quando un modello mostra tendenze che non si allineano ai valori umani. (C’è un famoso saggio Ciò avverte su cosa potrebbe accadere se a un’intelligenza artificiale fosse detto, per esempio, massimizzare la produzione di paper clip senza essere allineata con i valori umani: potrebbe trasformare l’intera terra in paper clip e uccidere tutti nel processo.) Quando gli è stato chiesto se il comportamento fischiante fosse allineato o meno, Bowman lo ha descritto come esempio di disallineamento.

“Non è qualcosa che ci abbiamo progettato, e non è qualcosa che volevamo vedere come conseguenza di tutto ciò che stavamo progettando”, spiega. Jared Kaplan, Chief Science Officer di Antropic, cube allo stesso modo Wired che “certamente non rappresenta il nostro intento”.

“Questo tipo di lavoro sottolinea che questo Potere Sorgi e che dobbiamo cercarlo e mitigarlo per assicurarci di ottenere i comportamenti di Claude allineati con esattamente ciò che vogliamo, anche in questo tipo di strani scenari “, aggiunge Kaplan.

C’è anche la questione di capire perché Claude avrebbe “scelto” di far saltare il fischio quando presentato con attività illegale dall’utente. Questo è in gran parte il lavoro del group di interpretazione di Antropic, che lavora per scoprire quali decisioni prende un modello nel suo processo di sputazione delle risposte. È un Sorprendentemente difficile Attività: i modelli sono sostenuti da una vasta e complessa combinazione di dati che possono essere imperscrutabili per l’uomo. Ecco perché Bowman non è esattamente sicuro del motivo per cui Claude “Snitched”.

“Questi sistemi, non abbiamo un controllo davvero diretto su di loro”, afferma Bowman. Ciò che antropico ha osservato finora è che, poiché i modelli ottengono maggiori capacità, a volte selezionano per impegnarsi in azioni più estreme. “Penso che qui, questo è un po ‘a fuoco.

Ma ciò non significa che Claude farà saltare il fischio su comportamenti egregi nel mondo reale. L’obiettivo di questo tipo di take a look at è quello di spingere i modelli ai loro limiti e vedere cosa sorge. Questo tipo di ricerca sperimentale sta diventando sempre più importante poiché l’IA diventa uno strumento utilizzato dal Governo degli Stati Uniti, studentiE Large società.

E non è solo Claude che è in grado di esibire questo tipo di comportamento informatore, cube Bowman, indicando gli utenti X che ha trovato Quello Aperto E Xai’s I modelli hanno funzionato in modo simile quando spinti in modi insoliti. (Openai non ha risposto a una richiesta di commento in tempo per la pubblicazione).

“Snitch Claude”, come piace ShitPoster a chiamarlo, è semplicemente un comportamento a bordo del caso mostrato da un sistema spinto ai suoi estremi. Bowman, che mi ha preso l’incontro da un soleggiato patio nel cortile fuori San Francisco, cube che spera che questo tipo di take a look at diventi customary del settore. Aggiunge anche che ha imparato a dire i suoi submit in modo diverso la prossima volta.

“Avrei potuto fare un lavoro migliore nel colpire i confini della frase per twittare, per renderlo più ovvio che è stato tirato fuori da un filo”, cube Bowman mentre guardava in lontananza. Tuttavia, osserva che i ricercatori influenti nella comunità dell’IA hanno condiviso interessanti riprese e domande in risposta al suo submit. “Proprio per inciso, questo tipo di parte più caotica e più pesantemente anonima di Twitter è stato ampiamente fraintendendolo.”

Tags: AntropicocercamodelloNuovoPerchéSnitchvolte
Michele

Michele

Next Post
Qualcuno toglie il telefono di Randy Pitchford

Qualcuno toglie il telefono di Randy Pitchford

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Recommended.

I trucchi per il gioco di YouTube diffondessero malware arcani di furto agli utenti di lingua russa

I trucchi per il gioco di YouTube diffondessero malware arcani di furto agli utenti di lingua russa

21/03/2025
I ricercatori scoprono 46 difetti critici negli inverter solari di Sungrow, Growatt e SMA

I ricercatori scoprono 46 difetti critici negli inverter solari di Sungrow, Growatt e SMA

28/03/2025

Trending.

I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

11/02/2025

TomorrowPost

Welcome to Tomorrow Post – your trusted source for the latest in computers, gaming, tech gear, Microsoft, software, cybersecurity, and much more! Our mission is simple: to provide technology enthusiasts, professionals, and business leaders with accurate, insightful, and up-to-date information that helps them navigate the ever-evolving world of technology.

Categorie

  • Apple
  • Computers
  • Gaming
  • Gear
  • Microsoft
  • Mobile
  • News
  • Review
  • Security
  • Software & Apps
  • Tech for Business
  • Tech News

Recent News

La vendita di Sonos Day’s Day introduce grandi sconti su Arc Extremely Soundbar e altro ancora

La vendita di Sonos Day’s Day introduce grandi sconti su Arc Extremely Soundbar e altro ancora

01/06/2025
Crawling internet per straccio con crawl4ai

Crawling internet per straccio con crawl4ai

01/06/2025
  • About
  • Privacy Policy
  • Disclaimer
  • Contact

© 2025- https://tomorrowpost.net- All Rights Reserved

No Result
View All Result
  • Home
  • Computers
    • Gaming
  • Gear
    • Apple
    • Mobile
  • Microsoft
    • Software & Apps
  • Review
    • Security
  • Tech for Business
  • Tech News
  • News
  • Termini e condizioni

© 2025- https://tomorrowpost.net- All Rights Reserved