Modello di AI “onesto” per proteggere dagli agenti Rogue AI

La sicurezza sarà sempre fondamentale quando si tratta di intelligenza artificiale. Dopotutto, una delle nostre paure collettive è un’intelligenza artificiale altamente avanzata che sta diventando canaglia e minaccia la nostra stessa esistenza. Certamente non aiuta a vedere che alcuni dei modelli di intelligenza artificiale più intelligenti si trovano a barare per raggiungere i loro obiettivi, o che alcuni avrebbero persino cercato di ricattare gli umani per preservare la loro integrità.

Ciò è effettivamente accaduto durante i take a look at di sicurezza eseguiti su modelli di AI di frontiera prima di essere rilasciato al pubblico. CHATGPT O1 ha fatto titoli Alcuni mesi fa, quando i ricercatori della sicurezza hanno scoperto che l’IA avrebbe ricorso a Chess contro un avversario migliore per raggiungere il suo obiettivo, che stava vincendo la partita.

Più recentemente, Claude 4 ha minacciato un ingegnere che avrebbe dovuto eliminare l’IA da un laptop per esporre l’infedeltà della persona al proprio companion. L’intelligenza artificiale ha ottenuto informazioni sui piani di eliminazione e sulla presunta affare dalle e -mail a cui aveva accesso allo scopo di testare il suo comportamento.

L’attuale Claude 4 non proverà a ricattarsi gli utenti, anche se l’IA è dotata di guardrail più forti rispetto ai suoi predecessori per assicurarsi che sia sicuro per gli utenti. Detto questo, Claude 4 potrebbe decidere di denunciarti alle autorità e alla stampa se pensa che tu stia impegnando in attività nefaste, ma questo è solo un rischio teorico.

Lo situation di ricatto è ciò che ha spinto Yoshua Bengio a creare una nuova iniziativa chiamata Lawzero, che mira a sviluppare programmi di intelligenza artificiale onesti che rileveranno sistemi di intelligenza artificiale che potrebbero tentare di ingannare gli umani o diventare canaglia.

Bengio è un nome ben noto nel settore. COME Il Guardian spiegalo scienziato informatico è indicato come il “padrino di AI”. Ha condiviso il Turing Award 2018 con gli scienziati di intelligenza artificiale Geoffrey Hinton e Yann Lecun. In seguito Hinton ha vinto il premio Nobel e Lecun è ora capo scienziato di AI di Meta.

Bengio sarà il presidente di Lawzero, una società che ha più di una dozzina di ricercatori che lavorano su un sistema di AI scienziato, dopo aver raccolto $ 30 milioni in finanziamenti per il progetto.

Lo scienziato AI su cui Lawzero sta lavorando non ti proteggerà dalle allucinazioni dai modelli AI che potresti usare in questo momento. Questo è uno sfortunato effetto collaterale di programmi come CHATGPT che consumano enormi quantità di dati e uno che non sta andando through.

È interessante notare che lo scienziato AI fungerà da “psicologo” che può comprendere e prevedere i cattivi comportamenti da chatbot e agenti canaglia. Perché uno psicologo? Bengio afferma che altri agenti di intelligenza artificiale sono attori disposti a compiacere gli umani, quindi hanno bisogno di un osservatore. In effetti, Chatgpt ha subito una fastidiosa fase sicofanica, costringendo Openi a far risaltare various modifiche per sistemare la sua personalità.

Quella capacità di compiacere e completare le attività per gli utenti potrebbe effettivamente portare a comportamenti discutibili, come un modello di intelligenza artificiale che cerca di imbrogliare a un gioco o ricorrere a Blackmail per garantirne la sopravvivenza. Invece di offrire risposte aziendali come gli attori dell’IA, questo modello di AI scienziato darà probabilità che una risposta sia corretta.

La Lawzero AI cercherà di prevedere se l’azione di un agente AI porterà a danni. Se viene raggiunta una certa soglia, allora quell’intelligenza artificiale sarà bloccata dall’esecuzione dei suoi compiti.

“Vogliamo costruire AIS che sarà onesto e non ingannevole”, ha detto Bengio Il Guardian. “È teoricamente possibile immaginare macchine che non hanno sé, nessun obiettivo per se stessi, che sono solo pure macchine di conoscenza – come uno scienziato che conosce molte cose.”

L’iniziativa di Lawzero è certamente interessante, ma funzionerà solo fintanto che le aziende e le organizzazioni di intelligenza artificiale utilizzando sistemi AI avanzati lo distribuiscono per salvaguardare le loro operazioni di intelligenza artificiale. Ciò significa che Lawzero non deve solo dimostrare che il loro scienziato AI funziona come previsto. Deve anche convincere aziende come Openai, Google e altre a testarlo e usarlo. Lawzero vorrà anche impressionare i governi che potrebbero lavorare sulla regolamentazione della sicurezza dell’IA.

In altre parole, Lawzero avrà bisogno di più risorse per tenere il passo con la velocità dello sviluppo dell’IA. Finora, il progetto AI di Bengio ha conquistato una serie di importanti investitori, tra cui il Way forward for Life Institute, l’ingegnere fondatore di Skype Jaan Tallinn e la società di ricerca di Eric Schmidt, Schmidt Sciences.

Detto questo, sarà interessante vedere la ricerca che esce da Lawzero. Inizialmente, la società testerà il suo sistema di AI scienziato su modelli di intelligenza artificiale open supply, quindi non dovrebbe passare molto fino a quando non vediamo se questa IA onesta può catturare comportamenti canaglia dai modelli di intelligenza artificiale popolari.

Modello di AI “onesto” per proteggere dagli agenti Rogue AI

Michele

Recensione di pantaloni da viaggio leggero inviato bluffworks

Lascia un commento Annulla risposta

Recommended.

Pesca a mosca della lista dei secchi: inseguire Everglade Snook & Tarpon con la famiglia

Recensione HD quantistica Preonus: uno strumento di registrazione senza soluzione di continuità

Trending.

I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

TomorrowPost

Categorie

Recent News

PowerColor introduce le schede grafiche AMD Radeon RX 9060 XT

Ottieni ogni gioco Borderlands e tutto il DLC per soli $ 35 su Steam

Modello di AI “onesto” per proteggere dagli agenti Rogue AI

Tecnologia. Divertimento. Scienza. La tua casella di posta.

Michele

Recensione di pantaloni da viaggio leggero inviato bluffworks

Lascia un commento Annulla risposta

Recommended.

Pesca a mosca della lista dei secchi: inseguire Everglade Snook & Tarpon con la famiglia

Recensione HD quantistica Preonus: uno strumento di registrazione senza soluzione di continuità

Trending.

I tagli di finanziamento NIH sembrano attingere al rapporto della Fondazione Heritage che fa esplodere lo “workers Dei”

TomorrowPost

Categorie

Recent News

PowerColor introduce le schede grafiche AMD Radeon RX 9060 XT

Ottieni ogni gioco Borderlands e tutto il DLC per soli $ 35 su Steam