Quando Chatgpt è arrivato per la prima volta, abbiamo ottenuto un chatbot basato sul testo che potrebbe tentare di rispondere ragionevolmente a qualsiasi domanda, anche se ha sbagliato le cose (lo fa ancora, poiché le allucinazioni non sono scomparse). Non ci è voluto molto perché l’IA acquisisse nuove abilità. Poteva vedere le cose tramite foto e video. Poteva sentire gli umani parlare e rispondere tramite la propria voce.
Il passo successivo è stato quello di dare agli occhi e alle orecchie di AI che potevano osservare l’ambiente in tempo reale. Abbiamo già occhiali intelligenti che lo fanno, il meta modello Ray-Ban. Google e altri stanno lavorando su prodotti simili. Apple potrebbe mettere le telecamere all’interno degli AirPods per lo stesso motivo.
Il lavoro sarà completo quando l’IA ha un corpo da presentare fisicamente intorno a noi e ci aiuterà con tutti i tipi di compiti che richiedono la gestione di oggetti della vita reale. Ho visto la scrittura sul muro mesi fa quando ho detto che volevo robotic di ai umanoidi per la casa.
Più recentemente, ho visto il tipo di modello di intelligenza artificiale che avrebbe dato ai robotic la intelligenza per vedere e comprendere il mondo fisico che li circonda e interagire con oggetti e azioni su cui non sono mai stati addestrati. Quello period The Determine Helix Imaginative and prescient Language-Motion (VLA) per robotic di intelligenza artificiale.
Non sorprende che altri stiano lavorando su tecnologie simili e Google Ho appena annunciato due modelli di robotica Gemelli che mi hanno fatto impazzire. Come la figura tecnologica, gli AIS della robotica Gemini aiuteranno i robotic a comprendere i comandi umani, l’ambiente circostante e ciò che devono fare per svolgere i compiti che gli umani danno loro.
Siamo ancora nei primi giorni della robotica di AI, e ci vorrà un po ‘fino a quando il aiutante del robotic umanoide che voglio in casa è pronto per il consumo di massa. Ma Google sta già gettando le basi per quel futuro.
Google DeepMind pubblicato un submit sul weblog E un documento di ricerca descrivendo i nuovi modelli GEMINI Robotics e Gemini Robotics-ER che ha sviluppato sul retro Gemelli 2.0 tecnologia. Questo è il programma AI generativo più avanzato di Google disponibile per gli utenti in questo momento.
Google Robotics è la VLA costruita su Gemini 2.0 “con l’aggiunta di azioni fisiche come nuova modalità di output allo scopo di controllare direttamente i robotic”.
Il secondo è “un modello Gemelli con una comprensione spaziale avanzata, consentendo ai robotic di gestire i propri programmi usando le capacità di ragionamento incarnato (ER) di Gemini”. È giustamente chiamato Gemini Robotics-ER.
Con il ragionamento incarnato, Google significa che i robotic devono sviluppare “la capacità umana di comprendere e reagire al mondo che ci circonda” e farlo in sicurezza.
Google ha condiviso vari video che mostrano robotic di intelligenza artificiale in azione, rispondendo ai comandi del linguaggio naturale e adattandosi ai mutevoli paesaggi. Grazie a Gemelli, i robotic possono vedere l’ambiente circostante e comprendere il linguaggio naturale. Possono quindi svolgere nuovi compiti anche se non avrebbero mai avuto interagire con oggetti o luoghi prima.
Google spiega i tre principi che hanno guidato lo sviluppo della robotica Gemelli. Questa è generalità, interattività e destrezza:
Per essere utili e utili per le persone, i modelli di intelligenza artificiale per la robotica hanno bisogno di tre qualità principali: devono essere generali, il che significa che sono in grado di adattarsi a various situazioni; Devono essere interattivi, il che significa che possono comprendere e rispondere rapidamente alle istruzioni o ai cambiamenti nel loro ambiente; E devono essere abili, il che significa che possono fare il tipo di cose che le persone in genere possono fare con le loro mani e dita, come manipolare con cura gli oggetti.
Come vedrai nei video in questo submit, i robotic possono riconoscere tutti i tipi di oggetti su una tabella ed eseguire attività in tempo reale. Advert esempio, un robotic slam toglie un piccolo basket attraverso un cerchio quando gli è stato detto.

I robotic di intelligenza artificiale possono anche adattarsi rapidamente al panorama in evoluzione. Detto di mettere le banane in un cestino di un colore specifico su un tavolo, i robotic svolgono il compito correttamente anche se l’umano muove fastidiosamente quel cestino.
Infine, i robotic di AI possono visualizzare sottili abilità motorie, come piegare origami o imballare una borsa con chiusura a zipper.
Google spiega che il modello di robotica Gemini funziona con tutti i tipi di tipi di robotic, sia che si tratti di una piattaforma robotica a due bracci o di un modello umanoide.
Gemini Robotics-ER è una tecnologia AI altrettanto brillante per la robotica. Questo modello si concentra sulla comprensione del mondo in modo che i robotic possano eseguire movimenti e compiti nello spazio che dovrebbero eseguire azioni. Con Gemini Robotics-ER, i robotic di AI impiegherebbero Gemini 2.0 per codificare (motivo?) Al volo:
Gemini Robotics-ER migliora le capacità esistenti di Gemini 2.0 come il puntamento e il rilevamento 3D con un ampio margine. Combinando il ragionamento spaziale e le capacità di codifica di Gemini, Gemini Robotics-ER può istanziare capacità completamente nuove al volo. Advert esempio, quando viene mostrato una tazza di caffè, il modello può intuire una presa appropriata a due dita per raccoglierla dalla maniglia e una traiettoria sicura per avvicinarsi.
Tutto questo è molto eccitante, almeno per questo appassionato di intelligenza artificiale, anche se so che ho un sacco di attesa di fare fino a quando i robotic di AI alimentati da story tecnologia sono disponibili in commercio.

Prima di iniziare a preoccuparti che i robotic di AI diventino nemici, come nei movie, dovresti sapere che Google ha anche sviluppato un Costituzione robotic In precedenti lavori per garantire che i robotic di intelligenza artificiale si comportino in sicurezza nei loro ambienti e prevengano danni agli umani. La Costituzione della sicurezza si basa sulle tre leggi della robotica di Isaac Asimov, con Google che lo aggiorna per creare un nuovo framework che può essere ulteriormente adattato tramite semplici istruzioni in linguaggio naturale:
Da allora abbiamo sviluppato un framework per generare automaticamente costituzioni basate sui dati-regole espresse direttamente in linguaggio naturale-per guidare il comportamento di un robotic. Questo quadro consentirebbe alle persone di creare, modificare e applicare costituzioni per sviluppare robotic più sicuri e più allineati con i valori umani.
Puoi leggere di più sui modelli di robotica Gemini A questo hyperlink.