La capacità di CHATGPT di ignorare il copyright e il buon senso mentre creano immagini e faux deep è il discorso della città in questo momento. Il modello del generatore di immagini che Openi è stato lanciato la scorsa settimana è così ampiamente usato sta rovinando la funzionalità di base di Chatgpt e tempo di attività per tutti.
Ma non sono solo progressi nelle immagini generate dall’IA a cui abbiamo assistito di recente. IL Modello video Runway Gen-4 Ti consente di creare clip incredibili da una singola immediate di testo e una foto, mantenendo la continuità di carattere e scena, a differenza di qualsiasi cosa abbiamo visto prima.
I video forniti dall’azienda dovrebbero mettere in considerazione Hollywood. Chiunque può realizzare clip di livello cinematografico con strumenti come quello di Ruway, supponendo che funzionino come previsto. Per lo meno, l’intelligenza artificiale può aiutare a ridurre i costi di effetti speciali per alcuni movie.
Non è solo il nuovo strumento video AI di Runway che sta girando la testa. Meta ha un prodotto Mocha AI che può essere utilizzato per creare personaggi di AI parlanti in video che potrebbero essere abbastanza buoni da ingannarti.
Mocha non è un tipo di caffè scritto. È abbreviato per il personaggio cinematografico Animatore, un progetto di ricerca di Meta e dell’Università di Waterloo. L’thought di base del modello Mocha AI è piuttosto semplice. Fornisci all’IA un immediate di testo che descrive il video e un campione di discorso. L’intelligenza artificiale mette quindi insieme un video che garantisce ai personaggi “parlano” le righe nel campione audio quasi perfettamente.
I ricercatori hanno fornito molti campioni che mostrano capacità avanzate di Mocha e i risultati sono impressionanti. Abbiamo tutti i tipi di clip che mostrano protagonisti live-action e animati che parlano le righe del campione audio. Mocha tiene conto delle emozioni e l’IA può anche supportare più personaggi nella stessa scena.
I risultati sono quasi perfetti, ma non del tutto. Ci sono alcune imperfezioni visibili nelle clip. I movimenti degli occhi e del viso sono omaggi che stiamo guardando il video generato. Inoltre, mentre il movimento delle labbra sembra essere perfettamente sincronizzato con il campione audio, il movimento dell’intera bocca è esagerato rispetto alle persone reali.
Lo dico come qualcuno che ha visto molte modalità di intelligenza artificiale simili da altre aziende ormai, tra cui alcune incredibilmente convincenti.
Innanzitutto, c’è la passerella Gen-4 di cui abbiamo parlato qualche giorno fa. Le clip demo GEN-4 sono migliori di Mocha. Ma questo è un prodotto che puoi usare, Mocha può certamente essere migliorato quando diventa un modello di intelligenza artificiale commerciale.
A proposito di modelli di intelligenza artificiale che non puoi usare, confronto sempre nuovi prodotti che possono sincronizzare i caratteri generati dall’IA con i campioni audio Progetto di ricerca AI VASA-1 di Microsoftche abbiamo visto lo scorso aprile.
VASA-1 ti consente di trasformare le foto statiche di persone reali in video di personaggi di lingua purché tu fornisca un campione audio di qualsiasi tipo. Comprensibilmente, Microsoft non ha mai reso disponibile il modello VASA-1 per i consumatori, poiché story tecnologia apre le porte agli abusi.
Infine, c’è la società madre di Tiktok, Bytedance, che ha mostrato un AI simile a VASA-1 un paio di mesi fa che fa la stessa cosa. Trasforma una singola foto in un video completamente animato.
Omnihuman-1 anima anche i movimenti delle parti del corpo, qualcosa che ho visto anche nella demo di Meta Mocha. È così che abbiamo avuto modo di vedere Taylor Swift canta il Naruto tema musicale in giapponese. Sì, è una clip di Pretend Deep; Ci sto arrivando.
Prodotti come VASA-1, Omnihuman-1, Mocha e probabilmente Runway GEN-4 potrebbero essere usati per creare profondi faux che possono fuorviare.

Meta ricercatori che lavorano su Mocha e progetti simili dovrebbero affrontarlo pubblicamente se e quando il modello diventa disponibile in commercio.
Potresti individuare incoerenze nei campioni di Mocha disponibili on-line, ma guarda quei video su un show per smartphone e potrebbero non essere così evidenti. Rimuovi la tua familiarità con la generazione di video AI; Potresti pensare che alcune di queste clip di Mocha siano state girate con telecamere reali.
Anche importante sarebbe la divulgazione della meta di dati utilizzata per addestrare questa AI. Il documento ha detto che Mocha ha impiegato circa 500.000 campioni, pari a 300 ore di campioni di video vocali di alta qualità, senza dire dove hanno ottenuto quei dati. Sfortunatamente, questo è un tema del settore, non riconoscendo la fonte dei dati utilizzati per addestrare l’IA, ed è ancora preoccupante.
Troverai il documento di ricerca Mocha completa A questo hyperlink.