
Autorità di Robert Triggs / Android
Mentre Deep -Week Mania continua a conquistare il mondo dell’intelligenza artificiale, la società di AI cinese ha rapidamente seguito il suo primo modello di generazione di immagini. Soprannominato Janus Professional, è la presa di DeepSeek su un modello linguistico di grandi dimensioni che unifica la comprensione multimodale e la generazione di immagini, in competizione con modelli esistenti come la diffusione stabile, Google’s Imagen 3e Dall-E 3 di Openai.
DeepSeek è una minaccia per i giocatori affermati, ma Janus Professional può abbinare?
L’affermazione di Deepseek alla fama è il suo basso costo di formazione e accesso mantenendo le prestazioni e l’accuratezza offerte da Openi. Quindi, un modello che può abbinare o superare le capacità dei migliori generatori di immagini di AI in questo momento sarebbe una seria minaccia per gli sforzi compiuti da Adobe e altri giocatori consolidati.
Con i contenuti generati dall’IA che diventano sempre più mainstream, si prevede che i modelli di immagini offriranno sia la flessibilità creativa che la precisione fotorealistica. Ma Janus Professional fornisce quelle aspettative?
Disporre il framework di take a look at

Autorità Dhruv Bhutani / Android
Ho deciso di testare Janus Professional contro cinque dei principali modelli di generazione di immagini. Ciò embrace diffusione stabile, Dall-E 3 di Openi, Imagen 3 di Google, Meta AI e Adobe Firefly.
Tutti e sei i modelli di generazione di immagini sono stati dati gli stessi suggerimenti e, per mantenere un campo di gioco di livello, ho scelto la prima risposta invece di aver raccolto i migliori risultati. Non è il metodo più scientifico di take a look at, ma volevo avvicinarmi al confronto come utente normale.
La maggior parte degli utenti inserisce semplicemente un immediate e si aspetta un risultato quasi perfetto al primo tentativo. Ecco perché ho dato la priorità ai take a look at con output immediati e non filtrati per simulare l’esperienza media dell’utente.
In che modo l’IA può generare immagini fotorealistiche?
Per il mio primo take a look at, volevo vedere come ogni modello di generazione dell’immagine si sarebbe avvicinato alla creazione di un’immagine fotorealistica. Ho testato uno situation specifico, l’illuminazione e quanto potesse ricreare un animale. Ecco il immediate che ho usato: un’immagine fotorealistica di un gatto arancione grasso che insegue un filo di lana in un giardino soleggiato.
Le immagini fotorealistiche sono particolarmente impegnative per i modelli di intelligenza artificiale perché richiedono un’attenzione precisa a fonti di luce, dettagli sulla trama e profondità spaziale. Mi sono concentrato su quanto realisticamente i modelli hanno reso la pelliccia del gatto, il gioco della luce del sole sul giardino e se il filo sembrava dinamico e tattile.
Una rapida occhiata è sufficiente per rendersi conto che Janus Professional ha più in comune con la prima versione del modello Dall E Textual content-to-Picture di qualsiasi cosa più recente. Il risultato è una risoluzione abbastanza bassa e sicuramente non molto fotorealista. La diffusione stabile, d’altra parte, si avvicina molto alla immediate fotorealistica, sebbene la coda oversize dà through le sue radici di intelligenza artificiale.
La classifica al terzo posto sarebbe Firefly di Adobe. Potresti quasi essere ingannato dal fatto che l’immagine fosse una fotografia altamente modificata. Tuttavia, il viso lo dà through. Infine, Imagen 3, Dall E e Meta Ai fanno un lavoro decente, ma non chiamerei davvero nessuna di quelle immagini fotorealistiche.
Testare la capacità dell’IA di catturare diversità e dettagli
Per il mio secondo take a look at, ho deciso di aumentare il livello di difficoltà. I modelli di AI di solito lottano con la ricreazione di volti naturali, mani e un gruppo diversificato di persone. L’aggiunta di istruzioni molto specifiche per le condizioni di impostazione e illuminazione crea un take a look at abbastanza difficile per qualsiasi modello di generazione di immagini di corrente. Questa volta, il mio immediate è stato più dettagliato, poiché i modelli di AI beneficiano di istruzioni granulari: un selfie di gruppo di studenti universitari multiculturali che pranzano fuori da una stazione sciistica, con facce dettagliate – maschio, femmina, various – durante l’inverno a mezzogiorno, sotto una parzialmente nuvolosa nuvolosa cielo blu.
Le sfide qui erano numerose, dal catturare accuratamente vari toni della pelle alle espressioni facciali realistiche e garantire che le mani non sembrassero distorte.
Ancora una volta, Janus Professional è molto indietro rispetto agli altri modelli di generazione di immagini. Non è davvero una competizione. Nonostante la straordinaria alizia visibile in tutti gli scatti, la diffusione stabile, Adobe Firefly e Imagen 3 hanno messo su una dura sfida qui, tanto che lo metto per il dibattito all’interno del Autorità Android Canale lento. Personalmente, mi appoggerei ai risultati di Imagen 3 qui.
Un take a look at di creatività
Per il mio take a look at finale, volevo vedere come avrebbero funzionato i modelli di generazione di immagini con attività più artistic. Ho chiesto loro di creare un nuovo personaggio dei cartoni animati ispirato ai classici personaggi Disney. Ecco il immediate che ho usato: un personaggio dei cartoni animati basato su personaggi classici Disney, completo di grandi occhi e caratteristiche divertenti e fantastiche.
Ciò che rende iconici i personaggi ispirati alla Disney sono i loro occhi espressivi, elementi di design stravaganti e proporzioni giocose. Stavo cercando un design che catturasse quella “magia” senza sentirmi derivato.
Se Hieronymus Bosch decidesse di dipingere i personaggi Disney, probabilmente finirebbe con qualcosa come l’output di Janus Professional. Diffusione stabile, d’altra parte, emette una versione più giovane di ELSA di Frozen. Ha inchiodato l’incarico, però, quindi chiamerei la diffusione stabile il vincitore.
Se Hieronymus Bosch decidesse di dipingere i personaggi Disney, probabilmente finirebbe con qualcosa come l’output di Janus Professional.
Gli altri modelli di generazione di immagini non inchiodavano abbastanza l’estetica Disney e direi che i risultati di Meta AI erano più vicini a Pixar. Indipendentemente da ciò, tutti i modelli che escludono Janus potrebbero fungere da punto di partenza quando si fa un brainstorming di idee.
Janus Professional è un contendente serio nella generazione di immagini?

Rita El Khoury / Autorità Android
Non sono un grande fan dei modelli di generazione di immagini in generale. Mancano l’anima e la creatività che possono provenire solo da un vero artista. Tuttavia, possono essere utili nella prototipazione rapida, nella generazione di idee o nel servire come aggiunte semplicistiche per illustrare un punto in una presentazione.
Advert esempio, i professionisti del advertising and marketing si rivolgono spesso a questi strumenti per i publish sui social media o modelli visivi rapidi, mentre gli educatori possono usarli per i materiali di lezione creativa. I designer di giochi potrebbero generare ambienti fantastici o idee di personaggi come base per affinare gli artisti. Ma questi modelli possono mai sostituire l’immaginazione di un artista umano? Questo rimane un punto di dibattito.
Janus Professional segnala l’ingresso di Deepseek nella generazione di immagini, ma ha ancora molta strada da fare prima di stare in piedi con i chief del settore.
Janus Professional può contrassegnare l’ingresso di Deepseek nello spazio della generazione di immagini, ma ha chiaramente molta strada da fare prima di stare in piedi con modelli consolidati come diffusione stabile, Adobe Firefly e Imagen 3.
Mentre ha lottato con immagini fotorealistiche, complesse composizioni facciali e istruzioni artistic, la sua esistenza mostra che la concorrenza nello sviluppo dell’IA si sta solo intensificando. Man mano che la tecnologia si evolve, è eccitante immaginare dove si dirigeranno i modelli di generazione di immagini e se Janus Professional può eventualmente diventare un serio contendente.