AI

Tady AI

Nejlepší AI generátory obrázků v roce 2024

Odkazy v článku odkazují na příslušnou část videa. Při čtení můžete otevřít video pro “náhled” přesně v tom čase, ke kterému text odkazuje.

Tohle je novoroční srovnání těch nej generátorů obrázků, které jsou k mání na přelomu roků 2023 a 2024. Budu dělat pokusy s Midjourney v nové verzi šest, v tuto chvíli alfa verzi 6, a budu srovnávat s Dall-E 3, Adobe Firefly, a Stable Diffusion XL. Budu srovnávat proto, že každý z těchto nástrojů tvrdí, že je postaven na jiné technologii, nebo aspoň trochu jiné…
Je fér srovnávat alfa verzi s ostatními nástroji? Oni ty ostatní nástroje taky nejsou v žádné finální verzi, protože nic finálního neexistuje a všechno se překotně vyvíjí, to za prvé. A za druhé, tohle srovnání bude velmi subjektivní, zaujaté a zcela neférové… protože celý svět je nefér a protože tohle je moje video. A já se budu snažit vytvořit podobný typ obrázků čtyřmi a půl technologiemi, a pak s potěšením srovnám nesrovnatelné.
Pokud v tom budete hledat nějakou světovou spravedlnost, statistiky, měření šuplerou nebo grafy vytvořené z objektivních pozorování za poslední tři dekády, tak možná nebudete spokojení.
Jestli čekáte kochání se pěknými obrázky a zkoumání jednotlivých detailů, ironické komentáře a nevhodné poznámky, směle pokračujte.

Tohle video je také volné pokračování předchozího videa, takže v něm uvidíte obrázky z minula a pár nových motivů. Zaměřím se na to, co by mělo být silnou stránkou Midjourney, tedy typický styl, krása, realističnost, a nově vylepšené detaily, jako je kůže nebo vlasy.
Moje prompty jste už víceméně viděli, s Midjourney se dá držet krátkých, jasných promptů.

Druhý bude Adobe Firefly. Recenze Adobe Firefly na tomhle kanále najdete taky, nicméně jsou pár měsíců staré, takže všechno už je jinak. Budu používat téměř stejné, stručné prompty jako v Midjourney. Velký rozdíl zde dělá možnost nastavení různých stylů v pravém menu, takže není potřeba to vypisovat do promptu. Jak vidíte, můžete tu nastavit i clonu, čas závěrky a ohniskovou vzdálenost objektivu fotoaparátu, kterým byste fotku vytvořili, kdybyste drželi v ruce klasický foťák. Je z toho jasné, že nebudu dodržovat úplně stejné prompty, to není smyslem tohoto srovnání. Smyslem je vytvořit podobně vypadající nebo dokonce stejné obrázky několika různými nástroji. Kde to jde, dodržím poměr stran 16:9, čistě proto, že to je formát videa, na které se právě díváte.
Adobe Firefly dodává velmi kvalitní výsledky většinou na první pokus. Hned při pokusu o Prahu před padesáti lety se mi podařilo vyplašit strážce cudnosti a politické korektnosti, a vůbec netuším čím. Budovy jsou tragédie a nic lepšího v tomhle typu záběru z toho asi nevymáčknu. Za to cokoli, co smrdí potencionálním byznysem, produktovou fotkou nebo čerstvým chlebem vypadá chutně a esteticky.
Pokud používáte některé z nástrojů a udivuje vás, že to mám nějaké tmavé, tak je to proto, že mám na celých Windows nastavené tmavé téma jako default. Vy můžete mnohé vidět na bílém pozadí. Berte to jako zpestření, já to nebudu přepínat pro každé video, protože mi to trhá oči.

Dall-E 3 se v plné verzi dá používat buď v placeném ChatGPT 4, nebo v Microsoftím Copilotu, který je také placený. Nově před pár dny vyšel Copilot zdarma pro všechny mobily a iPady. Cokoli teď říkám, může být za týden jinak, podívejte se na datum vydání tohoto videa, a pokud jste tu o několik měsíců pozděj, tak tohle už je možná úplně jinak.
Dall-E ve verzi 3 zdarma pro všechny existuje, a je v tuto chvíli dostupné v Bing Chatu, časem už zvaném asi jen Copilot.
Není to plná verze, můžete vytvářet pouze čtvercové obrázky o velikosti 1024×1024 pixelů, ale to se předpokládám s rozšiřováním Copilota úplně všude taky bude měnit.
Dall-E 3 většinou zvládá vše na první pokus, obrázky jsou téměř perfektní, portréty, krajiny, budovy, ruce, jídlo… V tuto chvíli hodnotím Dall-E 3 jako to nejlepší, co můžete používat, pokud jste běžnými uživateli, nechystáte se generativní obrázkovou AI zkoumat do hloubky a provozovat sofistikovanou promptovou magii, a chcete to mít zadarmo.

Pokud jste zcela jiný případ, chcete všemu rozumět a dělat si vše po svém, a taky pokud se chcete věnovat generování videa, vytváření vlastních postupů, lámání dosud poznaného přes koleno, a obecně pokud se chystáte měnit svět, tak už asi znáte Stable Diffusion. Já budu používat Stable Diffusion XL ve dvou různých nástrojích.

První je webové prostředí Leonardo AI, jeho recenzi najdete v minulých videích. Je vhodné jak pro začátečníky, tak pro ty, kteří nemají dostatečně silný počítač, případně chtějí dělat obrázky na mobilu, psacím stroji nebo pečené bramboře. Na Androidích zařízeních Leonardo ještě nefunguje, zatím jen iPhone a iPad, ale prý v budoucnu.
Druhým nástrojem bude lokálně instalovaný Ruined Fooocus. Tohle je relativní novinka, je to takový kompromis mezi něčím, co si můžete nainstalovat na vlastní počítač a zároveň si to aspoň nějak uživatelsky nastavit. Autoři sami to nazývají mixem mezi Midjourney, ve kterém nemusíte nic nastavovat, a Stable Diffusion, která je zadarmo, offline a open source a velmi variabilní a nastavitelná.
Samozřejmě jestli už používáte Automatic 1111 nebo dokonce Comfy UI, tak se asi budete pobaveně usmívat nad zjednodušeným uživatelským prostředím, ale bavíme se o generování obrázků pro běžného uživatele, který nechce studovat instalaci pythonu, Anacondy a další zvířeny.
Ruined Fooocus na rozdíl od všech předchozích nástrojů využívá ke generování obrázků vaši grafickou kartu, nebo váš procesor. Já k němu udělám návod, ale pokud se rozhodnete ho používat poprvé a vyskakuje vám při generování grafická karta z okna, chytá jasným plamenem, nebo váš počítač omdlívá hrůzou při každém obrázku, asi bude lepší se vrátit k online nástrojům.
Jestli vletíte do Stable Diffusion nepolíbení alchymií míchání promptů a bez znalosti zaklínadel, které je nutno vkládat úplně všude, a použijete nějaká default nastavení, polezou vám z toho takovéhle… nedokonalosti. Je to sice pěkné, ale.. to jsme vůbec nechtěli, že?
Já tady budu používat dlouhé prompty, vlastní nastavení, které je doporučené pro model Juggernaut XL, pozor, to je 6,5 GB, které je nutné stáhnout navíc, třeba ze Civit.AI, sem tam budu užívat Styly z výběru, ale hlavně budu ohýbat pozitivní prompt. Většinou zůstanu u poměru stran 16:9 v menší verzi, ale zjevně je možné generovat i rovnou do velikosti videa, tedy 1920:1080 pixelů. Ne všechno se podaří, takže tady to bude víc pokusů. Ale uvidíte, že i s nástrojem zdarma a trochou vlastní námahy můžete udělat totéž, co s Midjourney, a bez cenzury a omezení.
Nebudu vysvětlovat co a proč dělám, ale když vydržíte do dalších videí, tak to rozeberu i pro nesmělé, začínající a stydlivější prompto-tvořiče.
No a konečně k těm srovnáním! Začnu od obrázků, které jste ještě neviděli. Měla by to být témata, která jdou Midjourney nejlépe. Nejdřív vyberu jeden náhled z každého nástroje k danému promptu, a pak se podíváme na detaily.

První prompt: Portrét zblízka, 30 letá žena s perfektně opálenou tváří, hnědýma očima, tmavě hnědými vlasy, ve světle modré košili.
Midjourney podává skvělý výkon, tak jak všichni očekáváme. Dělám dva různé pokusy, jednou se –style raw, a nakonec jeden z obrázků vylepším pomocí Upscale (Creative).
Pleť je dokonalá, oči jsou obě stejné, přirozeně vypadající, jsou v nich i téměř identické odrazy světla, jedno oko je rozostřené, protože už je mimo hloubku ostrosti, stejně jako špička nosu.

Dall-E 3 maluje čtyři rozdílné ženy, a všechny jsou příliš digitální, na můj vkus. Všechny mají viditelně nedokonalé oční bělmo, ale jinak to není špatný výsledek.

Adobe Firefly jde na opačnou stranu, fotky jsou velmi realisticky vypadající, bohužel každá z nich má nějakou chybu, která prozradí, že jsou generované. S Midjourney to nelze srovnávat.

Stable Diffusion v Leonardu, ze dvou fotek je jedna trochu digitálně působící, ta druhá je velmi realistická, má jen malinko nedokonalé oči. Ale provádím Upscale, který je také kreativní, oči vylepšuje a celé je to na úrovni realisticky vypadající fotky, srovnatelné s Midjourney.
Stable Diffusion ve Fooocusu, zkouším taky jen dvě fotky, obě jsou skvělé. Zkouším třetí generovat do velikosti 1920 na 1080, tedy větší, než na co je model trénován. Obrázek jako takový je dobrý, ale tvář se lehoučce nesymetrická, což je ale spíš příjemné překvapení, taky se mohla vygenerovat dvojhlavá saň. To je tak nějak funkce Stable Diffusion, ne chyba. Na větší formáty je potřeba Upscalovat, ne generovat nesmyslně velké obrázky.

Záběr velmi zblízka na tvář padesátiletého muže se strništěm, modrýma očima, stříbrnými vlasy a moderními brýlemi, muž má červenou košili a černé sako.
Midjourney dodává čtyři dokonalé muže. Tedy, podle promptu dokonalé, toho pána osobně neznám…
Dall-E 3 dodává čtyři ještě o něco dokonalejší muže. Popravdě, jsou až příliš dokonalí, lehce neuvěřitelní. Tvář v detailu vypadá jako čerstvě zrolbovaná sjezdovka, ale ty oči! Světýlka v nich jsou trochu odlišná, což je reálnější, brýle odrážejí vpravo dole světlo… Všechny čtyři košile a saka mají znatelnou texturu materiálu.
Firefly si vymýšlí troje oranžové brýle ze čtyř a přidělává si tím problémy, všechny tři fotky mají docela nereálné zabarvení brýlí, nerealistické odrazy v brýlích… Něco tomu chybí.
Leonardo, druhá fotka je vydařená a po upscalování… perfektní mix reality a dokonalosti.
Ve Fooocusu opět generuju do větší než doporučené velikosti, dostávám jednoho ducha, ale tři velmi uvěřitelné pány, kteří skvěle splňují zadání promptu.

Další silnou stránkou Midjourney by měly být fantastická stvoření všeho druhu. Tohle je záběr zblízka na fantastického draka s modrou hlavou a červenýma očima, s pozadím v plamenech, bokeh efekt a dramatické osvětlení. Krom nestvůry si užívám i sršící jiskry a poslední kousek kreativně upscaluju.
Dall-E 3 dodává daleko většího drsňáka z různých úhlů, a i pozadí je dramatičtější. Detaily jsou k nakousnutí… nebo zakousnutí? Kvalita je při zvětšení nižší, ale verze zdarma umí jen obrázek do velikosti 1024×1204 pixelů, takže to nelze brát jako chybu.
Adobe Firefly umí úplně jiné draky, na první pohled mají zajímavou barevnost, odrazy pozadí oranžové na kůži jsou super, zadní oko vyboulené do prostoru… Nicméně na mě to působí trochu jako příliš mnoho insta filtrů aplikovaných najednou.
Leonardo, dělám jen dva obrázky, oba jsou dobré, a jeden upscale. Je to jiný styl, a přijde mi to trochu jako drak vymodelovaný z moduritu… ale kdo posoudí jak reálný je drak, který neexistuje?
Fooocus dělá pěkné kousky, konzistentní stvoření na všech fotkách, zajímavé a uvěřitelné detaily.

Teď vyzkouším něco, co by Midjourney ve verzi 6 mělo umět. Tvůrci Midjourney si představují, že takto budeme nově prompty vytvářet. Jde o popis jednotlivých částí scény s mnoha detaily a rozložením objektů ve scéně. Prompt je:
Trojzáběr, městský park při západu slunce. Nalevo je 30 letý černoch s krátkými vlasy a bradkou, má na sobě světle modrou košili a béžové džíny. Uprostřed je desetileté dítě ve zlatorůžové teplákovce a se zelenou čepicí. Napravo je 40 letá bílá žena v moderním červenočerném kabátě s modrorůžovou šálou a v modrých džínách. Filmový záběr, přirozené denní světlo.

Těch pokusů bylo víc, ale žádný z nich není dokonalý. Vybírám ty nejlepší.
Zkouším totéž s Dall-E 3, ani nijak neměním prompt. Neočekávám, že to bude fungovat. Dělám jen jeden pokus, čtyři obrázky, a všechny jsou naprosto přesné. Kromě věku nemám výhrady. Někde trochu utíkají oči, a to tak, že do všech stran, ale jinak je to excelentní.
Adobe Firefly matně tuší, co se od něj žádá, ale dost to kulhá, i po mnoha pokusech. Máme tři osoby, mají něco na sobě… o těch obličejích nebudeme mluvit….
Leonardo tvoří moc pěkné obrázky, místy dokonce trefuje počet osob. Upřímně, Stable Diffusion tohle nemá umět tímto způsobem, pokud chci přesné rozmístění objektů, dělá se to trochu jinak, s nástroji, které to vytvoří velmi přesně.
Fooocus dodá asi totéž, i když je to jiný model. Po několika pokusech dostávám dost často tři osoby různých pohlaví a věků, oblečené v pastelových barvách. Obrázky pěkné, ale tudy cesta nevede.

Já se vrátím k obrázkům z Midjourney z minulého videa, a pokusím se je vytvořit znova. Prompty jsou zase z Midjourney, v ostatních nástrojích byly prompty přizpůsobeny tak, aby dodaly podobný obrázek.

Digitální obrázek, hluboký výdech, modrá a oranžová, dramatické nasvětlení, filmový záběr
Jasně že tuhle abstrakci zvládne takhle zobrazit jen Midjourney, všude jinde je potřeba popsat, co je na obrázku.
Dall-E to zvládlo taky, ale zhluboka tu dýchají hlavně muži. Všude jinde vnucuju dámskou tvář za kouřem. Dall-E i Firefly naprosto fantastické textury kůže. Všechny výsledky jsou podle mě velmi srovnatelné. Leonardo s vlastním modelem i Foocus s Juggernautem XL umí dělat portréty, o tom není pochyb. Jsou více realistické, ale to je záležitost modelu a promptu, pokud je chcete animované nebo vyrenderované, změníte model a přizpůsobíte prompt.

Praha v sedmdesátkách. Midjourney na několik pokusů dodalo obrázky, na které se dá dívat a jsou poměrně rozdílné.
Dall-E 3 má poněkud neuvěřitelné představy o porodnosti v komunistickém Československu a zásobování socialistického trhu pojízdnými plechovými miláčky. Předpokládám, že tyhle obrázky jsou nějaké deriváty prvomájových průvodů nebo předvánočních front na mandarinky…
Firefly totální katastrofa, tohle není typ záběru, který má smysl tady dělat. Ty domy se bortí jen se na ně podíváte.
Leonardo nezazářilo a Fooocus dodává vcelku akceptovatelný záběr pěší zóny evropského města. O nápisech na štítech a datu výroby vozového parku na všech pokusech se nebudu ani zmiňovat, buďme rádi, že tam nejsou koňská spřežení…

Chleba s máslem. Neočekávám vůbec nic, protože nože a ruce… Midjourney umí nože i ruce, ale ne nože v ruce.
Dall-E 3 nepřekvapivě vede, není to dokonalé, ale je to estetické a chutné. Pokud máte rádi chleba s máslem a motýlem. Nápověda pro neanglicky mluvící: Butter and butterfly.
Firefly ví, o čem se mluví, ale moc mu to nejde. Ale začíná s propagací citrónů.
Leonardo doporučuje pořádný krajíc chleba a postupně přechází do stavebních bloků se čtvrtkou másla.
Fooocus umí detaily, ale ještě netuší, že příliš mnoho kuchařů je chleba s máslem smrt.

Toastíky obložené, různé variace z Midjourney vypadají skvěle.
Dall-E 3 na několik pokusů dodává přehršel toastů s rajčaty, bazalkou, vajíčkem, borůvkami, kiwi, ořechy, jahodami a pomerančem v libovolné kombinaci. Vysoce estetické, ale patrně nechutné.
Firefly to až trochu přehání s tím uměním, ale vcelku tady není nic moc špatně.
Leonardo s přehledem vrství dobroty nakrájené na plátky, a upscale nezklamal.
Fooocus nejdřív servíruje toast s tekoucími syrečky a s citronem, ale pak vyrábí konzistentně naplněné a zdravím překypující toasty na štědře ozdobeném stole.

Midjourney želvu jsme rozebrali v minulém videu…
Dall-E 3 se chlubí velmi hřejivou scénou z letní dovolené, některé detaily jsou… fantastické.
Firefly má vlastní styl, realističtější s místy až klišovitou teal-and-orange barevností, která je asi stále populární.
Leonardo i Fooocus jsou asi nejrealističtější a nebojí se různých pohledů a detailů. Tady se zastavím u tohoto exempláře, stín na správné straně, správný tvar, písek ve stínu neodráží světlo slunce… Reálnější než realita.

Česká zima byla docela zklamání, Midjourney tak nějak ví, co dělat, ale není to ideální.
Dall-E 3 naprosto fantasticky dodává krajinky už od minulé verze, v rámci generování je umí měnit do jednotlivých ročních období a i tentokrát jsou výsledky velmi koukatelné.
Firefly opět bortí budovy, krajinku chápe, ale s tím zasněžením je to bída.
Leonardo slušně, ta bílá je příliš bílá, ale při upscalu se z bílé plochy stává sníh… stopa na cestě je hodně dobrá…
Fooocus umí krajinu, tady by to asi taky chtělo upscale pro trochu víc textury do bílých plání.

Jak vidíte, Midjourney není zdaleka jediný generátor božích obrázků. V tomhle videu byl jediný placený, vše ostatní je zdarma. Dall-E 3 se tlačí zpátky na úplnou špičku a fakt, že už ho pár dní můžete mít zdarma na mobilu bude možná zásadní gamechanger.
Gamechanger se prý česky překládá jako hybatel systémových změn. Já si to dovolím takto nepřekládat, protože mi to rve uši a protože předpokládám, že mám vzdělané a inteligentní diváky.
Též předpokládám, že asi budete chtít okamžitě zrušit svá předplatná Midjourney a vrhat se do tajů Stable Diffusion, kde můžete udělat to samé, zadarmo a bez politické korektnosti? Nebo vás zajímá něco úplně jiného?