Je Adobe Firefly fotorealistické? (2.)
Tohle je druhá část mého prvního dojmu z Adobe Firefly. Pokud jste neviděli první část, podívejte se nejdřív na ni, ať nejste zmateni. Odkaz je ve videu i dole v popisu.
Budu pokračovat v generování obrázků z textového promptu. Minule jste viděli různé neskutečné a fantastické výjevy, teď se přesunu trochu víc k realitě.
Ale ne moc rychle. Tenhle obrázek doufám znáte. Je to náhled jednoho z mých předešlých návodů na Midjourney. Prompt je vcelku srozumitelný popis, takže ho beru tak jak je, vkládám ho do Adobe Firefly, upravím tak, aby to byla jedna věta a nastavím na Foto a stejný poměr stran, 16:9.
Kyberpunk hackerka s hodně krátkými vlasy a undercutem, pracující na počítači s mnoha monitory okolo a neonová světla.
Na první pohled jsou obrázky docela slušně vypadající, splňují přesně popis. Je to žena, má krátké vlasy, undercut, ztělesňuje všechna klišé, které si průměrný hltač obsahu představí pod slovem hackerka, okolo je několik monitorů a celé je to v neonových barvách.
Při bližším ohledání vidím divné oči, rozbité ruce, neskutečně vypadající klávesnici, všechna ta sluchátka a udělátka na hlavě jsou prapodivná, na monitorech jsou zvláštní koláže obdélníčků… což do jisté míry oceňuju, že tam nejsou texty ani žádná konkrétní data.
Na malý náhled by to stačilo, ale jako obrázek sice přesně splňuje zadání, ale celkový dojem je takový… beta nedokonalý.
Zkusím jiný prompt, realistický výjev.
Mladý blonďatý muž v modré mikině a džínách venčí malého psa na rušné ulici.
V nastavení mám hyperrealistické foto, bokeh efekt, má to být krásné, v živých barvách, před západem slunce a široký záběr.
Vypadá to jako fotky. Na prvním a posledním obrázku je „stejný člověk,“, na druhém obrázku nemá tvář, ale za to má pejsek taky modrou mikinu. Všechno ostatní z promptu je splněno.
Zkusím změnit typ záběru na Close-up, kamera by se měla přiblížit k focenému objektu a ulice by měla zůstat v pozadí, ideálně rozmazaná.
Nestalo se vůbec nic. Zkusím změnit popis na tmavé vlasy a červenou mikinu, přepnu z fotky na „žádný“ druh obsahu, protože to bude muset změnit obrázek.
Co vidím, je muž červené mikině a tmavými vlasy, záběr zblízka se nekoná, a přepnutí z fotky na „nic“ nezměnilo nic.
Ještě zkusím nějaké další z nastavení… Ale ne, nedělá to víceméně vůbec nic.
Takže prompt byl proveden méně přesně než napoprvé, pořád mám druhý obrázek s mužem bez hlavy, jsou to čtyři obrázky téměř stejné jako ty předchozí, jen byly změněny ty prvky, které se změnily v promptu.
Tady je srovnání těch dvou gridů.
Rovnou se podívám na detaily, protože já už tuším, co uvidím.
Nahoře na okraji vidíte název obrázku, což je prompt, ze kterého byl generován. A taky velikost v pixelech i datovou velikost.
Dívám se na detail hlavy.
Pak na detail rukou, kdybyste nevěděli, kam se dívat.
A pak na pejska. Ano, to je pejsek.
Muž v červené mikině nebyl nastaven jako fotka, takže vypadá trochu víc malovaně, muž v modré mikině by měl být realistický až hyperrealistický.
Zase se budu opakovat. Prompt je proveden uspokojivě, některá z těch nastavení vůbec nijak nemění obrázek, tedy podle mě nefungují.
Změna promptu pouze v detailech nemění nic jiného než detaily, nevygeneruje se úplně jiný obrázek.
A ty tváře, ruce a pejsci, ti potřebují ještě nějakou práci…
Já mám ještě jeden vlastní test, dalo by se to nazvat Age Bias, předsudky v oblasti věku.
Mám to vyzkoušeno s několika generátory obrázků, vždy k mému velkému pobavení. Takže to zkusím i s Adobe Firefly, abyste se pobavili i vy. Prompt je:
Portrét mladé ženy dívající se do kamery, žena má tmavé, velmi krátké vlasy a piercing v uších.
Nastavuju foto a hyper realistické, protože chci opravdu reálně vypadající výsledky. Přidávám teplé tóny, studiové osvětlení, záběr zblízka, bokeh efekt a má to být božské. Ukaž to nejlepší, co umíš, Světluško.
Fajn, mládí je subjektivní pojem.
Zkusím specifikovat jako 25letou ženu.
Piercing a uši, to už je méně subjektivní záležitost. Očekávám piercing a v uších. Ne náhodně zvolenou bižuterii kdekoli v obličeji.
A představa toho, co jsou velmi krátké vlasy u ženy, tam jsou veliké kulturní rozdíly i v rámci Evropy. Berte tenhle prompt především jako zábavu.
Zkusím 30letou ženu, vše ostatní zůstává. Na obrázku tři a čtyři je podle mě ta samá dáma, jen se jinak tváří?
Věk 35 let.
Na třetím obrázku je opět ta stejná tvář jako v předchozím případě, jen s jinými náušnicemi, a ani jedny z nich nepatří do kategorie piercing.
40letá žena.
Obrázky číslo tři i čtyři se tentokrát nezměnily vůbec? Dělám něco špatně?
Tentokrát pro jistotu rozepíšu, že opravdu myslím 50 let starou ženu, kdyby snad v Adobe uměli hůř anglicky než já.
A máme nové tváře, jupí. To jsou tedy velmi pohledné padesátnice, co myslíte?
Měním na 60 let.
Druhý obrázek je velmi uvěřitelná věková změna, čtvrtý obrázek spíš změna mezi třicítkou a čtyřicítkou…
Zkusíme sedmdesátnice. Paní na druhém obrázku tentokrát nezestárla ani o pixel.
A rovnou zkusím 90 let.
Hm, kdo by chtěl takhle vypadat v devadesáti, dá Like tomuhle videu.
Já neodolám a dám vám sem montáž s porovnáním všech věků, ať si to můžete taky prohlédnout a užít.
Kde se stala chyba? Nevím, ale troufám si i přesto vyjádřit svůj názor. Adobe zmiňuje, že Firefly trénovali na datech z Adobe Stock a možná i jiných fotobank, a z veřejně dostupných dat, kterým už vypršela autorská práva. Můj odhad je, že pro vyšší věk neexistuje dostatečné množství dat, databanky patrně obsahují víc lidí v produktivním věku, než těch starších. Druhý problém může být v politické korektnosti. Hádat ženám věk, nebo je popisovat jako „ženu ve věku 70 let“ může být mnohými vnímáno jako ne zrovna slušné. Takové věci se říkají jen mezi řádky a úplně jinými slovy, než stroj bez emocí a kulturních souvislostí dokáže analyzovat. Stroj toto nechápe. A jak stroj vychováte, takové se z něho budou sypat výsledky.
Ale ještě jednou, tohle jenom hádám.
V detailech vidíte, že to je pokaždé uvěřitelná, reálně vypadající tvář, kůže je kůže, obě oči jsou stejné, proporce obličeje jsou reálné, vlasy jsou téměř vždy uvěřitelné. Já mám výhrady k délce vlasů a k tomu, že skoro vždycky má alespoň jedna z nich nějaké růžové vlasy nebo nepřirozené barvy nebo prameny, ale to je jen názor, technicky je to pořád realistické.
Co je mimo je piercing, umístění piercingu a hroudy nějakých kovů nebo barevné skvrny na náhodných místech obličeje.
Některých těch paní mi bylo trochu líto, do jaké věkové kategorie je zařadili, ale… Tito lidé neexistují. Žádná z těchto fotografií neexistuje, není, nebo neměl by to být, obličej nikoho existujícího. Rychlým a povrchním hledáním třeba na TinEye si to můžete, bez záruky, zkontrolovat.
Ještě taková technická poznámka, tohle jsou stažené soubory, mladý muž venčící psa a především portért ženy ve věku XY. Na konci jména souboru se opakují čísla. Na rozdíl od Midjourney, které má stejný seed pro celý grid 4 obrázků, tady vidíte, že každý obrázek má jiné číslo, ale ta čísla se opakují.
Jdeme dál.
Generátorům obrázků obvykle nejdou moc ruce a zuby.
Můj další prompt je: Ultra hodně hyper realistický záběr zblízka na dvě lidské bytosti, podávající si ruce.
Na první pohled bylo zadání splněno. Vidím dva lidi a dvě ruce.
Nahoře jsou to spíš leklé ryby, ale to je v toleranci. Oba obrázky dole mají jeden prst navíc, a pánové v obleku mají asi stejný oblek. V detailu jsou i některé nehty nedokonalé, ale jinak to vypadá dobře. Různé typy pleti, to jsou plusové body.
To byl prompt bez nastavení, teď přepnu na Foto.
Tak tohle je úlet. Nevím, co se stalo, to je herní grafika roku 2000.
Přepnu na Art, a všechno ostatní nechávám jak bylo.
A další úlet.
Nevím, co se děje, ten první výsledek byl dobrý, nemá smysl měnit nějaká drobně dolaďující nastavení, když pouhé přepnutí Content Type rozbije smysluplný obrázek.
Tohle je velmi neočekávané chování, a zjevně je tam někde nějaká zásadní chyba…
Vyzkouším jiný pohled na ruce. Prompt je:
Záběr zblízka na ruce píšící na klávesnici počítače.
To vypadá hodně dobře, nejen ruce, ale i klávesnice jsou na první pohled reálně vypadající.
Není co vytknout.
Přepínám z Foto na nic. Zase pěkné výsledky, nějaké neudržované nehty a psaní perem za klávesnicí, to není nic strašného.
Lehce měním slova v promptu, v naději že dostanu jiné obrázky. A opravdu dostávám lehce rozdílné obrázky a jak nehty, tak psaní na stůl se změnilo.
Ještě další drobná změna. A zase malé rozdíly, k lepšímu i horšímu. Ale stále pěkné výsledky, správný počet prstů, kloubů, detaily rukou i klávesnice jsou reálné.
To je daleko lepší, než ten předchozí příklad.
Čemu se ještě podívám na zoubek?
Fotograficky realistická otevřená pusa se zdravými zuby.
První pokus. Celek vypadá dobře, jsou tam drobné chyby, první obrázek má něco navíc na dolním řezáku, ty praskliny na horních zubech jsou možná trochu moc, tady pán má troje řezáky dole, ale nahoře počítám přesně osm zubů, takže skoro průměrný chrup. Tohle je pěkná práce obličeje, rtů, zuby mají nějakou texturu, tady si troufám říct, že krom pěti řezáků dole je obrázek k nerozeznání od fotky.
Přepínám na Foto, snad to nerozbije zuby jako to rozbilo ruce.
Tak už na první pohled je to takové víc… namalované. Trochu to postrádá textury, strukturu objektů. Ano, ty zuby jsou příliš hladké, a tvář vypadá, jakoby to někdo přehnal s retušováním. Pán má stále řezáky dole navíc, ale tohle vypadá realisticky. A 5 řezáků dole a příliš hladká pleť.
Přepínám na Art, umění a dostávám… Umění.
Není na co si stěžovat, mám malované postavičky, které mají pěkné zuby. A vousy. A rty.
A ještě Graphic, tady čekám taky nějakou stylizaci. A dostávám extra řady zubů.
Přepnu zpátky na fotografii. Neměním nic jiného.
A dostávám jiné obrázky. Troufám si říct v horší kvalitě, než na první pokus. První je dobrý, druhý už je teda hodně netypický chrup. Tady mám téměř průhledné zuby. A poslední obrázek je změna z ženy na muže, 5 dolních řezáků stále na místě.
Měním trochu prompt, přehazuju slova, ale smysl zůstává.
Velmi detailní realistické foto otevřené pusy se zdravými zuby.
Obrázky jsou lehce odlišné, já v nich zase budu přepínat jen mezi druhem obsahu, tedy Foto, nebo nic. Výsledky zůstávají víceméně stejné, uvěřitelný chrup, reálný chrup, s občasnými znaky různých neobvyklostí.
Tady je pár zvětšených detailů. Můžete se mnou obdivovat nejen zuby, které nejsou dokonalé, takže velmi reálné, a taky rty, kůži okolo, vousy… Tohle asi nikdo z nás od fotky nerozezná.
Poslední krátký pokus s generováním obrázku z textu.
Troufnu si říct, že tohoto pána v bílé bundě už jste někde viděli.
Dokáže Adobe Firefly něco podobného? Prompt je:
Papež ve štramácké bílé naducané bundě v ulicích Říma.
Ujistím se, že opravdu všichni myslíme Toho pána…
Tak Ten pán tam není, púostavičky nic moc, bunda je bílá
Adobe Firefly má jasně v podmínkách napsáno, že vytváří pouze takové obrázky veřejně známých osob, které jsou dostupné pro komerční využití na webu Adobe Stock, s výjimkou redakčního obsahu.
Papež tam…je, ale není.
Vzhledem k tomu, že Adobe míří s Firefly na firemní klienty, kteří se jako první budou ptát, nebo spíš už ptají, jak je to s autorskými právy, tyhle vtípky od Firefly určitě nečekejte.
I když jste tentokrát viděli i ty rozbitější a méně povedené kousky, asi sami uznáte, že po krátkém ladění si s Adobe Firefly vytvoříte fotky k nerozeznání od reálných záběrů. A to ještě pořád není všechno, tímto sice končím vytvářením obrázků z textu, ale ještě zbývá druhý nástroj, Text Effect, textové efekty a okrasná písmena.
Mně se textové efekty z Adobe Firefly líbí ještě o něco víc. Nejspíš proto, že, na rozdíl od generování obrázků, není práce s textem a písmeny tak častá. Většina jiných nástrojů, a klidně tady budu jmenovat Midjourney, ale i Stable Diffusion nebo Dall-E 2, má s písmeny problém. Adobe Firefly mě v tomto příjemně překvapil a vy to můžete vidět i v příští, poslední části o beta verzi Adobe Firefly.