AI

Tady AI

Deep Floyd umí písmena

Bylo nebylo, před dvěma týdny a čtyřmi videi jste ode mě mohli slyšet, že většina text-to-image generátorů obrázků neumí vkládat písmena do obrázků. A už je zase všechno jinak.
Vyšel totiž Deep Floyd, a ten umí pinnena. um psmema. pipnena. pispinna. Umí pat. pst. plsat. psat. psát.
Deep Floyd umí psát!
Deep Floyd umí písmena. V obrázcích.
A nejen, že si ho můžete vyzkoušet, a to úplně zdarma, ale má otevřený kód a můžete si ho stáhnout do vlastního počítače.
Můžete, ale asi nebudete chtít, hned ze dvou důvodů. Jedním je dost omezující licence, tedy vlastně dvě licence, takže obrázky vlastně nemůžete vůbec k ničemu použít, a druhým jsou nároky na počítač, který je potřeba.
Ale nejdřív si vyzkoušíme udělat pár obrázků, ať víte, jestli to za to vůbec stojí.

Na poprvé budu dělat nechápavce, prostě sem přijdu a zkusím něco napsat do promptu.
Graffiti na zdi s nápisem „Válka je vůl“
Default velikost obrázku je 64×64 pixelů, takže ano, tohle je „hotové.“ Ale jde to upscalovat do velikosti 1024×1024 pixelů, což právě dělám. Vidíte, že to pracuje na dvakrát, nejdřív se zvětšuje na 256×256 pixelů a pak na finální velikost. Ta už je použitelná pro leccos, navíc zvětšovadel na obrázky už je dnes dost, jak online, tak těch, co si můžete stáhnout a užívat lokálně a offline.
Diakritku to moc neumí, a myslím si, že výsledky budou výrazně lepší, když použiju známá, tedy bežná anglická slova.
Zkouším červený plakátek s tradičním anglickým nápisem „Keep calm“ a přidávám „and eat carrot,“ česky „Buď v klidu a dej si mrkev.“
A první várka… Jednou mrkev s dvěma RR, co se spolu mají rádi, pak jednou „carror“ místo mrkve, ale ty další dva jsou už správně. A navíc to samo přidalo královskou korunu nahoru, což je typický vzhled plakátu, určitě jste už někde nějaký meme s britským válečným posterem potkali, ne?
Přestanu se chovat jako běžný Franta Novák, a nastuduju si manuál.
Je tu pár promptů jako příklad, to je ideální, víte, jak tvůrci trénovali model a jak máte postavit prompt. Zrecykluju jeden z jejich příkladů, jen z fialové kšiltovky udělám červené tričko, oblečené na prostorově rozměrném pánovi, a nápis bude „já jsem sportovec.“ Všimněte si, že ten nápis je v promptu v uvozovkách a je tam zmíněn třikrát. Tenhle trik je znám už z jiných nástrojů, je to tak trochu čím víc proužků, tím víc adidas, nebo tím větší pravděpodobnost, že dostanete, o co žádáte.
Jedno Áj navíc…tady máme Ajaján athlete? Ale třetí pokus správně… A čtvrtý taky. Ovšem ta tvář, ta je taková… velmi základní. Ale o to nejde, na tohle už existují opravy a vychytávky.
Deep Floyd se nechlubí ale jen písmenkama, ale tím, že je to vlastně úplně normální generátor obrázků v realistické kvalitě. A to si žádá srovnání s Midjourney, ne?
Začnu tím, co Deep Floyd navrhuje, to by měly být výstavní obrázky, které už má natrénováno, že jo?
Záběr hodně zblízka na duhovou sovu se srnčíma parůžkama. To není špatné, je to realistické, parůžků moc není, ale sovy je dost.
Tady je další návrh, trochu ho upravím. Malá modrá andulka na zlatém autíčku na hraní v ulicích New Yorku.
A porovnání s Midjourney. Určitě už někoho napadlo zkusit tyhle „doporučené“ prompty z DeepFloyd v Midjourney, že jo? Nenapadlo? Tomu nevěřím… Ale co už, vyzkouším je teda na vlastní prompt…
Andulka řidičem půjde první. To teda nic moc, Midjourney. Tady se mi asi víc líbí DeepFloyd, hlavně za přesnost, se kterou se drží promptu. Midjourney neumí zlaté autíčko? Podle těch předchozích obrázků v galerii víme, že Midjourney tohle umí, jen je možná potřeba trochu poladit prompt. Berte to jako důkaz toho, že prompt engineering není úplně holá zadnice, každý systém je trénován jinak a pokud s tím chcete pracovat nějak víc seriózně než s hračkou na hraní, je potřeba se s to chvíli učit.
Midjourney sova. Taky mě to teda nijak neohromuje, ale je to dobře vypadající sova a vidím tu růžky. Nejsou příliš srnčí, ale aspoň tam jsou, na rozdíl od Deep Floyd.
Při hledání v galerii tady vidím sovu, vytvořenou krátkým, jednoduchým promptem, beru prompt a zkusím ho v Deep Floyd.
A dostávám nedorozumění, nechci burlesk tanečnici, chci sovu. Malá úprava promptu… A mám sovu.
No, takovou malovanou, velmi jednoduchou sovu. Je fér říct, že ten prompt z Midjourney používal verzi 4, tu verzi s typickým stylem, kvůli kterému jsme ochotni dávat Midjourney své peníze každý měsíc. Tohle je podle mě jen otázka času v Deep Floyd, ve Stable Diffusion se správným modelem ten styl dosáhnete taky, a zadarmo.
Ještě zkusím prompt s „Bylo nebylo,“ tady očekávám, že mě Midjourney těžce zklame.
A není to tak zlé, ty písmena nebudou dokonalá, vývojáři Midjourney tohle vědí a nijak to netají. Jako obrázek je to pěkné, jsou tam detaily, má to atmosféru. Deep Floyd umí písmena, Midjourney umí pěkný obrázek.
A ještě nadrozměrný pán. Na poprvé se mi tam podařilo nechat omylem i tu fialovou kšiltovku z původního promptu… A Midjourney vtipně mixuje nápis, buď je jen na čepici, nebo je schovaný za tím foťákem, ten tam nechci, ale takhle si to přebralo prompt. Tedy žádný text se nekoná…
Ještě jednou, trochu upravím prompt…
Vtipný to je, pán je ještě o něco tlustší, foťák se tam zase objevil a… o písmenkách nemusíme ani diskutovat…
Pro ty, které zajímá nějaké pozadí a technické detaily. Deep Floyd vydala společnost Stability AI, to jsou ti, co stojí za Stable Diffusion. Klidně jim říkejme jedna z top společností, která udává směr nástrojů umělé inteligence. A nemám na mysli jen obrázky, za poslední měsíc, dva, vydali taky jazykový model pro Stable Diffusion, Stable Diffusion XL, to je ještě novější model generátoru obrázků, nebo třeba addon pro Blender, open source software pro 3D grafiku a tvorbu videa z 3D scén, ve kterém teď můžete díky Stability AI také generovat textury na 3D objektu a video animace přímo při editaci videa.
Deep Floyd je open source, je možné si ho zdarma stáhnout a používat i na vlastním počítači. Než to uděláte, přečtěte si licenci. Obrázky jsou pouze pro nekomerční použití, v tuhle chvíli, a je v rozporu s licencí vypnout filtr zamezující tvorbě dospěláckého obsahu.
Neexistuje žádné komfortní grafické prostředí, Deep Floyd je několik dní stará záležitost, takže budete instalovat z Githubu, a pracovat v příkazové řádce, v pythonu nebo nějaké distribuci, jako Anaconda, přes správce balíčků jako conda nebo miniconda. Jestli vůbec nechápete, o čem kondám, klidně na to zapomeňte, časem jistě někdo vytvoří nějaké grafické a uživatelsky přívětivé prostředí.
Další překážkou může být požadavek na vRAM, Video RAM, tedy grafickou paměť. To je paměť která je k dispozici díky vaší grafické kartě. Nejnižší požadavek je 16 GB vRAM, a to budete schopni upscalovat pouze do velikosti 256×256 pixelů. Pro upscale do 1024 pixelů se požaduje 24 GB vRAM. Tohle nejsou videokarty pro běžné spotřebitele, nemáte-li velmi specifický požadavek, tak takovou kartu ve svém domácím, a nejspíš ani pracovním, počítači nemáte. 16 GB nemám ani já na stroji, na kterém běžně stříhám 4K video a pracuju s 3D softwarem. Údajně se dá vyjít s 12 GB grafické paměti, ale to je spíš o štěstí, a jestli to chcete zkoušet právě teď, v době, kdy je celosvětový nedostatek grafických karet a jejich cena je závratná, tak hodně štěstí.
Deep Floyd můžete vyzkoušet zatím zdarma na Hugging Face, tam jste viděli celou tuhle ukázku, nebo na Google Colab. Mně Colab v tomto případě zkolaboval, nicméně já používám verzi zdarma, a Google se v poslední době staví trošku negativně k využívání AI na jejich neplaceném Colabu. Verze na Hugging Face je zdarma, můžete mačkat čudlík kolikrát chcete, jen si občas chvíli počkáte. Je tam i možnost zkopírovat si do vlastního Hugging Space, a za nějaký symbolický poplatek generovat obrázky bez čekání.
Má to smysl? Podle mě v současnosti ještě ne.
Dejme tomu měsíc nebo dva… jako všechno ostatní okolo AI se to podle mě vyvine tak rychle, že za pár měsíců si nebudeme ani pamatovat, že někdy existovaly časy, kdy generátory obrázků neuměly text. Takže… Možná je teď ten správný čas udělat si nějaké obrázky s nesmyslnou řečí a náhodnými shluky písmen. Za rok za dva to třeba bude děsně „retro“ a každý majitel takového výtvoru se bude chlubit, že pamatuje ty dávné časy, kdy průkopníci používali stařičké první nedokonalé verze obrázkových nástrojů…
Ale o Deep Floyd určitě ještě v budoucnu uslyšíte, a nejen ode mě.