AI

Tady AI

Omnigen – generujte a editujte obrázky pouhým promptem, zdarma, lokálně

Omnigen naprosto mění způsob, jakým se generují obrázky. Tohle je přesně to, co očekáváme od umělé inteligence. Zahoďte Photoshop a odhlašte Midjourney, protože už je nebudete nikdy potřebovat.
Omnigen je unifikovaný model na generování různorodých obrázků z multimodálních promptů.
Co tahle složitá věta znamená?
Omnigen se dá použít k provádění různých úloh, mimo jiné ke generování obrázku z textového promptu, generování z předmětu na obrázku, generování se zachováním identity, úpravám obrázků a podmíněnému generování obrázků.
OmniGen nepotřebuje další pluginy ani nástroje, dokáže v jediném prostředí automaticky identifikovat prvky v obrázku, jako třeba požadovaný objekt, pózu člověka, nebo depth mapu obrázku, a to vše se dělá z textového promptu.
Vysvětlíme si nejdřív na ukázce od vývojářů a pak na příkladech generovaných na mém počítači doma, zdarma, lokálně, bez cenzury. A v tomhle videu vás taky naučím si Omnigen jednoduše pár kliknutími nainstalovat a používat jak chcete a k čemu chcete.
První příklad je na stránce na Githubu, zjevně nikdo nepočítal s tmavým podkladem, ale to asi přežijeme.
Z textového promptu se vygeneruje žena držící knihu, se stříbrnými náušnicemi, v krémovém svetru. Na stole za ní je modrý hrnek, pak květiny a to celé se děje v útulném obýváku.
Nic nového pod sluncem.
Další krok je textový prompt, který říká, aby byly odstraněny náušnice a místo hrnku s kafem se objevila sklenice s kolou.
Z tohoto obrázku je tu ukázka víc úkolů. Směrem nahoru: Detekuj kostru člověka v obrázku. Ten diagram je pozice těla v OpenPose. To je systém, který se používá pro 2D i 3D přenášení pozice na různé postavy.
Z tohoto náčtru kostry se dá vygenerovat jakýkoli obrázek, a postava v něm bude mít stejnou pozici těla. V tomhle příkladu je to kluk sedící na pohovce v knihovně. Vidíte, že je to úplně jiný obrázek, jiný člověk, jiné prostředí, ale je zachována pozice těla, přesně podle zadání.
Směrem doprava. K vygenerování obrázků byl použit textový prompt: „Kdyby měla žena žízeň, co by vzala do ruky? Najdi to v obrázku a zvýrazni to modrou barvou.“
Vidíte, že na obrázku je modře zvýrazněná sklenice s kolou.
Směrem dolů je podobný prompt: Zachovej pozici na obrázku, vygeneruj novou fotku, na které je kluk sedící na pohovce v knihovně, držící knihu.“
Opět přesně splněno.
Vlevo se vloží další obrázek, Omnigen umí pracovat až se třemi obrázky v jednom promptu.
Tenhle prompt zněl: „Profesor a kluk spolu čtou knihu. Profesor je muž uprostřed na obrázku číslo 1. Kluk je ten kluk držící knihu na obrázku číslo 2.“
Na druhém příkladu jsou různé variace na to samé. Z jednoho či dvou různých obrázků si vyzobete postavy nebo objekty pomocí popisu – ten člověk uprostřed, hledaný předmět vlevo dole nebo muž s koženou brašnou. Z toho stejného textového promptu tuhle postavu nebo objekt umístíte do vygenerovaného obrázku, v úplně jiné, nebo úplně stejné pozici, v jiném prostředí a s jinými lidmi.
Ale tyhle příklady jsou v lokální verzi, takže si je rovnou vyzkoušíte sami.
Už vám to vyrazilo dech, upadla vám čelist až do přízemí a vůbec nechápete?
Tak já to řeknu ještě jednou: Teď si to spolu jednoduše nainstalujeme, a vy tohle můžete používat zdarma, na svém počítači, jo, přesně na tom, co si z něj právě mažete Photoshop a asi pět různých, teď už starých a nepotřebných programů.

Omnigen se dá vyzkoušet i bez instalace online na Hugging Faces, ale je to docela nespolehlivé, ukážu to ke konci videa.
Omnigen budeme instalovat v Pinokio computer, jede na Nvidia grafikách s alespoň 8GB VRAM, a budete potřebovat takových 30GB volného místa na disku.
Nemáte-li ještě nainstalované Pinokio, tady je super rychlý návod na instalaci, ostatní můžou přeskočit na další kapitolu.
Ze stránky pinokio.computer přejdete tlačítkem Download na Github, vyberete si svůj operační systém, vidíte že pro Windows si stáhnete soubor a nainstalujete běžným způsobem. Pinokio samotné se instaluje velmi rychle, s prázdnou úvodní stránkou. Vy si najdete a vyberete Omnigen.
Pokud by vám instalace upadla do kómatu nebo potřebujete delší a podrobnější návod, na tomhle kanále najdete podrobné video s instalací a běžnými problémy v začátcích s Pinokio. Můžete tam teď přeskočit a vrátit se přesně sem, až vás k tomu video vyzve.
Kdo má nainstalováno Pinokio, tak si po spuštění najde a vybere Omnigen k instalaci.
Jako obvykle, je třeba vybrat složku, kam se Omnigen instaluje, potvrdit instalaci a pak čekat, až je hotovo. V průběhu se stahují různé soubory, jeden z nich má 15,5 GB, a chvíli to trvá.
Pokud instalace zdárně proběhne, uvidíte tohle Gradio prostředí… a můžete generovat.
Já vám ukážu různé příklady, s využitím ukázkových promptů tady dole a s několika základními pravidly, co dělat a nedělat.
Ideální je začít tak, že si dole vyberete příklad podobný tomu, co chcete udělat.
Já začnu tady tímhle. Prompt je: Muž a žena s krátkými vlasy a vrásčitou tváří stojí před regálem v knihovně. Muž je ten uprostřed z obrázku 1 a žena je nejstarší žena z obrázku 2.
Já to nebudu nijak šetřit, budu pracovat se třemi obrázky, všechny jsou z Midjourney, na jednom jsou fantastická zvířata, na druhém animovaní kluci a na třetím realisticky vypadající bubble tea nebo co.
Můj prompt je: Muž a jeho chlupáč sedí na pohovce v útulné kavárně. Muž je ten v zeleném tričku na obrázku 2, drží v ruce pití, které je na obrázku 3 uprostřed a chlupáč je ten v červené bundě na obrázku 1.
Ze zvědavosti nahlížím do příkazového řádku Omnigenu. Hází mi to různé předpovědi, jak dlouho to bude trvat, a nakonec to trvalo 13 a půl minuty.
Toho se neděste, na Nvidia 4090 to údajně bude trvat mezi jednou a třemi minutami. Na Nvidia 4070 to bude tři minuty a něco. Samozřejmě čím víc grafické paměti, tím líp.
Hodně taky záleží na velikosti vstupních obrázků, a to samé platí pro velikost generovaného obrázku, držte se velikosti 1024 px a 512 px, které jsou přednastavené.
Výsledek není vůbec špatný. Že je to ilustrace není překvapení, když mixujeme fantastická zvířata a anime postavičky. Drink měl držet člověk, ne chlupáč, ale je fakt, že můj prompt se dal napsat líp, aby to bylo jasnější.
Obrázek si uložte, protože… on se sice někam ukládá, ale je to ve složkách, kde to nechcete hledat, a u každého z vás se budou jmenovat jinak.
Druhý pokus, udělám to ještě težší.
Opět používám obrázky z Midjourney, beru jen ty realistické a detaily tváře.
V poznámkách nahoře se píše, že pokud je výsledný obrázek příliš animovaný, je dobré zmínit v promptu, že výsledek má být fotka.
Můj nový prompt je: Realistická fotka muže a jeho dcery, sedí na lavičce na Southbanku s London Bridge v pozadí. Muž je nejstarší muž z obrázku 2, ale bez brýlí, drží pití v takové pozici, jako starší muž na obrázku 2, a jeho dcera je děvče z obrázku 3.
Tentokrát to trvalo 16 a půl minuty a výsledek je… až na detaily správný. Muž má brýle, a tu pozici držení plastového kelímku je těžko hodnotit. Asi největší problém mám s tím mostem. Jednak je to ošklivost, obě věže mostu mají být stejné, a jednak to není London Bridge ale Tower Bridge. Chyba každého špatně vzdělaného turisty, a důvod, proč nemáte věřit AI každou blbost, kterou vám naservíruje.
Nicméně obě tváře jsou podobné natolik, aby to bylo uvěřitelné, obě postavy mají stejné oblečení jako na výchozím obrázku, a celkově je výsledek dobře vypadající a realistický.

Jak je to s tím kopírováním pozice pomocí OpenPose kostry?
Najdu si nějakou zajímavou pozici, tady třeba mramorového pána, co odhazuje disk, použiju přednastavené hodnoty z příkladu… A za chvíli dostávám obrázek s pozicí. Ten si uložím, použiju zase příklad. Původní obrázek nahradím mým vygenerovaným. Prompt taky použiju, není potřeba vymýšlet něco nového, jen změním popis toho, co chci generovat. Tedy pětadvacetiletou českou ženu s modrýma očima, hnědými vlasy a pihami, v národním kroji, stojící uprostřed Prahy.
To co dostávám je dost hrůza, ale převzalo to správně pozici těla. Bylo by potřeba trochu doladit prompt, tohle není ideální.

Tady ve stručném úvodu si všimněte několika poznámek, které vám napoví, když něco nejde úplně podle vašich představ.
Pokud má obrázek přepálené barvy, je přesaturovaný, stáhněte guidance_scale na nižší hodnotu.
Když obrázek nedodrží prompt, máte naopak zvýšit hodnotu guidance_scale.
Tady zjevně všichni tušíme, kde může nastat problém, když budeme ladit guidance_scale…
Obrázek vygenerovaný ve stylu anime ilustrace, se dá změnit tak, že přidáte slovo „photo“ do promptu.
Při editování obrázku napište do promptu nejdřív číslo obrázku, a pak teprve pokyn k tomu, co editovat, třeba <|image_1|> sundej oblečení je správně. Sundej oblečení <|image_1|> není správně.

A nakonec vidíte, že je tu poznámka o Hugging Face, a častých chybách z důvodu vyčerpání limitu zdarma.

Můžete tedy použít Hugging Face zdarma? Moje zkušenost je, že potřebujete založit účet s emailem, to je zdarma a pak jeden prompt denně z jednoho prohlížeče funguje, u druhého už máte smůlu.
Odkaz je v popisu videa, já vyzkouším online dát dva objekty ze dvou obrázků do jednoho. A odvážně je zkusím vložit jeden do druhého.
Klikám na podobný příklad, mažu původní obrázky, a když jsem online, tak rovnou kopíruju obrázky bez ukládání.
Všimli jste si, že vložit obrázek můžete nejen přetažením, ale taky udělat obrázek z vaší kamery, pokud nějakou máte, nebo ho tam zkopírovat ze schránky?
Už se vám rozjel v hlavě plán, co všechno se dá dělat s obrázkem rovnou z kamery? A není pochyb o tom, že časem přijde upgrade a po obrázcích budou následovat pohyblivé obrázky, tedy video, kde je těch obrázků několik každou sekundu…
Zatím se uklidníme, a já vkládám obrázek ze schránky, jednoho žraloka a jednu sklenici s městem, kam toho žraloka zkusím vložit. Píšu do promptu, že žralok patří do sklenice, místo města. Kam taky jinam. Ještě zatrhávám náhodný Seed, u tohohle příkladu je vypnutý.
Tohle nedopadlo ideálně, ale je pravda, že to byly dva obrázky úplně jiných rozměrů.
Zkusím dva obrázky zhruba stejné velikosti a výsledek také podobného formátu.
Další odkaz, kde to vypadá, že se dá použít Omnigen zdarma, vám taky nedoporučím. Jde o web https://omnigenai.org/playground
Jednak se z webu nedozvíte, kdo ho provozuje, což nemusí být úplně v pořádku po právní stránce, co by vás mělo zajímat je, komu a kam uploadujete svoje obrázky. A co vás určitě bude zajímat je fakt, že ani po čtvrt hodině motání čtverečkama se nestalo vůbec nic. Za to dobu to vygeneroval i můj dýchavičný domácí mazlík, a to hned dvakrát.
Výsledek je… víceméně dobrý. Na poprvé to žraloka to zalomilo do zatáčky, protože se nevešel do sklenice, na druhém pokusu s širším obrázkem je žralok v pohodě, ale do sklenice se nevešel.

Asi je z těch příkladů jasné, jak Omnigen funguje. Je to konečně něco dalšího převratného, co mění způsob, jak budeme s nástroji umělé inteligence pracovat a tvořit. Čas rušit Photoshop ani další nástroje ještě nepřišel, ale asi není daleko.
Jak vidíte, ty výsledky nejsou kvalitativně ohromující, i obrázky, které vypadají jako realistické fotky, obsahují dost chyb, ze kterých jasně poznáte, že je to generované.
Dá se s tím něco dělat? Samozřejmě, že dá. První vás asi napadne nějaký upscaler typu Magnific. Který určitě dodá detaily a možná náhodně opraví některé chyby.
Ale, s Omnigenem se dá pracovat i v ComfyUI, kde se dá dělat mnohem víc, než jen upscalovat. Jestli chcete, tak příští video může být o tom, jak obrázky manipulované Omnigenem můžete, opět zcela zadarmo, lokálně a bez omezení, dovést k dokonalosti pomocí open-source nástrojů.
Přihlašte se k odběru a nastavte si správně notifikace, ať se to dozvíte první!