AI

Tady AI

Midjourney – Novinky a tipy

Za poslední měsíc nebo dva se Midjourney posunulo kupředu neuvěřitelným způsobem. Realistické fotografie jsou ještě reálnější, roztomilé postavičky ještě roztomilejší, a některé funkce jsou překvapivě užitečné.
Seznam novinek není krátký, dozvíte se o nové verzi 5.1 a Raw módu, o verzi Niji pro anime obrázky a jejích třech různých módech. Dojde na permutace, jak z jednoho promptu spustit víc než jeden job, který zkombinuje různá slova a vytvoří různé mutace jednoho promptu.
Naučíte se používat funkci /describe, kdy se z vámi uploadované fotky vygeneruje několik promptů.
Řekneme si taky o tom, že Midjourney server už teď moderuje umělá inteligence, a nemělo by docházet k banování promptů nebo uživatelů bez vážného důvodu.
A nakonec se dostaneme k plánům do budoucna, k novým verzím, a k otázce Trial verze zdarma pro všechny a napořád.

Ale bez zdržování a zbytečných slov, pojďme k obrázkům.
Nejnovější novinka je verze 5.1. Jsou to vlastně dvě samostatné verze. Můžete si je nastavit v /settings, jak 5.1, tak Raw mód, to je originální starší verze 5.1.
Po přepnutí na 5.1. nebudete mít žádný parametr v promptu, tato verze je teď default. Když přidáte Raw mód, v promptu se objeví –style raw
Verze 5.1 má, podobně jako verze 4, ten typický rozpoznatelný styl Midjourney obrázků. Je vhodnější pro uživatele, kterým se nechce používat nějaké dlouhé propracované prompty. V této verzi stačí pár slov a Midjourney vygeneruje to nejlepší, co z něj můžete dostat. Pokud se budete snažit o realistický vzhled, dostanete výsledek k nerozeznání od kvalitní fotografie. Verze 5.1 se také ještě o kousek zlepšila ve vytváření rukou, tento víkend frčí nový král Charles Třetí a jeho sausage fingers, oteklé prsty. Ačkoli to uživatelé vůbec v promptech nežádají, Midjourney už automaticky generuje krále Charlese s tímto charakteristickým zdravotním problémem.
Raw mód je verze, která od vás očekává komplexnější delší prompty, pokud ji budete používat, asi víte proč.

Niji se nečte anglicky, protože je to slovo japonské, a znamená to „duha,“ a v kontextu obrázků se používá pro 2D.
Nová verze Niji 5 má ještě vlastní pod-verze, styly, je to –style cute, –style expressive a nový –style scenic
Niji se sice dá nastavit jako default i na vašem vlastním serveru, ale pokud chcete nastavit jeden ze stylů jako defaultní, je potřeba použít niji-journey server a jeho niji-journey bota. Tady už v /settings vidíte jednotlivé styly. Je mezi nimi velký rozdíl, cute znamená roztomilý, expressive dává tvářím postaviček nějaký výraz a scenic vytváří propracované scény plné zajímavých detailů.

Před pár týdny Midjourney spustilo možnost tvořit obrázky v dávkách pomocí permutations. To znamená, že do promptu napíšete více variant toho, co má v obrázku být, a Midjourney vám vytvoří všechny možné kombinace.
Tady je příklad v dokumentaci. Když požádáte o obrázek červeného, zeleného a žlutého ptáka, spustí se tři joby, tři různé prompty – prompt s červeným ptákem, prompt se zeleným ptákem a prompt se žlutým ptákem. Každý z nich bude obvyklý prompt se čtyřmi obrázky. Každý z nich se vám počítá jako jeden job z vašeho předplatného, takže na Trialu si s tímhle asi moc nepohrajete, nebo pohrajete a za pět minut vám skončí Trial.
Původně byla tato funkce pouze pro ty s Pro předplatným, ale už je pro všechny, a také na rozdíl od dokumentace se vás to zeptá úplně pokaždé, jestli opravdu chcete spustit víc jak jeden job, a bude tam také napsán jejich počet.
Ukážu příklad, prompt žádá o realisticky vypadající fotografii šachových figurek tančících na louce plné blue bells, to nejsou modré zvonky, ale hyacintovec britský, nebo slunečnic za letního nebo zimního dne.
Dotaz na to, jestli opravdu chci spustit 4 joby… ano, chci.
A vykonávají se tři z nich, protože s mým předplatným nemám možnost víc jak tří jobů zaráz.
A tady je výsledek, čtyři prompty, modrá kytka zimní den, modrá kytka letní den, slunečnice letní den a slunečnice zimní den. Zjevně zimní den nevytvořil pohádkově zasněženou louku s rozkvetlými slunečnicemi a dalšími květy, ale Midjourney to odpustím, asi žádná taková realistická fotka neexistuje, tak se to chudák mašinka neměla kde naučit. Jako příklad permutací to snad dokážete akceptovat.

Dalším převratným krokem v životě umělé inteligence je funkce /describe, tedy popiš.
Uploadujete fotku do Midjourney, a tento příkaz vám vytvoří čtyři varianty promptů z fotky, které můžete hned použít.
Já použiju opravdovou vlastní fotku, vůbec to není dobrá fotka, pozadí je rušivé, osvětlení není ideální, navíc hlavní motiv je dost netradiční, je to místní busker, který hraje na kytaru smyčcem jako na violoncello. Nebudu to dělat umělé inteligenci jednoduché.
A výsledky jsou… muž na židli hraje na kytaru, pouliční scéna, Glasgow styl? Teď se asi celý Manchester bytostně urazil… noční fotografie, zblízka, to další nevím co je. V dalších možnostech je Nikon D850, to je slušný odhad, protože je to opravdu focené Nikonem, a moje fotka prošla před uploadem dvěma grafickými editory a zaručeně v ní žádný EXIF nezůstal. Vánoční punk, to nevím co je… Ve stylu energického pouličního umělce, to sedí… a poměr stran je 73 :100, počítat to asi umí, to kontrolovat nebudu.
Rovnou jsou dole tlačítka, a můžu si vygenerovat obrázek z tohoto popisu… nebo úplně nové prompty. Já zkusím číslo 2, jen změním lehce poměr stran.
To je hodně slušný. To je lepší než původní fotka, o tom není pochyb. Zároveň to má stejnou atmosféru, a výrazně lepší osvětlení a barevnost.
Samozřejmě nikdo vás nenutí použít přesně tyhle prompty. Já si z nich vezmu to, co uznám za vhodné, zkusím tomu ještě jednou vysvětlit, že chci člověka, co hraje na kytaru smyčcem jako na cello a kompletně změním poměr stran, protože to tak chci.
A ty výsledky jsou vážně pěkné. Svítící židle, to bude asi ten vánoční punk… na všech obrázcích je dlážděný chodník, i na těch předchozích byl, barevnost a světla jsou fantastická, detaily jsou správně, všechny kytary mají šest kolíků a šest strun, kytarista má až na dva detaily správný počet prstů, tváře, vlasy, oblečení, všechno je uvěřitelné, tlusté kabáty když sedíte hodiny na ulici se hodí, oblečení postříkané barvami je v módě, je to celé estetické, má to atmosféru, má to šmrnc.
Sice nikdo z nich nehraje smyčcem, ale to je hodně neobvyklá disciplína, na to asi neexistuje moc tréninkových dat.
Pro průměrného uživatele je tahle funkce velmi cenná. Kde jinde vám generátor obrázků řekne, jak by vygeneroval právě vaši fotku a pak z toho dodaného popisu tu fotku přepracuje a ještě k tomu přidá styl?
Objevili se samozřejmě i opatrní uživatelé, upozorňující, že tímto pomáháte, zdarma a ve vlastním volném čase, trénovat Midjourney. Vkládáte obrázky, možná své vlastní, a manuálně vybíráte, který z těch popisů se hodí nejlépe. Což je tedy přesně ten typ tréninku, který se na modelech vytvořených strojovým učením cení nejvíc – opravdová lidská zpětná vazba. Já k tomu jen dodám, že to neděláte zdarma, ale ještě za to platíte, vy platíte Midjourney, ne oni vám. Ale děláte to dobrovolně, z vlastní vůle a s nadšením, ne?

Novinkou z posledního týdne je nový způsob moderování toho, co smí a nesmí do promptu. Nově je Midjourney moderováno umělou inteligencí. Údajně to výrazně snížilo hlavně falešně pozitivní případy, tedy přesně to, co už znáte z některého z mých předchozích videí.
Začnu od roztomilých ptáků. Hejno terejů modronohých, tedy blue-footed boobies, si spolu hraje na pláži.
A neprošlo to. To je zvláštní, nechápu proč. Boobies, v množném čísle, jak si spolu hrají, to zní úplně nevinně.
Zkusím to opsat v jednotném čísle. Terej modronohý čiluje na pláži s vlnama při západu slunce. Booby, prošlo. Ale modrý nohy se nekonají. Nespokojenost. Tihle tvorové jsou úžasně legrační, zvlášť když jsou spolu, tak je to ťuťuťu… Ještě jednou. Párek ptáků, co se jmenují blue-footed booby si hraje spolu na pláži atakdále.
To je paráda. Krásné barvy… Modrý nohy! No, jednou… dvakrát, ale tady ten stojí na vlně? A tady kolega tam háže viktorku pravým křídlem. Velmi kreativní a celkově líbivé na pohled.
Ještě mi Midjourney z minula dluží pirátskou truhlu s pokladem. No, truhla prošla, ale když ji chci vidět plnou různých mincí uprostřed pouličního asijského trhu, tak tam tak nějak očekávám nejen truhlu, ale taky ulici, trh a nějaké Asiaty. Tak třeba v příští verzi…

Do budoucna se plánují další verze, příští verze 6 má prý zpoždění, což tedy nechápu, když zrovna vyšla verze 5.1. A údajně bude verze 6 ještě o něco realističtější, což teda taky nechápu. Celkový realistický vzhled je už teď k nerozeznání od reality, určitě alespoň pro lidské bytosti umělou inteligencí netknuté. Pochopitelně je potřeba pracovat na těch malých věcech, ruce, detaily, oči, tváře, pak třeba práce s texty a podobně…
Uvažuje se i o tom, že by uživatelé měli právo vytvářet boobies a další obsah pro dospělé. Ale toto by podléhalo něčemu jako je verifikace, licence na to takový obsah vytvářet, nebude to automatické pro všechny. Jen nikdo ještě neví, jak to udělat.

Co ještě stojí za to zmínit? Midjourney pořádají každou středu večer Office Hours, můžete se připojit online k setkání, kde zástupci Midjourney povídají, co se děje a bude dít.
Pár týdnů se mluvilo o tom, jestli se Midjourney vrátí zpátky k Trial verzi zdarma pro každého. Už se o tom ani nemluví, vždycky to skočilo konstatováním, že se tam nahrnulo příliš mnoho těch, co si zakládají mnohonásobné účty, nikdy si žádné předplatné nezaplatí a dávají dost zabrat kapacitě, která pak nestačí pro platící uživatele. Taky bylo zmíněno, že rozšířit kapacitu není tak jednoduché, protože je celosvětový nedostatek grafických karet, a vybudovat solidní zázemí s dostatkem grafického výkonu je otázkou třeba roku. Tohle je dlouhodobý problém pro všechny, pokud jste si v posledních tak dvou letech stavěli nový počítač nebo jen chtěli upgradovat grafiku, tak jste jistě plakali nad cenami a čekacími dobami.
Zatím se asi nemusíme bát umělé inteligence, ale umělá inteligence se možná začne obávat nedostatku kovů, drátků a součástek.

Zatím to vypadá, že se Midjourney řítí neuvěřitelným tempem vpřed, jestli se občas snažíte číst jejich dokumentaci, tak víte, že tam mnohé novinky ani nejsou. Novinky se šíří tak, že o nich uživatelé píší články a natáčejí videa, zatímco Midjourney pracuje na nových funkcích a vychytávkách.
Nicméně, i když ještě nedávno vůbec nebyla řeč o návratu Trialu zadarmo, teď máte možnost si ho v průběhu víkendu užít. Buď se všichni od Midjourney odvrací a vrhají se na nástroje zdarma, a Midjourney brzo zdraží nebo zkrachuje, nebo je to prosperující společnost, jedna z nejlepších na trhu, udávající tempo, a vy si Midjourney můžete užít až do pondělního rána.