Wan – nejlepší lokální generátor videí
S generátory videí se letos roztrhl pytel a všichni chtějí být filmařem a režisérem a bohatí a slavní… Vy určitě taky, takže se pojďme podívat na jeden z těch generátorů, které si může dovolit úplně každý, protože je zdarma a dokáže generovat vcelku slušná videa.
Wan 2.1 od čínské Alibaby je open-source, můžete si ho nainstalovat několika různými způsoby, výsledná videa můžete použít k čemukoli i komerčně, generovaná videa mohou být až 12 sekund dlouhá, a hlavně videa jsou velmi slušně vypadající a silně použitelná.
A díky komunitě vývojářů můžete Wan 2.1 použít na běžných uživatelských grafikách už s 6 GB VRAM na Windows, Linuxu i Macu. A Wan 2.1 si můžete nainstalovat i v Pinokio jen na pár kliků, takže to zvládnou i úplní začátečníci.
Já vás v tomhle videu provedu komplet prostředím pro generování videí z promptu i z obrázku, všemi nastaveními a také jednoduchou instalací v Pinokio, a ukázkami jak použít Wan i jinde než v Pinokio.
Je fér si říct, že v Pinokio to bude fungovat jen s nVidia kartami. Nicméně v ComfyUI funguje Wan 2.1 i s AMD grafikami. Pravěpodobně ale zase půjde o ComfyUI nainstalované samostatně, a ne v Pinokio.
Nejdřív se pojďme podívat, co vše Wan 2.1 umí. V tomhle jednoduchém Gradio prostředí je vše, co potřebujete pro generování z textového promptu a nebo z výchozího obrázku.
Na poprvé se vám Wan otevře jako Text-2-Video, s nějakými default nastaveními pro váš konkrétní počítač.
Stačí vám napsat prompt a zmáčknout tlačítko Generate.
V poznámce k promptu vidíte, že každý carriage return, to v moderním civilizovaném světě znamená každé zmáčknutí Enteru, je znamením k ukončení promptu. Pokud budete jako já líní a necháte si od nějakého chatbota vygenerovat prompt speciálně pro Wan 2.1, a on vám do toho naseká spoustu Enterů, protože je to chatbot, a ne pradomluvná encyklopedie, tak vám Wan začne generovat třeba devět videí. To nechcete. Nepoužívejte Enter v promptu.
Co máte k dispozici za nastavení.
Rozlišení a velikost videa, to je asi jasné.
Počet snímků. Wan generuje video s 16 snímky za sekundu, takže každých 16 snímků bude jedna sekunda ve videu. Jak vidíte, v defaultu je nastaveno 81, to je 5 sekund a jeden snímek navíc. Tohle je obecně doporučováno, generovat celý počet sekund a přidat jeden snímek navíc, nic tím nezkazíte, pokud se toho budete také držet.
V Advanced Settings je dále Seed, tedy náhodné číslo, které zaručuje variantu obrázků při každém generování.
Počet videí generovaných na jeden prompt. To je pro ty s rychlou grafikou…
Negativní prompt, tedy to, co ve videu nechcete.
Guidance Scale a Shift Scale. Tohle budete používat možná jen při generování videí s LoRA, popíšeme si pozděj ve videu.
Tea Cache. Máte-li jako já slabou a funící grafiku, můžete Tea Cache zapnout, zrychlí to generování videa a zároveň to zhorší kvalitu videa. Je to něco za něco, nemůžete mít všechno. Vyzkoušejte si sami, co je pro vás snesitelnější, dlouhé čekání nebo horší kvalita.
Podobně to bude při generování videa z obrázku.
Chcete-li přepnout mezi generováním z promptu a z obrázku, je potřeba celé prostředí vypnout a z úvodní obrazovky vybrat Image-to-Video a znovu celé nastartovat. A bude se stahovat nový model, chvíli to trvá a vidíte že stahujete téměř 17 GB, mějte dost místa na disku.
Po spuštění vidíte podobné prostředí, jen zda navíc můžete vložit obrázek.
I zde nepodceňujte prompt, můžete generovat s prázdný promptem, ale to je skoro škoda, ne? Popište vše, co se na videu má dít, přidejte prostředí, pozadí, denní dobu, světelné podmínky, pohyb kamery a typ záběru. Ideálně v tomto pořadí.
Generování z obrázku do videa používá o něco větší model a bude trvat déle. Tady se skoro stojí za to podívat do nastavení v horní části.
Můžete si vybrat typ modelu, podle toho, jestli chcete generovat video o velikosti 480p nebo 720p.
Vidíte, že všechny modely zde jsou modely 14B. Na rozdíl od generování jen z promptu, kde je možnost si vybrat i model s menším množstvím parametrů, 1.3B, takže generování je rychlejší.
Každé přepnutí modelu znamená, že se bude stahovat nový model před generováním. Pokud jste ho už předtím nepoužili, takže je už stažený.
Další možnost, kterou můžete výrazně ovlivnit rychlost a kvalitu generování, a taky to, jestli se vůbec něco vygeneruje, je generovací profil. Vidíte, že první poznámka je: pro zkušené uživatele, není potřeba měnit.
Toto se nastavilo podle toho, jakou máte grafiku a kolik máte RAM. Pokud ostatním možnostem nerozumíte, nepřepínejte profil. Přepnete-li na náročnější profil, to jsou ty s nižším číslem, víc nahoře, nejspíš se vám nic nevygeneruje a celý proces upadne do bezvědomí pro nedostatek paměti. Ano, mám to vyzkoušeno za vás.
Totéž platí o ostatních nastaveních v této části. Pokud nemáte důvod je měnit, to znamená, že jste si našli na Githubu v manuálech k Wan 2.1 co to znamená, co to může změnit a proč byste to měli zkoušet, nechte vše, jak je. Je to default nastavené podle možností vašeho počítače.
Co vám doporučím změnit já. Podle vašich možností si přečtěte tato doporučení jaké velikosti videa budete schopni generovat s vaší grafikou.
Já s nVidia 3060 a 12 GB VRAM generuju jen 480p, počet kroků stahuju na 20, a zapínám Tea Cache. Prostřední volba ještě dává docela slušně koukatelné video.
I tak jedno pětisekundové video trvá z promptu asi 16 minut a video z obrázku bez Tea Cache by údajně trvalo hodinu, na to nemám trpělivost to zkoušet, a se zapnutou Tea Cache trvá 30 minut.
Tady jsou doporučené modely, délka a velikost videa, podle toho, kolik VRAM má vaše grafika.
Další užitečná věc, kterou můžete v tomto prostředí vyzkoušet je použití LoRA. Low-rank Adaptation model je malý dodatečný model, který udělá vizuálně viditelné změny v generovaném výsledku. Je to něco jako změna vizuálního stylu pomocí dodatku k hlavnímu modelu.
Wan 2.1 umí generovat videa s přidáním LoRA, takže můžete výrazně změnit styl videa bez nějaké velké snahy. LoRA model si buď můžete stáhnout, nebo sami vytrénovat. Trénink modelu tady rozebírat nebudu, to není úplně pro začátečníky, ale ukážu vám, jak si stáhnout a použít LoRA jak pro generování z promptu, tak z obrázku.
Ve vypnutém stavu prostředí vidíte, že Wan v Pinokio má nachystané dvě složky pro LoRA modely, kliknutím otevřete složku na vašem disku. Sem si stáhnete vaše vybrané LoRA modely.
Já si pro T2V vyberu Flat Color, vidíte, že existuje jak pro menší 1.3B T2V model, tak pro větší 14B model. Já stahuju ten menší, má jen 83 MB.
V popisu každého modelu najdete jak ho použít, to vám sděluje autor, který model trénoval, takže to ví a takhle to má fungovat. Tady si můžete zkopírovat trigger words, slova, která styl spouštějí z promptu. Taky je najdete nahoře v Detailu modelu. A najdete je znovu po rozkliknutí každého obrázku, kde je taky celý prompt a nastavení. Většina autorů používá ComfyUI, nemusíte tady najít úplně vše, a občas budete hádat.
Já si zkopíruju tu doporučenou část promptu. Spustím Wan v módu T2V, vyberu si ten model, ke kterému je LoRA vytvořena, přidám zkopírovaná slova na začátek promptu a k tomu můj prompt stejný jako minule.
A vidíte, že dole máte možnost vybrat LoRA a taky nastavit sílu LoRA. 1.0 je default, čím větší číslo, tím víc LoRA ovlivní výsledný vzhled.
Tady vidíte výsledné video se sílou 1, pak 2 a poté kompromis jako 1.5. Číslo může mít jedno desetinné místo oddělené desetinnou tečkou, protože i čísla zadáváme v angličtině.
Wan v tuhle chvíli umí anglicky a čínsky.
Tohle není úplně ideální výsledek, ale tohle taky není úplně ideální kombinace obsahu ve videu a LoRA, ta je podle příkladů zamýšlená hlavně na využití pro ilustrace a anime. Takže já myslím že Shiba z toho vyběhla dost pěkně a s radostí z placatě barevného života.
Tady je druhý příklad pro LoRA trénovanou pro I2V a jako efekt zmačkání objektu na obrázku. Tohle je populární video trik, za který se leckde jinde platí, vy ho můžete díky někomu hravému vyzkoušet zdarma. Máte tu něco ke čtení, pokud chcete, a taky trigger words, a doporučené nastavení.
Tady budu trochu hádat, předpokládám že Guidance Scale je jasné, Flow Shift bude asi Shift Scale? Rozdíl mezi default a doporučenou hodnotou je minimální, není třeba se obávat exploze, imploze ani jiné světové tragédie, pokud to nenastavíme přesně podle návodu.
Já ještě oříznu jeden z obrázků, aby byl pes víc uprostřed. Taky stahuju kvalitu výsledku, takže to pixelování je záměr, protože nemám čas, spěchám.
Tohle úplně nevyšlo, může to být tím, že je tu hodně pozadí a obrázek nemá čtvercový formát.
Ovšem ten druhý pokus je ťuťu ňuňu, navíc ta přesnost, pes je uprostřed skoku, nehýbe se, až když se ho páníček dotkne a začne ho ňuchňat, ty pohyby tlapek a celého psího těla jako reakce na obětí a mazlení jsou velmi realistické.
Ještě to zkouším jednou s celou planetou, ale motají se do toho velmi ilustrativní ruce, takže mě to přestává bavit. Pokud chcete něco zmuchlat, muchlejte si to sami ve svém volném čase.
A teď k tomu jak a kde Wan 2.1 využít. Nešťastníci se slabými grafikami můžou využít zdarma Hugging Face, ale připravte se na frontu, dost často nebudete ani připuštěni ke generování a budete to muset zkusit pozděj.
Wan 2.1 můžete samozřejmě využít v ComfyUI. Pokud ho spustíte v Pinokio a updatujete, najdete tu už nějaké default workflows pro Wan. Připravte se na to, že tady budete stahovat úplně jiné modely, než které používá samostatná Wan aplikace v Pinokio, takže další místo na disku je nutné.
Pokud už asi třetí větu vůbec nechápete, o čem to tady plácám, dovolím si vám nabídnout instalaci pro začátečníky, s tím jednoduchým prostředím, které jste viděli celou dobu ve videu.
Na jeho provoz potřebujete grafickou kartu nVidia s nejméně 5GB VRAM, ale ideálně asi 8GB a více. Zapomeňte ale na 12 sekund videa, to je pro ty co mají alespoň 12 GB VRAM.
Pro ty, co Pinokio nemají, jsou tu poprvé a netuší, odkud vítr vane ani kde je sever následuje rychlý a stručný návod na instalaci Pinokio, ostatní můžou přeskočit na další kapitolu.
Ze stránky pinokio.computer přejdete tlačítkem Download na Github, vyberete si svůj operační systém, vidíte že pro Windows si stáhnete soubor a nainstalujete běžným způsobem. Pinokio samotné se instaluje velmi rychle, s prázdnou úvodní stránkou. Vy si najdete a vyberete Wan.
Pokud by se vám instalace nepodařila, nebo potřebujete delší a podrobnější návod, na tomhle kanále najdete podrobné video s instalací a běžnými problémy v začátcích s Pinokio.
Můžete teď přeskočit do podrobného návodu a vrátit se přesně sem, až vás k tomu video vyzve.
Kdo má nainstalováno Pinokio, tak si po spuštění najde a vybere Wan k instalaci.
Jako obvykle, je třeba vybrat složku, kam se Wan instaluje, potvrdit instalaci a pak čekat, až je hotovo. V průběhu se stahují různé velké soubory, a může to trvat docela dlouho.
Teď máte nainstalováno a můžete Wan 2.1 spustit tlačítky Text-to-Video nebo Image-to-Video.
Budete-li v průběhu generování stahovat LoRA soubory, je ideální celý Wan vypnout a poté znovu nastartovat jedním z těchto tlačítek, abyste byli schopní nově stažené LoRA modely používat.
Na sociálních sítích můžete vidět, že s Wanem se dají dělat opravdu skvělá videa, bohužel to chce buď hodně času, lepší grafiku nebo je potřeba využít placené služby, které to celé spočítají za vás. V tuhle chvíli už je dostupný také inpainting a video-to-video.
A protože tenhle model je populární, určitě můžeme očekávat mnohá další vylepšení a postupy, díky kterým se opravdu každý může stát filmařem a Holywoodští dinosauři nebudou mít co žrát.
Já nejsem dinousaurus a jím skromně, ale zato piju hodně kafe. Pokud shledáváte moje návody užitečnými nebo zábavnými, můžete mi na moji kofeinovou závislost přispět opravdovými penězi, nebo mě alespoň podpořte palcem nahoru a přihlášením se k odběru, to vše dělá tady na YouTube zázraky. Všem, kteří už mě jakoukoli formou podpořili děkuju a budu děkovat i v příštích videích.