Mochi – generujte video zdarma, už napořád!
https://youtu.be/N0dGuAALZac
Co byste říkali na open-source video model, ve kterém můžete generovat videa tak dlouhá jak chcete, můžete to dělat lokálně, na vlastním počítači, bez omezení a bez cenzury? A všechno, co vygenerujete, můžete použít na cokoli chcete, tedy i k vydělávání peněz?
Takový model už existuje, jmenuje se Mochi1 a vydali ho v Genmo před dvěma týdny. Údajně je to prý nejlepší video model, ostatně jako všechno co vždycky vyjde, dokud nevyjde něco jiného…
Nicméně, Mochi1 je opravdu převratný právě v tom, že model srovnatelný s ostatními uzavřenými modely je open-source, a vydán pod Apache 2.0 licencí, takže použitelný i komerčně.
Pokud si chcete přečíst víc technických podrobností, najdete je na Genmo blogu. Model umí generovat 480p videa, to je SD kvalita, má omezení na maximálně 5,4 sekund a je optimalizován na realistické záběry, třeba animace se s ním zatím dělat moc nedají.
V tuto chvíli existuje pouze možnost generovat z textového promptu.
Můžete si to sami zkusit bez instalace, přímo na webu Genmo, je tu playground, kde si po přihlášení s vaším emailem můžete užít asi tak dvě videa denně, nebo 30 videí měsíčně, nebo něco jiného, protože jejich podmínky použití jsou takové… chaotičtější.
Zkouším mého oblíbeného bělocha – samuraje v tradičním japonském oblečení, který seká katanou hrdlo skleněné lahve.
Tady mimochodem vidíte videa stará víc než rok, tohle byla videa, které Genmo umělo před rokem.
Samuraj nic nepřeseknul, ale to je běžný výsledek tohoto promptu, zatím žádný generátor videí tohle nedokáže korektně vygenerovat. Přitom reálná videa tohohle triku existují…
Zkouším ještě prompt se starým vrásčitým mužem, který se usmívá a za ním bouří moře.
Je to koukatelné, na txt2vid prompt je to velmi slušné.
Protože jde o otevřený model, je jasné, že tohle vše se velmi rychle bude měnit a vyvíjet raketovou rychlostí a nástroje na používání modelu lokálně budou lepší, jednodušší a dostupnější.
A proč už to ode mě dávno nevíte a nebylo tu video už před dvěma týdny? A proč už Holywoodská studia nezkrachovala a filmy si teď nevyrábíme doma sami?
To je jednoduché. Původní oznámení téhle novinky hlásalo, že model ke stažení, který má zhruba 40 GB, údajně potřebuje k provozu stroj se čtyřmi grafickými kartami typu Nvidia H100.
Jedna H100 karta stojí okolo třiceti tisíc. Liber šterlinkových. To je asi 900 000 českých korun. To si možná nemůžou dovolit ani v Hollywoodu.
Nicméně, bavíme se o open-source, tam se vše vyvíjí neuvěřitelně rychle. Ohlášení Mochi bylo v úterý. Už ve čtvrtek se objevil návod a ComfyUI workflow, které jede na 24 GB VRAM, což má Nvidia 4090, a tu už leckdo doma má.
A teď po dvou týdnech, máme:
ComfyUI workflow, které funguje údajně i na 8GB VRAM.
Navíc ComfyUI bylo upgradováno tak, aby umělo s Mochi pracovat.
A ComfyUI se také dá nainstalovat jedním klikem pomocí Pinokio.computer.
A Pinokio.computer má teď také aktualizaci pro Mochi, které vám stáhne celý upravený a zmenšený a pro domácí počítače optimalizovaný model tak, abyste s tím rovnou mohli pracovat.
Jo, to všechno se stalo za dva týdny díky open-source komunitě, která si novinky užívá a pracuje na tom, aby si je mohl užívat úplně každý tak rychle, jak to jen jde.
Já mám celých 12GB VRAM a ne úplně špičkovou Nvidia 3060 a vygenerovat jednosekundové video trvá asi okolo pěti a půl minut.
Na Nvidia 4090 trvá jednu sekundu dlouhé video vygenerovat jednu a půl minuty.
Máte-li Nvidia grafiku s alespoň 8 GB VRAM, můžete začít generovat. Chcete se to naučit, tady a teď?
Pokud ano, nejdřív se připravte. Budeme používat ComfyUI. To vás může na začátku vyplašit, ale celý návod bude krok za krokem, nemusíte nic zvláštního umět, jen pečlivě následujte celou instalaci a postup generování. I pokud jste dosud s Pinokio ani ComfyUI nepracovali, měli byste to zvládnout.
Může to trvat i hodinu vašeho času a mějte nachystaných takových 40-50 GB volného místa na vašem disku, ideálně na C:
Připraveni? Pozooor…teď!
Máte-li ComfyUI už nainstalované, je jedno, jestli v Pinokio nebo samostatně, udělejte update ComfyUI. Pro ty, co si budou poprvé instalovat Pinokio je tu samostatný podrobný video návod s instalací. Pinokio už má novější verzi, ale návod je stále aktuální. Na rozdíl od návodu budete instalovat ComfyUI, ale je to v průběhu zmíněno.
Přeskočte do podrobného návodu teď, a vraťte se zpátky sem.
Máte-li Pinokio, najděte si a nainstalujte ComfyUI.
Vidíte, že si přejmenovávám složku, kam se bude instalovat, na ComfyUI. To není potřeba, složka se může jmenovat jakkoli. U mě trvala celá instalace víc jak dvacet minut, buďte trpěliví a nechte to dělat práci za vás.
Úplně na konci by se vám automaticky mělo otevřít okno s ComfyUI.
Pinokio má speciální tlačítko na Mochi. Pokud už jste měli Pinokio nainstalované předtím, updatovali jste ComfyUI, tak se teď připojte a pokračujte se mnou.
Vypněte ComfyUI, pokud jede. Pokud nejede, otevřete jen jeho okno. Kliknutím na domácí stránce, na malou ikonku otevřené složky.
V menu na levé straně vidíte položku Quick Installers. Vyberte to, co pro vás platí. Máte-li méně než 17 GB VRAM, vyberte první možnost, máte-li více VRAM, vyberte možnost druhou. Já vybírám méně než 17 GB.
Tahle akce trvala další čtvrt hodiny. Že je dokonáno poznáte podle toho, že modré tlačítko nahoře vám nabízí Start.
To zmáčkněte a znovu spustíte ComfyUI, tentokrát připravené na práci s Mochi. Pravděpodobně v něm na poprvé budete mít nějaké workflow, nebo možná vůbec nic. To je v pořádku.
Celé okno ComfyUI se dá také otevřít ve vaše internetovém prohlížeči kliknutím na pop-out . Vidíte, že jede na číselné adrese na vaší lokální síti. Tuhle adresu otevřete v kterémkoli prohlížeči, můžete ji otevřít i víckrát, je to běžná webová stránka.
Další krok je stažení workflow. Workflow je postup, jak něco vytvořit, obrázek, video, něco dalšího. Je to postup, který pro vás už někdo připravil, takže nemusíte rozumět tomu, jak ComfyUI funguje. Workflows se dají ukládat různými způsoby. Jeden z nich je uložení samotného workflow v obrázku, který je tímto workflow vygenerován. Otevřením nebo přetažením obrázku na plochu ComfyUI se workflow otevře a vy ho můžete rovnou používat.
No ale my chceme generovat video, říkáte si. Chceme, ale naštěstí máme i obrázky, které umí ukládat video a zároveň workflow. Takovým formátem je *.webp, a v tomhle formátu také vývojáři ComfyUI nabízí základní workflow pro Mochi. Odkaz na tuhle stránku najdete, jako všechno ostatní, v popisu videa.
Teď se připojí i ti, kteří už ComfyUI mají nainstalované samostatně, bez Pinokio.
Stáhněte si první obrázek z tohoto blogu, ten s běžící liškou. A přetáhněte a pusťte ho do ComfyUI.
Vám se samostatným ComfyUI to nebude fungovat, potřebujete si stáhnout modely z Hugging Face, link je na konci druhé věty, a pod tím vidíte, kam máte modely uložit. Stejně jako v Pinokio pro vás platí, že máte-li menší množství VRAM, dáte asi přednost rychlejšímu a menšímu modelu fp8, ti kdo mají víc VRAM si můžou stáhnout fp16 model.
Otevřelo se vám celé originální workflow i s promptem na běžící lišku.
Rychlý úvod do pohybu po ploše. Zoomujte kolečkem myši, mně to funguje jen když je kurzor mimo nodes, tedy ty boxíky s jednotlivými prvky. Kurzor umístěte nad ten základní „čtverečkovaný papír.“
Posunování po ploše se nejrychleji dělá stisknutím a držením prostředního tlačítka nebo kolečka myši, posunutím myši po vašem stole a puštěním tohoto tlačítka.
Pokud jste nikdy žádné nodes, uzly, propojené nudlemi, špagetami, tedy těmi čárkami mezi nimi neviděli, tak tohle je modulární systém, kde jednotlivé prvky, to jsou ty boxíky, dělají část práce, a vy si je volně a dle vlastního uvážení přidáváte, měníte, nastavujete v nich jednotlivé parametry a kombinujete je. Tam, kde vede nudle z jednoho boxu do jiného se děje to, že výsledek práce v boxu vlevo se vloží do boxu víc napravo. Těch vstupů se tam může vložit víc, v rámci toho dalšího boxu se zpracují, zkombinují, provedou nějakou magii a na konci posledního boxu z toho vypadne váš očekávaný výsledek. V našem případě video ve formátu webp.
Tohle workflow je docela jednoduché, já vám popíšu jen části, které potřebujete znát a nastavovat.
První úplně vlevo je Load CLIP. Pokud jste si vybrali možnost pro víc VRAM, nechte zde soubor s fp16 v názvu. Máte-li méně VRAM, Pinokio vám stáhlo, nebo jste si samostatně stáhli a správně uložili soubor s fp8 v názvu. Prostým kliknutím na název souboru se vám objeví vše, co je ve správné složce na vašem disku. Ti s méně pamětí kliknou a vyberou si soubor s fp8, jak to vidíte ve videu.
To samé platí pro Load Diffusion model úplně nahoře.
Dole je EmptyMochiLatentVideo. Tohle vytváří prázdné výchozí video, ve kterém jsou zadány parametry generovaného videa. Vidíte, že rozlišení videa je 848 pixelů na šířku, 480 pixelů na výšku. Vy si upravíte délku videa. Video bude mít 24 snímků za sekundu, a protože to zkoušíte poprvé, nastavíte minimální délku videa, jednu sekundu, což by mělo být 24 snímků, za tu jednu sekundu. Samo se to přenastaví na 25, to je minimální délka videa, nemůžete dělat kratší.
Experimentováním bylo různými lidmi zjištěno, že nejdelší možné video je v tuto chvíli video o 180 snímcích. Nezkoušejte to na poprvé, začněte s jednou sekundou.
Jak vím, že 24 snímků je jedna sekunda? Protože tady na konci, v SaveAnimatedWEBP je fps, frames per seconds, tedy počet snímků za sekundu, nastaven na 24.
Dál vás může zajímat Seed. Default je Randomize, to znamená že každé video bude mít náhodný Seed. Pokud budete zkoušet něco konzistentního, můžete přepnout na Fixed a pracovat stále se stejným Seedem.
Asi nejdůležitější část je Prompt. Vidíte že jsou tu dva, ten horní je prompt s původní běžící liškou, vede pak do KSampleru jako positive.
Ten spodní je negativní prompt, vede do KSampleru jako negative, a klidně ho můžete nechat prázdný, nebo do něj napsat něco velmi obecného.
Jak to celé spustit? Buď tlačítkem Queue Prompt. Nebo lze to samé udělat klávesovou zkratkou Ctrl+Enter.
ComfyUI řadí prompty do fronty, takže pokud budete splašeně třískat do klávesnice nebo mačkat tlačítko, protože nevidíte, že by se něco dělo, tak tam pošlete to samé milionkrát za sebou a váš počítač se bude snažit to opravdu provést a možná vás nebude mít rád.
Odešlete prompt jen jednou, uvidíte, že se začnou zeleně zbarvovat ty uzly, které se právě provádějí. Pokud máte hodně VRAM a rychlý počítač, možná uvidíte až KSampler, to je ten chudák, co dělá nejvíc práce, tam to může vypadat, že se vše zastavilo. Ale nezastavilo, dokud je něco zeleného, je to v pořádku. Že je něco špatně poznáte podle toho, že na vás začnou vyskakovat červená okna a upozornění.
Pokud byste přesto byli nervózní a nemohli se dočkat, může se podívat do příkazového řádku, že se něco děje. Taky tam uvidíte, jak dlouho se celý prompt bude provádět. Úplně první prompt může trvat déle, protože se načítá celý model. Druhý a další prompt by měli být rychlejší. Ale vůbec se tam dívat nemusíte, protože s tím stejně nic neuděláte.
Po provedení promptu se objeví vaše první video. A jak napovídá název uzlu SavedAnimatedWEBP, už je to celé uložené.
Vše najdete v složce v Pinokio, u mě je to
C:\pinokio\api\ComfyUI\app\output
Ale pokud jste nechali default název, tak je to
C:\pinokio\api\comfy.git\app\output
Název souboru je ComfyUI_pořadovéčíslo_.webp.
Chcete-li změnit tu první část na něco jiného, udělejte to v SaveAnimatedWEBP, změňte položku filename_prefix
Co třeba delší video? 103 snímků by mělo být čtyřsekundové video. Spouštím prompt a po chvíli kontroluju příkazový řádek. Předchozí prompt se provedl za 600 něco sekund, to je deset minut, mně u toho jede leccos ještě v několika dalších oknech. Máte-li 12GB VRAM a méně, tak se téměř všechna grafická paměť bude využívat při generování. Cokoli dalšího jede a využívá grafickou kartu bude celý proces zpomalovat. Zařiďte se podle toho.
A tady vidím, že čtyřsekundové video by mělo trvat 44 minut. To se mi vůbec nelíbí! Ale nebudu do toho třískat kladivem ani v panice trhat šňůru ze zásuvky.
ComfyUI umí zrušit úkol z fronty.
Vpravo v panelu najdete tlačítko View Queue, prohlédnout si frontu. Vidíte, že tady jedna úloha jede, další ve frontě by byly v Pending. No a já tu jednu jedinou ukončím zmáčknutím Cancel. Hotovo, vyřízeno.
Hádám, že to vám pro začátek na vyděšení se k smrti úplně stačí. Snad máte nějakou základní představu, jak ComfyUI funguje, a chápete, že jsme se sotva lehounce dotkli povrchu tohoto komplexního nástroje na generování obrázků, videí, textů, a kdečeho.
V budoucnu možná bude existovat nějaký běžný program typu Photoshop, který bude tohle všechno schovávat za pěkným, a relativně složitým, uživatelským prostředím. Nějaké pokusy tímhle směrem s ComfyUI už existují, ale jednak to velmi omezuje funkce a jednak… je zajímavé vidět, jak to všechno funguje, ne?
Mochi v téhle úpravě je samozřejmě zmenšený a ořezaný model, kvalita videa nikdy nedosáhne kvality generované z plného originálního modelu. Můžete si sami vyzkoušet, že i mezi modelem pro méně a více VRAM je kvalitativní rozdíl.
Ale jak je zmíněno v úvodu, jsme dva týdny od vydání Mochi. Samotný model generující video, vydaný jako open-source, je významný krok v oblasti generativní AI.
To, že ho po dvou týdnech můžete ve „zmenšené“ verzi používat na domácím počítači, je další obrovský skok dopředu.
A to zdaleka není jediné, co se v oblasti generovaného videa děje, opravdu by se každý den v týdnu dala vydat jedna úžasná novinka, a vypadá to, že tímhle tempem se budeme ještě chvíli řítit.
Líbilo se vám video? Chtěli byste víc videí, třeba dvě nebo tři týdně? Dejte mi to vědět. Já je budu s radostí dělat, ale potřebuju vaši pomoc. Nejvíc mi pomůžete, když dáte lajk a přihlásíte se k odběru videí. Napište komentář, ať nakrmíme místní algoritmus. Jestli vám šetřím peníze, čas a nervy, je tu nově i možnost vyjádřit váš vděk finančně, malou, symbolickou částkou. Asi je vám jasné, že za grafické karty, předplatné skvělých služeb a jejich testování se dá utratit… asi jakákoli částka. A že v mém případě z toho nejvíc budete mít zase vy, protože já se s vámi podělím a udělám ještě víc ještě lepších návodů a recenzí. Děkuji předem, budu děkovat i potom.