AI

Tady AI

Neuvěřitelná AI generovaná videa – OpenAI Sora

Odkazy:
Ohlášení Sora
Podrobnosti a technické detaily

Sociální sítě explodovaly a nadšenci do AI po celém světě již několik dní tančí a veselí se. Nová éra začíná!
Co se děje? OpenAI ohlásilo nový nástroj na generování videa, Sora. A na rozdíl od anglicky mluvícího světa, kde je nadšení a pozitivní entuziasmus povinností, já vám i přes celoplanetární nadšení a bujaré oslavy nové budoucnosti nebudu zatajovat tu nejdůležitější informaci. Tento nástroj není přístupný veřejnosti a nemůžete si ho vyzkoušet.
Ale nepřepínejte kanál, pokud jste nic o Sora zatím neslyšeli, tohle vám vážně vytře zrak.
Jak se tedy dostanete k těm novým převratným videím od OpenAI?
Pokud jste Mr. Beast, máte 240 milionů sledujících na Youtube, ale jen pouhých 28 milionů na eX-Twitteru, můžete socsíťově zahalekat na Sama Altmana, udělat na něj smutné oko, a on vám jedno takové video vygeneruje. Pokud máte o něco méně folouňů, můžete Sama Altmana, šéfa OpenAI, taky požádat, ale asi budete muset vymyslet něco super šíleného, aby si vás vůbec všimnul.
No a my ostatní si přečteme manuál, blog a vyškrábeme něco z hlubokých koutů eX-Twitteru. Teda, vy nemusíte, vy máte mě, a já už to mám vyškrábané a tady vám to naservíruju.

Sora umí generovat taková videa, jaká jste od umělé inteligence ještě neviděli.
Můžou být až minutu dlouhá, můžou být kontinuální nebo obsahovat střihy z různých úhlů, ano, z jednoho promptu. Může to být nekonečná video smyčka, videa mohou v dalším promptu zůstat zachována, ale změnit celkový vizuální styl, možnosti jsou video z textového promptu, video z obrázku nebo video z videa.
A hlavně, videa vůbec nevypadají jako ta obvyklá, rozmazaná, nesmyslná čtyřsekundová generovaná videa, na které jste dosud byli zvyklí.
Tohle je stránka z webu OpenAI, a jako první jí kraluje tohle minutu dlouhé, neuvěřitelné video ženy kráčející večerním Tokiem. Prompt je delší, popisný a video je… ohromující. Neuvěřitelné detaily, nápisy na obchodech jsou konzistentní, lidé v pozadí nedělají nesmysly, kaluže odrážejí uvěřitelné obrazy, pleť dámy není digitálně dokonalá…
Je tohle opravdu generované? Hned další kousek ukazuje mamuty radostně běhající ve sněhu… Tohle určitě nebude reálné video, to dá rozum…
Další je filmový trailer, takže jsou v něm rychlé střihy, a krom toho, že přesně splňuje prompt, „kosmonaut s červenou pletenou motocyklovou helmou si užívá meziplanetárního dobrodružství,“ tak opět ukazuje detaily obličeje, vlasů, rukou… A všechno je dobře, nic se po dvou sekundách nerozbilo, nevzplálo jasným plamenem ani neuletělo do vesmíru.
Na této webové stránce najdete velké množství videí, které jsou jistě to nejlepší, co se OpenAI podařilo pečlivě vybrat z patrně velkého množství vygenerovaných videí. Vidíte různé emoce, drobné detaily reálných i smyšlených postav a prostředí… Až to skoro hlava nebere… Je tohle opravdu AI?
Kdo nevěří, na eX-Twiter běží, a sleduje Sama Altmana a další vývojáře z OpenAI. Oni opravdu pár videí na přání generují a udržují hladinku světového nadšení průběžnými ukázkami dalších a dalších videí, a ne všechna jsou takto dokonalá. Opice hrající šachy v parku šachy nehraje a ta šachovnice taky nesouhlasí…
Tady žralok má ten ocásek asi natahovací… Paní se vylekala tak že otáčí hlavou líp než leckterá sova… a vlevo dole, to není článek pana Peroutky, to je podivná končetina mladého muže, a ne, není to TA končetina, kterou myslíte… Není to ale ani ruka, ani noha.
Změna stylu videa z textového promptu je možná. Realisticky vypadající video se promění v pixelovaté umění… Nebo cokoli jiného.
Videa lze rozšiřovat, i směrem do „minulosti,“ tedy video se vygeneruje znovu s jiným začátkem, v několika různých variantách. Vy si můžete vybrat, jak váš příběh začne, nebo skončí. Svatopluk Kuřátko bledne závistí. Mladším sledujícím se omlouvám za poznámku z dob dinosaurů, ale vy jste šikovní a najdete si, kdo byl Svatopluk Kuřátko, že jo?
Sora umí vytvořit video ze dvou různých, nevygenerovaných, reálných videí. Tady je vpravo a vlevo reálné video a uprostřed výsledek, kde Sora spojí obě videa dohromady. Všechna ta videa si můžete prohlédnout ve full screen módu nebo stáhnout, odkazy jsou v popisku.

Tady se OpenAI chlubí tím, že z jednoho promptu se vygeneruje několik různých úhlů záběru. Já to teda vidím spíš jako chybu, když to nebyl výslovně záměr, ale určitě je to zajímavé a užitečné.
OpenAI očekává, že jim nespolknete všechno s růžovými brýlemi na očích, takže na jiné stránce najdete jednak techničtější vysvětlení toho, jak to zjednodušeně funguje, a taky pár nepovedených příkladů.
Pan sportovec běží po páse naopak, vlčata se spojují, rozmnožují a mizí a zjevují se, míč měl spadnout do koše a explodovat, ale tohle asi nebylo úplně v plánu…
Jak je tohle vůbec možné? V době, kdy z generátorů videí horko těžko vytlučete 4 sekundy videa s minimem pohybu, jakou magii v OpenAI používají?
Oni vám to tak nějak vysvětlí, ale zase ne moc. Technologie generování je trochu jiná než u ostatních nástrojů, vizuální data jsou zpracovávána v patchích, malých kouscích obrázku. Místo toho, co dělají ostatní nástroje, tedy pracují s každým jednotlivým snímkem jako s obrázkem a pak z obrázků dělají video.
Jak to přesně funguje se asi nedozvíme, ale je jasné, že je k tomu potřeba neobyčejně velký počítačový výkon. Tady vidíte jak vypadá video generované na něčem nazvaném základní výpočetní výkon, a další výsledky s čtyřnásobným a 32 násobným výkonem. A hned je nám jasné, že tohle nejenže nebude zadarmo, ale tohle bude něco stát…
Druhým předpokladem je množství videí, na kterých musel být takový model trénován. Předpokládá se, že to musely být řádově přinejmenším miliardy různých videí.
Nadpis celého dokumentu „Modely generativního videa jako simulátory světů“ vyvolal vlnu spekulací, že celý model byl trénován na herních enginech. Určitě znáte pojmy jako Unity, nebo Unreal Engine, ve kterých se vytvářejí herní prostředí. Mnohá prostředí z těchto enginů jsou natolik realistická, že je na první pohled nerozlišíte od reálného videa. Výhodou také je, že jsou k dispozici assety, už hotová prostředí, která vám po spuštění dávají možnost si vytvořit video v jakékoli délce, úhlu a pozici kamery.
Tomu by odpovídaly tyhle vygenerované jakože záběry z dronu… Protože pokud sami s dronem létáte, tak víte, že třeba záběr, při kterém proletí dron třešňovými větvemi není reálné udělat, protože u toho pravděpodobně zničíte dron, nebo aspoň vrtulky…
Na druhou stranu je dobré si uvědomit, že herní enginy nejsou úplně fotorealistické a ve videích z nich jsou vždycky nějaké artefakty, takže trénovat model jen na digitálních videích by asi nebylo úplně ono.
Je fajn si připomenout, že v červenci roku 2023 OpenAI uzavřeli partnerství s jednou z největších foto a videobank, Shutterstock a jsou domluveni na spolupráci v délce 6 let. V tiskové zprávě bylo zmíněno trénování Dall-E, ale… Shutterstock má k dispozici přes 30 miliónů videí, a mnohé z nich jsou ve 4K kvalitě.
Pravda, která je tam někde venku, a my se ji asi nikdy nedozvíme, bude nejspíš někde mezi. Kdybyste měli možnost trénovat na reálných videích i na videích z herních enginů, kde si můžete nastavit jakékoli možné parametry, asi byste si nevybrali jen jednu možnost, ale obě. Zvlášť pokud potřebujete pár desítek miliard takových videí.

Sora je v tuto chvíli dostupná pouze vývojářům v OpenAI a patrně pár vyvoleným tvůrcům filmů, které si v OpenAI vybrali jako pokusné králíky. My ostatní budeme závistivě slintat a šetřit naše těžce vydělané peníze ještě nějakou chvíli. OpenAI zatím oznámilo, že datum vydání pro veřejnost není známo a nemáme jim psát o přístup, protože ho zatím nerozdávají. Jestli jste dosud nebyli slavní a světoznámí, tak si asi budete muset počkat ve frontě s námi ostatními smrtelníky.

A já tímto ukončím srandičky a legrácky a vrátím se k serióznímu studiu umělé inteligence a vážným projektům na tomto kanále. Příště uvidíte zase něco, co můžete použít a nemusíte sahat příliš hluboko do kapsy.