AI

Tady AI

Whisper – české titulky z videa i audia zdarma

Odkazy v článku odkazují na příslušnou část videa. Při čtení můžete otevřít video pro “náhled” přesně v tom čase, ke kterému text odkazuje.

Potřebujete vytvořit titulky s časováním k vlastnímu videu v češtině nebo slovenštině? Chtěli byste vědět jak jednoduše a automaticky dělám titulky já, pro tento Youtube kanál? Nerozumíte videu v cizím jazyce a titulky k němu neexistují? Díváte se na něco zajímavého na Youtube, ale nerozumíte perfektně a nejsou k tomu titulky? Potřebujete přepsat text audio nahrávky? A pak ho přeložit do jiného jazyka? Máte sluchové postižení a tvůrci podcastů a filmů se nenamáhají pro vás vytvořit přepis nebo titulky? Tohle všechno můžete vyřešit jednoduše, vlastními silami a zdarma.
V tomto návodu vás naučím, jak si vytvořit titulky nebo přepis z jakéhokoli audio souboru, nebo z videa na Youtube, aniž byste ho museli stahovat a nebo z nahrávky z vašeho mikrofonu. Přepis a překlad funguje pro 99 jazyků, včetně všech evropských a asijských jazyků, a mnoha dalších jazyků, o kterých jste možná ani neslyšeli.
Zmíním dva způsoby, jak to udělat, jeden je rychlý, bez instalace, využijete webové prostředí, které pro vás připraví soubor s titulky. Druhý způsob přepisu textu z audia zahrnuje instalaci jednoho nebo dvou programů na váš počítač, a vytvoření přepisu lokálně, žádná data ani soubory neposíláte nikam mimo svůj počítač. Na konci vám ukážu, jak já finálně ladím titulky pro moje videa tak, aby byly opravdu komfortní i pro uživatele, kteří jsou na nich závislí. A já vím, že tento kanál má sledující s postižením sluchu, kteří tuhle práci navíc ocení.

K mému překvapení se stále znovu potkávám s lidmi, kteří si stěžují, že dělat titulky je časově náročné, nebo za to musí někomu platit, nebo ten někdo nemá čas… Pokud jste tu z tohohle důvodu, zapomeňte na všechny tyhle problémy. Ještě nejsme tak daleko, aby se titulky zhmotňovaly tak nějak samy od sebe ve všech nástrojích na editaci videa a audia, tomu je asi potřeba ještě dát rok nebo dva… Ale titulky téměř bez práce můžete mít tady a teď.

Nástrojů a webů na vytváření titulků existuje velké množství, většina z nich je buď placená, nebo nějak omezená, nástroje vznikají a zanikají, a různí lidé mají různé požadavky na to, co potřebují.
Řešení, které vám nabízím já je založeno na OpenAI Whisper, ano, od té společnosti OpenAI, která stojí za Chat GPT a na dalších open-source nástrojích, které může využít každý a zdarma. A celý postup je vyzkoušen mnou osobně, na všech titulcích od samého začátku tohoto kanálu. Očekávejte tedy i praktické tipy a ukázky, jak to funguje, případně nefunguje.

Nejjednodušší způsob je využít webové prostředí, které pro vás nachystal někdo jiný. Já použiji HuggingSpace, to je platforma, na které se dají vyzkoušet různé nástroje umělé inteligence, vytvořené jak velkými firmami jako Facebook, OpenAI nebo StabilityAI, tak malými nezávislými vývojáři.
Odkaz najdete dole v popisu videa. Doporučím vám vybrat model Large-v2, nastavit češtinu, přetáhnout soubor s audiem, který máte ideálně nachystaný ve formátu mp3, zkontrolovat, že děláte transcribe, přepis, a ne translation, tedy překlad. Dle doporučení v záhlaví jako VAD nastavím silero-vad. Vidíte, že je zde i možnost nahrávání z mikrofonu nebo rovnou vložení Youtube adresy. Nic jiného tady nelze nastavit, takže rovnou spustím přepis. A vidíte, že to bude trvat nechutně dlouho. To je cena za službu online a zdarma, kterou vám někdo poskytuje z vlastní dobré vůle.
V popisku videa najdete několik odkazů, protože tyhle služby vznikají a zanikají podle toho, jakou má zrovna autor náladu vás sponzorovat. Berte to tedy s rezervou, pokud to nefunguje, není potřeba mi psát to do komentáře, já to pro vás neopravím.

Další čistě online možností je využít vašeho Google účtu, stačí účet zdarma, zkopírovat si Google Colab notebook, ve kterém si pomocí několik předchystaných příkazů nainstalujete dočasně OpenAI Whisper na vlastní Google Drive, přepíšete si titulky, stáhnete si je, a celá ta věc se automaticky zavře, smaže, a pro příští použití je to potřeba udělat celé znovu. Tohle pěkně popsal v češtině Martin Jurica na svém blogu, takže k tomu návod dělat nebudu, odkaz na slovní popis najdete v popisu videa.
Opět, Google se může rozhodnout tohle kdykoli přestat spouštět pro účty zdarma, a netvrdím, že tohle je jednoduchý způsob, zejména pokud jste žádný Google Colab notebook nikdy předtím neviděli.
Mně přijde nejkomfortnější si to celé nainstalovat na vlastní počítač a nespoléhat na něco někde online. To vás teď naučím a troufnu si říct, že to zvládne opravdu každý.
První, co si nainstalujeme je pinokio.computer. Autor ho nazývá “prohlížečem umělé inteligence,” česky je to asi spíš platforma, díky které si můžete nainstalovat mnohé nástroje umělé inteligence úplně bez znalosti věcí jako je Github repozitář, ffmpeg, Python, Anaconda, virtuální prostředí v Pythonu a další cizí neslušná slova, kterých se už teď bojíte.
Pinokio.computer za vás udělá všechnu tuhle špinavou ajťáckou práci a vy si pohodlně vyberete, který zázračný AI nástroj si vyzkoušíte. A není jich málo.
A proto je k instalaci Pinokio.computer zvlášť video, které bude na tomto kanále a na které se odkážu vždycky, když budeme používat nástroj instalovaný přes pinokio.computer.
Pokud tedy pinokio nepoužíváte a nikdy jste o něm neslyšeli, přesuňte se prosím do videa “Instalace pinokio,” je tu v odkazu a také v popisku. Projdete si tam instalaci pinokio krok za krokem a pak se z videa zase vrátíte sem, a budeme pokračovat v titulcích.

Video s instalací pinokio:

Máte-li pinokio už nainstalované, pokračujte dál v tomto videu.
Po otevření pinokio.computer se přesuňte na Discover, vyhledávání nástroje. Můžete buď dlouze scrollovat dolů, nebo rovnou napsat Whisper.
Stáhněte si nástroj, vyberte si, kam se nainstaluje, doporučuji nechat přednastavenou volbu. A zase, buďte trpěliví, než se to nainstaluje.

Po instalaci, nebo po kterémkoli spuštění pinokio, najdete nainstalovaný nástroj na Homepage. Kliknutím otevřete stránku nástroje, kde máte možnosti instalace nebo updatu. Nástroj se spustí pomocí Start nebo Launch.
Whisper je kompletně spuštěn, když vidíte tento odkaz na lokální adresu, kliknutím otevřete prostředí ve webovém prohlížeči… A tohle už jste viděli, v bleděmodrém. Nebo asi spíš černé na bílém.
Lokální prostředí má další možnosti přepisovat ze souboru, z adresy na Youtube, z mikrofonu a taky je tady možnost překladu z jednoho jazyka do druhého.
Já budu dělat úplně stejný přepis jako předtím online. Přetáhnu soubor s mp3 zvukem, vyberu model large-v2. Nenechte se zlákat tím, že tu existuje i verze large-v3, ta dává podstatně horší výsledky, nejen mě, ale mnoha online uživatelům, někdo to dokonce vyčíslil jako 15-20% větší chybovost.
Vyberu češtinu, ale nemusím. Chcete-li jen text, vyberte formát .txt, chcete-li časované titulky, vyberte formát .srt
Tohle úplně stačí, nic jiného není třeba nastavovat.

Moje osobní zkušenost je ta, že čím datově menší je audio soubor, tím lepší je výsledek. Přepis z MP3 souboru je méně chybový než z WAVu. Přepis z audio souboru je významně kvalitnější, než když sem vložíte rovnou celé video, ačkoli to MP4 nebo MKV soubory zvládá. Budete-li přepisovat dlouhý soubor, třeba celý film, opravdu záleží na tom, kolik prostředků může váš počítač tomuto procesu věnovat. Pokud u toho budete zároveň sledovat film nebo renderovat 3D grafiku, tak pochopitelně celý proces bude trvat déle, a čistě subjektivně, dostanete víc nesmyslů v textu.
Dostanete-li čiré halucinace, třeba pět minut opakujícího se stejného titulku, který v audiu vůbec není, nebo chybějící kus textu, který byl ignorován, uvolněte tomu víc prostředků zavřením jiných programů, spusťte to ještě jednou a běžte se projít. Je to jen stroj, všichni jsme zatím jednou velkou farmou pokusných králíků, a zkoušíme si na sobě nástroje budoucnosti.

Před prvním použitím se bude stahovat celý model large-v2 který má téměř 3 GB. Pokud se rozhodnete vyzkoušet jiný model, třeba large-v3, tak se znova před jeho použitím bude stahovat další 3 GB soubor. Můžete to vidět v terminálu v okně pinokio.
Já nic nestahuji, já už model používám, takže moje titulky k desetiminutovému videu z Whisperu vypadly po minutě a půl. Najdu je ve složce “outputs,” kam se jednoduše dostanu kliknutím na tohle maličké tlačítko vpravo, které jste možná přehlédli.
A už na první pohled vidím, že je to lepší výsledek, než z online modelu large-v3, není tam tolik chyb.
Jestli vám stačí jakýkoli hala bala text, protože jen potřebujete něco rychle otitulkovat a kvalita titulků vás nezajímá, tak jste hotovi.
Zbytek videa se budu věnovat tomu, jak z tohohle výstupu udělat kvalitní české použitelné titulky.
Ano, zavání to vlastní prací a používáním mozku.
Já si nejdřív titulky zkontroluji v textovém editoru. Tohle je mezikrok, který vůbec nemusíte dělat. Já používám Sublime Text, který zvýrazňuje syntaxi, je to spíš programátorský editor. Vy můžete klidně použít Notepad, nebo lepší Notepad ++.
Já tohle dělám proto, že se mi tu lépe čte a nahrazuji tady nesmyslná slova v celém souboru zároveň.
V žádném případě neotevírejte, nebo spíš následně neukládejte .srt soubor ve Wordu, Microsoft Office, nebo v jiném Office nástroji. Do souboru by se přidalo formátování, které by to celé udělalo nepoužitelným.
Vidíte, že Whisper přepisuje do velmi dlouhých řádků, a to je pro titulky k filmu nestandardní a nepříjemné.
Na finální úpravu titulků používám SubtitleEdit, který je ke stažení zdarma a poradí si asi s jakýmkoli formátem titulků, se kterým se kdy potkáte.
Soubor sem přetáhněte, klidně rovnou tak, jak vám ho vytvořil Whisper. Pokud jste nedělali žádné korekce v mezikroku v Notepadu, tak teď je čas to celé přečíst a opravit všechny gramatické chyby a nesmysly. Lze tu nahrazovat i hromadně, pomocí Ctrl+H, já třeba vím, že slovo Midjourney se málokdy přepíše správně, takhle to funguje od samého začátku, co Whisper používám, to je už druhým rokem. Určitě je to náhoda, že světoznámý nástroj na generování obrázků se nedostal do slovníku od OpenAI, dospělí lidé od konkurenčních firem by si jistě takové malichernosti nedělali schválně, že ne?
Vidíte, že většina řádků je červená, to je proto, že jsou příliš dlouhé. Můžete je nechat automaticky rozdělit, nastavíte si kolik znaků je maximum řádku a celý soubor se jedním kliknutím stane použitelným pro jakýkoli film. Já to ještě kontroluji manuálně, někdy jsou některé řádky rozdělené nesmyslně. Můžete taky dva titulky spojit zpátky a rozdělit je manuálně nějak jinak.
Protože už jste vkládali originální soubor .srt, stačí ho jen uložit pomocí Ctrl+S a máte přesně to, co potřebujete třeba na upload titulků na Youtube.
Youtube nově generuje soubor titulků i v češtině, u vašeho vlastního videa se hned po jeho uploadu objeví automatické české titulky. Můžete si je stáhnout a zkusit použít stejným způsobem. Je skvělé, že Youtube tohle dělá i pro tak obskurní jazyky, jako je čeština, bohužel zatím je to ve fázi, že takto vytvořené titulky jsou docela žalostné. Jsou prapodivně odřádkované a kvalita je, aspoň u mých videí, podstatně horší než umí Whisper.
Ale snad se tam brzo dostaneme a celý tenhle návod bude zbytečný. Co není zbytečné je pinokio, určitě jste neodolali a nakoukli jste, co za úžasné nástroje můžete instalovat bez bojování s Pythonem a nepovedenými instalacemi, a jistě už tušíte, že s některými nástroji si budu i já hrát v příštích videích na tomto kanále.