Hudba z textového promptu a další novinky od Google

Google se rozhodl, že chce vyhrát. V oblasti umělé inteligence se chystá zaujmout první místo přede všemi ostatními velkými firmami.
V minulém týdnu se v oblasti AI opět událo tolik nových věcí, že to asi nikdo z nás nestačí sledovat. Ale středeční konference Google I/O snad neunikla nikomu. Co bylo hlavním tématem konference shrnul The Verge v krátkém videu:
AI. Generativní AI.

Já tohle svoje video rozdělím na dvě části, první bude pár komentářů k novinkám Googlu, které se týkají umělé inteligence, a v druhé části najdete moje první pokusy s Google MusicLM, což je nový nástroj, který umí generovat hudbu z textového příkazu.
Jestli jste Google I/O neviděli, dá se vidět záznam celé konference na Youtube, link je dole pod videem, můžete vidět i zkrácený desetiminutový přehled, a já si z toho vyberu jen pár věcí, které mě zaujaly nejvíc.
První je Magic Editor, ten umí editovat vaše fotky v telefonu. Na ukázce vidíte fotku, která není perfektní, a díky editoru můžete vyfocené dítko posunout doprostřed snímku, Editor vygeneruje chybějící části obrázku, a lze také změnit celé nebe, takže to vypadá jako opravdu slunný den. Nic převratného, ale majitelé Googlích Pixelů budou někdy v průběhu roku potěšeni nabídkou této funkce. My ostatní budeme používat jiné nástroje.

Google se spojil s Adobe a nové vyhledávání bude mít integrované vytváření obrázků přímo při konverzaci, to je obdoba toho co umí Microsoft Bing, využívající DALL-E a GPT4. Tady je ukázka, vytvoření obrázku na dětskou narozeninovou oslavu, dort a jednorožec. V levém spodním rohu každého obrázku vidíte červenou ochranou značku Adobe Firefly, to jste mohli vidět v mých videích, kde zkouším co Adobe Firefly umí a neumí.
Nevím, jestli to Adobe myslí jako trvalou ochranu zákazníka, že když bude dole na obrázku skvrna, tak bude jasné, že to je fake, tedy generativní obrázek, a ne reálná fotka? Nebo to je pokus o zpoplatnění, zaplať a my dodáme obrázek bez označkování? Přemýšlím, proč jinak by Google na své nejprestižnější akci roku ukazoval obrázky s ochranou značkou…
Ochranu a rozeznání reality od umělé inteligence si v roce 2023 představuju já osobně trošku jinak, řekněme… sofistikovaněji.

Nástroje umělé inteligence by měly být integrovány napříč všemi nástroji od Googlu, tedy bude možné používat je mezi jednotlivými aplikacemi, propojené. To už jsme viděli dříve a já tohle považuju za jednu z výhod, kterou Google může svým zákazníkům dát. Integrovat AI do všech svých nástrojů, které už stejně velké množství uživatelů používá. Ono to sice nezní jako bombastická novinka, ale v každodenním životě řešíme tisíce malých věcí, a spíš než být oslněni převratnými vynálezy se snažíme udělat běžnou práci co nejefektivněji a za vynaložení co nejmenšího úsilí.

Další velkou věcí, kterou možná už používáte, ani o tom nevíte, je Palm 2. To je jazykový model nové generace, přímá konkurence k GPT 4 od OpenAI. Je to model trénovaný na materiálech z více než stovky jazyků, je multimodální, to znamená že umí nejen text, ale taky obrázky, audio a video. Palm 2 rozumí různým formám jazyka, měl by zvládat poezii, vtipy, hádanky, slovní hříčky i ustálené slovní obraty. Palm 2 byl trénován i na programovacích jazycích, mezi jinými je zmíněn Javascript a Python.
Samotný Palm 2 má několik různě velkých modelů, které se jmenují Gekon, Vydra, Bizon a Jednorožec. Gekon má být natolik nenáročný model, že budete schopni ho provozovat na mobilním zařízení.
I když nezazněly žádné konkrétní parametry ani detaily k tréninkovým datům, dá se předpokládat že Palm 2 je, nebo bude, schopnější než GPT 4. Údajně Google Bard už v tuto chvíli Palm 2 využívá.
Google už v tuto chvíli trénuje i na model Gemini, to by měl být model ještě novější, a u kterého se dá předpokládat, že bude vypuštěn dříve než GPT 5 od OpenAI.
Tohle je ale rozsáhlé téma, které se dá rozebrat v samostatném, a nejspíš ne úplně krátkém videu.
V této souvislosti taky zmíním projekt Tailwind, česky nejlíp asi vítr v zádech. To je zatím pouze prototyp, jehož cílem je možnost si vytrénovat svůj vlastní malý jazykový model, na vlastních dokumentech, které máte uložené třeba na Google Drive, a z takových textů pak zpracovávat další materiály podle toho, co přesně vy potřebujete. Zase, nezní to jako nic převratného, ale reálné využití takového nástroje si asi každý z nás dokáže jednoduše představit.

Poslední novinkou, o které se zmíním, je Google Bard. Google oznámil, že Bard je nyní otevřen pro všechny, už není potřeba čekat na pozvánku. Bard je nyní dostupný v angličtině, japonštině a korejštině a ve 180 zemích světa.
Letmým pohledem na seznam zemí, kde je Bard dostupný, zjistíte, že Barda teď mohou používat třeba v Indii, na Pobřeží Slonoviny, ve Východním Timoru, na Svatém Kryštofu a Nevisu, to jsou ostrovy v Karibiku, nebo na Svaté Heleně, Ascensionu a Tristanu da Cunha. To je v jižním Atlantiku někde na půl cesty mezi Afrikou a Jižní Amerikou, a pokud nejste fanoušky obskurních letišť nebo ještě obskurnějších druhů kávy, patrně jste dosud netušili, že nějaké takové ostrovy vůbec existují. Můžeme jít ještě o něco dál v poznávání koloniálních teritorií, tohle se údajně čte “Norfuk.”
Ovšem, jak už správně vidíte, Česko ani Slovensko mezi těmito 180 zeměmi není. Není tam ani žádná jiná členská země EU, není tam žádná skandinávská země, není tam Švýcarsko, ani Kanada.
Jestli vás napadla ta samá otázka jako mě, tak na světě je světě je zhruba 235 zemí, záleží, koho se zeptáte. V Evropě je 45 zemí, v EU je 27 zemí.
Jediná evropská země na seznamu, kde je Bard nyní přístupný, je Velká Británie.
A mně to nedalo a tak vznikla tahle mapa.
Mapa zemí, kde je dostupný Google Bard
Provokovat vás výčtem dokonalostí Barda nebudu.

MusicLM na konferenci představeno nebylo, ale vypadá to, že se k němu může dostat asi každý. Mně přišla pozvánka pár minut po požádání o přístup k tomuto nástroji.
Tak to rovnou zkusím, co to umí.

(Tady poslouchám hudbu a komentuju to, nic hodnotného k přepsání…)

Asi už nebudu tohle zařízení u Googlů v kuchyni dál trápit. Jako první vzorek technologie to splnilo očekávání, hudba generovaná z textu odpovídá více či méně danému textu. Co je a co není hudba je dost subjektivní, stejně jako hodnocení… poslouchatelnosti? Kdy jsme ještě ochotni to považovat za hudbu, a kdy už je to otravné seskupení náhodilých zvuků.
Pokud náhodou ke Googlům do zkušební kuchyně nemůžete, tady jsou příklady, data, ze kterých byl tento nástroj trénován. Google shromáždil 5,5 tisíce párů hudby a popisků hudby, vytvořené lidmi. Jedná se čistě o popis toho, jak hudba zní, páry neobsahují žádná metadata, tedy třeba jméno autora nebo skladby tam není. A jako podpora budoucího rozvoje je tento soubor dat, nazvaný MusicCaps, volně k dispozici.

Výčet uměle inteligentních novinek za tento týden je daleko delší, já jako ideální stav vidím vydávat jedno nebo dvě videa denně, aby se mi podařilo pokrýt alespoň to, co mě zajímá. Ale ještě se mi nepodařilo najít nástroj, který by z mé myšlenky rovnou vytvořil zajímavé video v kvalitě k mé spokojenosti. Tímto se ctěným divákům omlouvám za svou lidskou nedokonalost. Doufám, že nebudete příliš trpět v té dlouhé pauze, než vytvořím další video tím nudným oldschool způsobem – rukama, tlučením do klávesnice a máváním myší po stole.

Tagged:AI AI hudba Artificial Intelligence česky cz generování hudba Midjourney umělá inteligence v češtině

Tady AI

AI

AI

Hudba z textového promptu a další novinky od Google

Adobe Firefly, první dojmy (1.)

Konec AI videa zdarma? HailuoAI trial verze

Je Adobe Firefly fotorealistické? (2.)

Vše o Midjourney (2.)

Hudba z textového promptu a další novinky od Google

You Might Also Like

Adobe Firefly, první dojmy (1.)

Konec AI videa zdarma? HailuoAI trial verze

Je Adobe Firefly fotorealistické? (2.)

Vše o Midjourney (2.)