Hlavní obsah

Šílená videa a nákupy vaším jménem. Některé novinky Google pustí i do Česka

Pavel Kasík
vědecký redaktor SZ
Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Ukázka výstupu nového generátoru obrázků Google Imagen 4

Nový generátor překvapivě realistických videí si získal zaslouženou pozornost. Google toho ale ukázal mnohem více, a potvrdil, že umělou inteligenci zapojí nejen v asistentovi Gemini, ale i na nejnavštěvovanější stránce světa.

Článek

Umíte rozpoznat skutečné video od toho vygenerovaného? Generátory obrázků umí lidi přesvědčivě oklamat už více než rok. Z generovaných videoklipů ale pořád trčela jejich umělost.

„Veo 3 je náš nový generátor videa, který jako první na světě umí zároveň tvořit video i zvuk,“ uvedl Josh Woodward, viceprezident divize Google Lab. Veo 3 podporuje také tvorbu zvukových efektů nebo dialog mezi postavami.

Za dva dny od uvedení novinky se objevily opravdu vtipné, šílené a fascinující příklady videí vytvořených AI generátorem. Nástroj Veo 3 je prozatím dostupný jen pro americké uživatele, navíc za poměrně vysoké předplatné. Měsíčně stojí nejvyšší varianta AI Ultra 250 dolarů (asi pět a půl tisíce korun). Na tvoření legrácek poměrně drahé. Google ale do této prémiové verze zabalí více pokročilých AI funkcí. Ještě důležitější jsou ale ty, které jsou dostupné všem.

Ze všech novinek, které Google představil, si právě video ukouslo největší část pozornosti. Je to pochopitelné, nejsnáze se na tom ukazuje pokrok oproti dosud dostupným nástrojům. Vylepšení se dočkal i generátor obrázků.

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

S obrázky si můžete hrát v rámci nástroje Whisk, který slouží k snadnému a vizuálně pochopitelnému kombinování nápadů. Výsledný generátor ale pracuje s textovými prompty, nikoli tedy například s podobou lidí, jejichž fotky nahrajete.

Čtvrtá verze Imagen 4 by měla být nyní zdarma dostupná všem v chatovací aplikaci Gemini (to je odpověď Google na populární nástroj ChatGPT). Skok v kvalitě vygenerovaných obrázků ale zdaleka není tak zjevný, jako u videoklipů. Můžete však dávat instrukce ohledně obrázků a tvořit jejich varianty a variace. Z dosavadního testování se zdá, že se nová varianta umí lépe řídit instrukcemi, ale nad konkurencí v tomto směru výrazně nevyčnívá.

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Ženu s papouškem na rameni zvládly bez problémů i předchozí generátory. Ale papoušek s ženou na rameni, to už bylo těžší…

Protože v brzké době bude prakticky nemožné rozpoznat, co je pravé a co vygenerované, ukázal Google nástroj SynthID, který bude schopen pomocí neviditelného otisku rozpoznat, zda byl nějaký obrázek nebo video vygenerované pomocí generativní umělé inteligence.

Generátory obrázků jsou vizuálně (a tedy i novinářsky) vděčné. Pro většinu lidí ale až tak užitečné nebo významné nebudou. Firma Google nicméně provozuje nejnavštěvovanější stránku světa – stejnojmenný vyhledávač Google.com. A právě na této stránce už nyní servíruje texty vygenerované umělou inteligencí miliardám lidí.

Nemusíš klikat, najdu to za tebe

Už v roce 2023 Google ukázal svou vizi vyhledávače, který umí stránky přečíst za vás a nabídnout užitečný souhrn vygenerovaný umělou inteligencí. Šlo o tzv. souhrny (AI Overviews), které se loni nechvalně proslavily svými vtipnými halucinacemi, třeba když uživatelům doporučovaly jíst alespoň jeden kámen denně.

Od té doby ale Google na výsledcích zapracoval – a zvýšila se i chytrost jazykových modelů, které ke generování AI přehledů využívá. Původně se tyto odpovědi zobrazovaly jen v USA a pouze na některé typy dotazů. Postupně ale Google přidával další regiony. „Od té doby, co jsme AI přehledy loni spustili, jsme tuto funkci rozšířili na více než 200 zemí a oblastí,“ vypočítával na konferenci Google I/O v kalifornském sídle firmy Sundar Pichai šéf společnosti Google. „Každý měsíc tyto přehledy vidí přes 1,5 miliardy lidí.“

Foto: Google

Graf ukazuje, že lidé, kteří dostávají AI generované odpovědi, se na vyhledávač častěji vracejí, což Pichai interpretuje tak, že jsou s odpověďmi spokojení.

Nově jsou tyto souhrny dostupné i v Česku. Na některý typ dotazů (v našem testování třeba na otázky začínající "co je") se tak návštěvníkům ukáže nad výsledky hledání souhrn, text vygenerovaný AI, čerpající z výsledků níže.

Foto: Pavel Kasík, Seznam Zprávy

Ukázka nového „Přehledu od AI“ v české verzi vyhledávače Google.

Souhrn obsahuje odkazy na zdroje. Pod textem je také stručná poznámka o tom, že „odpovědi od AI můžou obsahovat chyby“. Pokud dotaz obsahuje něco, co se týká zdraví, tak je upozornění obsáhlejší.

Foto: Pavel Kasík, Seznam Zprávy

„Pouze pro informační účely. Pokud potřebujete zdravotní radu nebo diagnózu, obraťte se na odborníka. Odpovědi od AI můžou obsahovat chyby.“

Podle vyjádření českého zastoupení Googlu tyto AI souhrny pomohou s komplikovanějšími otázkami: „Je možné se ptát i na složitější a komplexnější otázky. Ponořit se do tématu hlouběji a prozkoumat odkazy na webové stránky. Není už nutné rozdělovat otázku na několik dílčích vyhledávacích dotazů.“

V USA mezitím Google jde ještě dál a představil „AI mód“. Na první pohled vypadá skoro stejně, jako AI přehledy, které jsou podle Pichaie „nejúspěšnější inovací v oblasti vyhledávání za posledních deset let.“

Foto: Pavel Kasík, Seznam Zprávy

Funcke „AI Mode“ je nyní dostupná pouze v USA.

Ale zatímco AI přehled ostatní výsledky vyhledávání pouze posunul, v AI módu už žádné „klasické“ odkazy na nalezené stránky nenajdeme. Místo toho umělá inteligence vše přečte za nás a výsledky naservíruje v přehledné formě. Pod tím je pak místo odkazů možnost ptát se na další otázky.

Foto: Pavel Kasík, Seznam Zprávy

Doplňující otázka vygeneruje nový přehled a pokračujeme tak v konverzaci.

Pro uživatele to může být atraktivní a rychlý způsob prohledávání. Něco mezi vyhledávačem a chatbotem. A Google zde stále ukazuje – po kliknutí na ikonku odkazu – zdroje tvrzení, ze kterých AI při tvorbě textů vychází. Jak už jsme ale psali, když jsme novinku před dvěma roky testovali poprvé: toto může mít dramatický dopad na tvůrce obsahu, kteří jsou závislí na zobrazování reklam.

„Umělá inteligence zásadně promění obchodní fungování webu,“ upozorňuje například Matthew Prince, šéf firmy Cloudflare. Vyhledávače webům posílaly návštěvnost, což tvůrce motivovalo k tvorbě dalšího obsahu. „Jenže dnes 75 % lidí najde odpověď na tu otázku, aniž by muselo vyhledávač opustit. Více a více odpovědí nepovede čtenáře na zdroj. A pokud tvůrci obsahu nebudou mít z jeho tvorby žádný zisk, tak přestanou tvořit původní obsah.“

To není problém pouze Googlu, ale jde o důsledek nástupu generativní umělé inteligence, která dává čtenářům na míru převyprávěné informace, aniž by je poslala za zdrojem těchto informací.

Chytřejší, rychlejší a levnější AI

Když firma OpenAI v listopadu 2022 představila ChatGPT, jeho úspěch překvapil vedení firmy Google. Interně totiž vývojáři měli také nástroje fungující na principu velkých jazykových modelů – ty ostatně existují do značné míry právě díky vědeckým pokrokům z dílny Google. Přesto ale firmě Google trvalo, než náskok výrazně menší firmy OpenAI smazala. Nyní lze ale říci, že je Google co do schopností generativní AI na špičce.

Nejen v oblasti textových generátorů nyní velké jazykové modely Gemini bodují: „Dnes (v úterý 20. května, pozn. red.) je náš model Gemini 2.5 Pro nejlépe hodnoceným modelem na LMArena napříč všemi kategoriemi,“ pochlubil se na pódiu Sundar Pichai. „A v řadě měření je náš model na světové špičce.“

Foto: Google

Gemini 2.5 Pro je první ve všech kategoriích, i když je potřeba dodat, že v několika kategoriích sdílí prvenství s modely o3 nebo gpt-4o od OpenAI.

Vývojářům divize Google DeepMind se ale podařilo vytvořit nejen (v řadě ohledů) nejlepší pokročilý model. Také jejich „pracant“, rychlejší a levnější varianta Gemini Flash se dočkala nové verze. „Znamená to, že nyní modely od Google dosáhly Paretova optima,“ komentoval to Ivan Kutil, spoluzakladatel české firmy AppSatori.

Foto: X.com/DemisHassabis

Horizontální osa ukazuje cenu za výstup (vpravo nejnižší), vertikální osa ukazuje kvalitu výstupu dle LMarena (nejlepší výsledky nahoře).

To znamená přibližně to, že prakticky pro libovolný poměr cena/výkon lze najít nějaký model od Google, který bude na dané úrovni nejlevnější, nebo naopak při dané ceně nejinteligentnější. Samozřejmě to není tak jednoduché, protože porovnávat inteligenci modelů je komplikované a univerzální měřítko neexistuje. Google má ale našlápnuto k tomu, aby vývojáře hledající, které API budou volat, přetáhl směrem k Gemini. Konkurence je nicméně ostrá: OpenAI i Anthropic představily nedávno nové modely, přičemž jsou v řadě úkolů na, nebo i nad úrovní lidských schopností.

Oproti populárnímu ChatGPT je návštěvnost chatbota Gemini přibližně desetinová. To motivuje Google k tomu, aby tuto konverzační aplikaci nadále vylepšoval. Z toho těží i uživatelé, Gemini nabízí hodně funkcí i v bezplatné variantě. Připomeňme ale, že – stejně jako ostatní chatboti – si také občas vymýšlí.

Foto: Pavel Kasík, Seznam Zprávy

Webová verze Gemini nově obsahuje modely 2.5 Pro a 2.5 Flash.

Teprve nedávno třeba Gemini dohnal náskok konkurenčního Claude a přidal možnost snadného programování s okamžitým náhledem výsledku. Nově můžete do těchto hříček doplnit AI funkce – Gemini se postará o jejich implementaci prostřednictvím API, aniž musíte cokoli řešit, nebo mít s programováním zkušenosti. Pro tento styl práce se ujal pojem vibe coding.

Foto: Pavel Kasík, Seznam Zprávy

Rychlý náhled prostřednictvím funkce Plátno (Canvas) umožňuje snadné zobrazení výsledku a zpřístupní tak možnost tvorby interaktivních prográmků i začátečníkům.

Užitečné to je zatím spíše na malé projekty pro vlastní potřebu. Pro zkušené vývojáře Google ukázal programovacího asistenta Jules, který bere v potaz váš kód a může s vámi spolupracovat na vývoji rozsáhlejších projektů.

Foto: Google

Asistentka Jules pomáhá s předěláním kódu, aby byl kompatibilní s novou verzí Node.js.

Pro programátory je určena celá řada dalších novinek – ostatně Google I/O je tradičně konferencí pro vývojáře. Jsou roztroušené různě v nástrojích Google Cloud, Google Vertex AI nebo Google AI studio. Na pozadí ale používají stejné generativní modely: Gemini, Imagen nebo Veo.

Udělej, vysvětli, nakup

Cílem Google je postupně sjednotit nabídku do univerzálního asistenta – agenta, který bude umět nejen odpovídat na otázky, ale také za vás plnit úkoly, které mu zadáte. Tam míří například Poject Mariner, kterému zadáte úkol a on jej za vás začne plnit. Umí přitom – podobně jako Operator od konkurenční OpenAI – používat prohlížeč „vaším jménem“ a může za vás třeba něco najít a nakoupit.

Foto: Google Labs

Ukázka agenta „Mariner“ v akci: vpravo je chat, vlevo obrazovka, na které můžete sledovat, co vaším jménem dělá. Zde si napřed nastudoval recept a poté přidává do košíku věci, které na něj potřebujete.

Zatím je tento typ pomocníka ve stádiu neveřejného testování. Uživatelské zkušenosti s konkurenčními „univerználními agenty“ jsou zatím smíšené. Je těžké předem odhadnout, kdy vám skutečně pomůžou, a kdy naopak nadělají víc škody, než užitku. Svěřit jim nákupy – nebo dokonce hledání bydlení, jak ukázal šéf Google na pódiu – zatím nezní reálně.

Až se to ale jednou Googlu povede, bude to funkce obzvláště užitečná na mobilních telefonech. Gemini na mobilech s Androidem už nyní nahradil původní Google Assistant. Nově si umí povídat opravdu přirozeně znějícím hlasem, sledovat to, co vidíte před sebou pomocí kamery.

Foto: Google

Můžete telefon namířit na své ručně psané poznámky a Gemini je pochopí a přepíše.

Vše tedy postupnými kroky směřuje k tomu, co už si Google jednou v podobě projektu brýlí Glass (neúspěšně) vyzkoušel: k zařízení, které budete mít u sebe, uvidí to, co vy, a bude díky AI umět reagovat na vaše okolí. Řeknete, že se vám něco líbí, a váš AI agent vám to najde a koupí, aniž byste museli kliknout. V takovém světě budou mít reklamy ještě větší cenu, než dnes. Nebudete muset platit prémiové předplatné, abyste pro firmy byli zajímavými zákazníky.

Foto: Google

Platforma pro rozšířenou realitu se nebude omezovat jen na jeden typ brýlí, ale bude podporovat různé produkty různých značek, od virtuální reality až po průhledové brýle s kamerkou, ukázal Shahram Izadi, šéf Google XR.

Zatímco současné reklamy jsme se naučili do značné míry ignorovat, reklamy budoucnosti si s námi budou povídat. A budeme je mít – možná doslova – neustále na očích.

Doporučované