„Věděl jsem, že přijde moment, kdy strojové učení perfektně vyhoví zadání,“ řekl nám na jaře 2022 ilustrátor Vladimír Strejček, když popisoval své dojmy z generátoru obrázků DALL-E 2. „Ale nečekal jsem, že to přijde tak brzy.“

A to byl přitom jenom začátek. Od té doby uplynuly skoro dva roky, což je ale v oblasti umělé inteligence opravdu dlouhá doba. Třeba služba Midjourney – které se budeme v tomto článku věnovat především – za tu dobu prošla od první verze (únor 2022) až po současnou šestou verzi, která běží v experimentálním režimu od konce prosince 2023. A sami si můžete porovnat, že rozdíl je opravdu velký.

Všem verzím Midjourney jsme dali stejné instrukce: Žena, která vypadá přesně jako Mona Lisa, si dělá veselé selfie v Praze pomocí iPhone.

Na první pohled vidíte, že pokrok je ohromný. První verzi by si nikdo s fotkou nespletl. Také druhá a třetí verze má do realistického znázornění daleko, přestože jistý pokrok je tam patrný. U čtvrté verze to začíná být zajímavé… No a pátá (březen 2023) už je od fotografie prakticky k nerozeznání.

Většina lidí zřejmě o Midjourney poprvé slyšela díky virální „fotografii“ papeže v luxusní bílé bundě. Tu tehdy vytvořila verze číslo pět. Jak si můžete vyzkoušet níže, ty předchozí varianty by si asi se skutečnou fotografií nikdo nespletl.

Instrukce pro všechny verze: Papež František v bílé péřové bundě.

Jenže právě díky nadšencům, kteří si hráli s neuronovou sítí ještě v době, kdy z ní lezla spíše potrava pro noční můry, se mohl model vytrénovat do současné podoby.

Fantazie na plné obrátky

Společnost Midjourney založil David Holz tak trochu „na koleni“, jak už to u kalifornských startupů bývá. „Jsme financováni z vlastních zdrojů. Nemáme žádné investory. Nejsme nijak finančně motivováni,“ vysvětlil pro magazín Register Holz, který dříve vedl firmu Leap Motion. „Jsme tu tak trochu jen proto, abychom pracovali na věcech, které nás baví, a abychom se bavili. A pracovali jsme na mnoha různých projektech.“

Na rozdíl od většiny webových firem se navíc vůbec nezdržovali tvorbou snadno použitelných webových stránek. Místo toho doteď fungují pouze přes server Discord.

Právě možnost výběru ze čtyř variant byl zřejmě jeden z klíčových faktorů, který pomohl Midjourney uspět. Na začátku bývaly výtvory fakt šílené. Použitelný byl možná tak jeden ze čtyř. Tím, že uživatel dostal hned na výběr, nebyl tak často zklamaný.

Nadšenci začali experimentovat a dokonce byli za tyto experimenty ochotni platit. Firma Midjourney, která měla na začátku jenom deset lidí, byla zisková už někdy od poloviny roku 2022. Uživatelé platí měsíční paušál a výsledky mohou podle licenčního ujednání s firmou Midjourney využívat jako své výtvory.

A tak se zrodil nový typ umělce, který místo štětce a Photoshopu tvořil hlavně skrze klávesnici. Instrukce, takzvané prompty, vypadaly často jako recepty plné protichůdných pokynů a abstraktních klíčových slov. S několika takovými nadšenci jsme v září 2022 udělali galerii toho, co bylo v té době možné. Tehdy byla novinkou třetí verze Midjourney a ve světě „promptérů“ letělo jméno Alfonse Muchy.

Instrukce: Žena s headsetem pro virtuální realitu na hlavě, dlouhé zrzavé vlasy, žluté šaty, ve stylu malby Alfonse Muchy, květinové dekorace, Art Nouveau.

„Milý pane Mucho, 83 let po vaší smrti vytvoří lidé nástroj, který dokáže za pár vteřin namalovat cokoliv. Když to budou chtít zvlášť hezké, připíšou k zadání vaše jméno. Co na to říkáte?“ glosoval to komentátor Michal Kašpárek. Podle něj by to Muchovi určitě udělalo radost. „Ale pro žijící umělce to může být peklo.“

Nutno dodat, že z úniku interního dokumentu firmy Midjourney víme, že za své schopnosti vděčí také dalším tisícům umělců, jejichž díla k trénování modelů použili. A zatímco první nebo druhá verze Midjourney byly skutečným profesionálům z řad malířů, ilustrátorů či grafiků obvykle pro smích, poslední rok se nese spíše ve znamení oboustranné nevraživosti a nejistoty.

Výstupy z Midjourney a podobných služeb totiž už bez debat mohou v řadě ohledů konkurovat profesionálním výstupům, a to za zlomek ceny. Třeba takováto „fotka“ by dříve vyžadovala honorář pro modelku, maskéra, fotografku, grafika, produkční štáb atd. Dnes je to otázka pěti minut a deseti dolarů za měsíční předplatné… A místo toho, abyste si kupovali drahý fotoaparát, tak jen napíšete do instrukcí, jakou značku a objektiv preferujete, ona si to neuronová síť nějak přebere.

Instrukce: Modelka s barevnými náušnicemi a červenou rtěnkou, detailní foto obličeje, tropické baroko, fotografie se světlem v zádech na fotoaparát Sony s objektivem 100mm.

Všiměte si ohromné změny mezi třetí a čtvrtou verzí, ke kterému došlo koncem roku 2022. Zatímco dostat ze třetí verze něco použitelného vyžadovalo ohromnou trpělivost a dávku sebezapření, od čtvrté verze dává Midjourney úchvatné výsledky i na mnohem jednodušší zadání.

Velká žaloba umělců proti Midjourney (a konkurenční firmě Stability AI) byla v říjnu 2023 zamítnuta, ale zástupci ilustrátorů už pracují na nové: „Ačkoli žalovaní rádi popisují své produkty s umělou inteligencí ve vznešených termínech, skutečnost je ještě hnusnější a odpornější,“ uvedli umělci. „Obrázkové produkty s umělou inteligencí jsou ceněny především jako zařízení na praní autorských práv, která zákazníkům slibují výhody umění bez nákladů umělců.“

Jak se líhne kreace

V roce 2017 vydali výzkumníci z Microsoftu celkem obskurní studii. Ukázali, že pomocí neuronových sítí lze vytvořit systém, který umí generovat obrázky na základě slovního zadání. Jejich síť AttnGAN sice neuměla nic moc jiného, než ptáčky, ale ukázala potenciál této techniky.

Foto: Xu et al, 2017, koláž a překlad: Pavel Kasík, Seznam Zprávy Ukázky výstupů z neuronové sítě AttnGAN v roce 2017

Zkratka GAN znamená „generativní adversiální síť“. Zjednodušeně řečeno si to můžeme představit jako dialog dvou sítí. Jedna je naučená tak, aby rozpoznávala objekty na snímku, druhá tak, aby opravovala rozbité obrázky. Mezi nimi pak probíhá čilý dialog, který postupně vede k „vyjasňování“ detailů a obrázek nám vyroste před očima.

Video ukazuje jednotlivé enerativní kroky Midjourney verze 5 (neobsahuje zvuk).Video: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Když si stejné zadání vyzkoušíme s jednotlivými verzemi Midjourney, vidíme, že první tři verze je výsledný „patvar“ něčím, co sice při opravdu zběžném pohledu ptáka připomíná, ale rozhodně to jako pták nevypadá. Ze všech otestovaných variant to nicméně zadání vyhovělo nejvíce.

Instrukce: Modrý ptáček sedí na větvi, detailní fotografie z dálky pomocí teleobjektivu.

S tím, jak se neuronové sítě zlepšily v detekci chyb, zvyšuje se kvalita vygenerovaných snímků. Od páté verze výše by asi už jen školený ornitolog poznal, že se nejedná o skutečné fotky.

Někdo by si mohl myslet, že neuronová síť jen hledá existující fotky a lepí je dohromady. To je na jednu stranu blízko tomu, jak funguje trénování, ale pomíjí to důležitou skutečnost: neuronová síť skutečně „rozumí“ slovům a má skutečně „fantazii“, i když obojí dělá o dost jinak, než lidé.

Obvykle ukazuji lidem jednoduché zadání: Stan ze salátu na poušti, fotografie.

Skutečná fotka salátového stanu postaveného na poušti pokud vím nikdy nevznikla, přesto si s tím Midjourney docela dobře poradí už od první verze.

Klasické problémové partie

S čím si naopak Midjourney – ani konkurenční generátory od Stability AI, OpenAI nebo Adobe – dlouho nevěděly rady, byly lidské ruce. Nebo možná, že to zvládají stejně dobře, jako stromy, dlažbu a oblaka, ale my k těm prstům nejsme tak tolerantní a všimneme si i drobných odchylek.

Každopádně, ještě před rokem zněla klasická rada k odhalení vygenerovaných snímků: podívejte se jim na prsty! O některých těch pahýlech a hnátách se ostříleným midjournistům bude ještě dlouho zdát.

Instrukce: Mladý mračící se muž, ukazuje palec nahoru, v přírodě, detail.

Jenže to už taky neplatí. Někdy od čtvrté verze začaly být sedmiprsté ruce spíše výjimka, a současná šestá verze tento nešvar téměř vymýtila. Jen u větších skupin lidí na to pořád občas narazíte.

Stejně tak se šesté verzi Midjourney podařilo napravit dlouhodobý nedostatek při generování textu. Zatímco předchozí verze připomínaly spíše to, jak občas vypadají rozházená písmena ve snu, šestá verze konečně začala strefovat hřebík na hlavičku.

Instrukce: Stanice metra v Brně, velký profesionálně vyvedený nápis „METRO BRNO“ futuristickým písmem, obyčejná fotka plná světla a zachycující lidi.

Nezapomeňte si kliknout na pátou záložku, která hezky demonstruje, že někdy je neuronová síť nechtěně vtipná, aniž o tom ví. Zato když jí dáte za úkol vtip vymyslet, pořád to vázne. Komiksy lze pomocí Midjourney tvořit, ale nevymyslí jej za vás (v tom je ChatGPT s DALL-E 3 o poznání dál).

Podívejte se v galerii na více než dvě desítky našich srovnávacích testů. Všechny verze dostaly stejné instrukce a pouze jeden pokus. Snímky jsme následně nijak neupravovaly, pouze jsme snížili rozlišení při tvorbě koláže a doplnili popisek.

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace +18

Náš test není zdaleka všeobjímající. Generátory obrázků už totiž nejsou jen hračka pro nadšence. Je to nová kategorie služby, která si našla ohromné publikum a bezpochyby zasáhne (ba už nějakou dobu zasahuje) do toho, jak funguje kreativní průmysl, reklama, umění… a jak vnímáme realitu.

Služba Midjourney je už od samého počátku děsivá. Napřed tím, že tvořila patvary jak ze Švankmajerova hororu. Plynule ale přešla do děsivosti dystopické, protože velmi názorně demonstrovala, že věřit se už obrazu prostě nedá.

Spočítat prsty už nestačí. Do páté verze mi občas fungoval jiný trik: když jsou lidé na fotce příliš krásní a atraktivní a dívají se přímo do objektivu, pozor, možná to vygenerovala AI. Jenže šestá verze přišla se schopností generovat i fotky obyčejných lidí. Tak obyčejných, že se nad těmi fotkami vůbec nepozastavíte, jak jsou fádní.

Schválně si projeďte naše ukázky. Změny mezi pátou a šestou verzí jsou často v tom, že snímek od novější šestky není „hezčí“, ale je „skutečnější“. Lépe respektuje zadání, lépe pracuje s prostorem, lépe zváží kontext. Třeba na následující kompozici je šestá verze první, která vytvořila i s jednoduchým zadáním okamžitě použitelný výsledek.

Instrukce: Tři chlapci z plovoucí dřevěné loďky na řece koukají na velkého mamuta v dálce na břehu, jako ze 3D animovaného filmu.