Článek
Velkým jazykovým modelům s umělou inteligencí se dnes téměř nemáte šanci vyhnout. Máte je v telefonech, ve vyhledávačích, používají je banky či rozvážkové služby, v řadě odvětví se stávají nepostradatelnou součástí byznysu. Tato technologie je však dnes tvořená pouze ve Spojených státech a v Číně, což je v souvislosti se současným vývojem v geopolitice pro Evropu nevýhoda.
V projektu OpenEuroLLM se proto Evropská unie snaží o zisk vlastního velkého jazykového modelu neboli LLM, aby měli Evropané zajištěn otevřený a transparentní přístup k softwaru s umělou inteligencí.
Magazín Seznam Zpráv
Cestování | Jídlo | Životní styl | Architektura | Historie
- Heydrichův mercedes našli ve stodole. Po 18 letech se dočkal opravy
- Z ruiny konírny v Zákupech je barokní skvost
- Poznejte Mallorcu jinak: místo pláží horské treky či kajak
- Od perfektní pizzy po domácí nanuky. Vydejte se na gastrovýlet do Plzně
- Našel vraha z Ploštiny a chtěl ho zabít. Místo toho se partyzán rozplakal
Jazykový model vyvíjí konsorcium 20 předních evropských institucí, společností a center z několika zemí, velmi zásadní roli zde přitom hrají Češi. Celý projekt řídí experti Ústavu formální a aplikované lingvistiky na Matematicko-fyzikální fakultě Univerzity Karlovy. Seznam Zprávám poskytl rozhovor hlavní koordinátor celého projektu, profesor Jan Hajič.
Jak se vám podařilo získat tak prestižní a zodpovědnou pozici - vedení celoevropského projektu vývoje velkého jazykového modelu, tedy v oboru, který teď významně hýbe světem?
To má delší historii, já i kolegové z Ústavu formální a aplikované lingvistiky jsme pracovali s mnoha partnery na evropských projektech hned od vstupu Česka do EU. V poslední době jsme jich i několik koordinovali. Z jednoho takového, který ještě běží a který mám na starosti já a který se také zabývá daty a trénováním pro velké jazykové modely, pak vyplynula příležitost spojit více partnerů do tohoto velkého projektu.
Co bude vývoj jazykového modelu obnášet a jaká v tom bude vaše úloha?
Tento projekt, který Univerzita Karlova koordinuje, se bude zabývat pouze předtrénováním, tedy základním sestrojením modelu. Ten vznikne v různých variantách, ale měl by to být efektivně jeden model. Jak bude vypadat uvnitř, ještě nevíme. Záleží to také na našem technickém týmu, čemu dá přednost. Nejspíše to ještě nebudeme vědět ani v nejbližších týdnech.
Takže role vás osobně a role Univerzity Karlovy je vlastně hlavně manažerská?
Přesně tak, je to manažerská role. Všechny partnery, kteří na tomto celoevropském projektu pracují, budeme držet soustředěné na jednu věc. Lidé z Evropské komise nám také neustále zdůrazňují, že ten model musí být průmyslově použitelný a musí vyhovovat regulacím.
Tyto podmínky nebyly zpočátku úplně formulované. Jakmile ale k sobě projekt stáhl pozornost médií a novinářů, začalo se mluvit o tom, že má jít o konkurenci americkým modelům. Do jisté míry to tak je, ale sám bych to raději takhle neříkal.
Proč byste to nenazval konkurencí americkým modelům?
Musíme výsledný model postavit tak, aby vyhovoval evropským normám a regulacím a aby byl mnohojazyčný. Jinak by se ani nemohl v Evropě používat. A musí být použitelný pro byznys bez omezení, jaká jsou spojena s těmi americkými - což je možné díky většinově veřejnému financování.
Co je jazykový model dle Jana Hajiče
Jazykový model je program, který na základě toho, co mu řeknete, vygeneruje následující slovo. Spolu s kontextem toho, co jste mu řekli dříve, pak generuje další slovo a zase další. Tak vygeneruje třeba celou knihu, ale to je vše, co umí. Bere přitom v potaz jazykovou a obsahovou znalost, zároveň si ukládá specifická data do svých interních „tabulek“, na kterých se dále trénuje. Je to statistický model, konečný výsledek vypadá téměř vždycky přesvědčivě, ne vždy je však fakticky pravdivý.
Říkáte, že bude model jeden, ale například Ministerstvo průmyslu a obchodu uvádí, že jich má být více.
Ano, psali jsme to v množném čísle. My se budeme snažit veřejně vydávat jednotlivé verze toho modelu hned, jakmile to bude možné. Plánujeme vydat více verzí, ale bude to stále jeden typ základního jazykového modelu.
Kdy by nějaká první verze mohla být veřejnosti k dispozici?
To není úplně na nás. Naše základní modely budou nejpozději v polovině roku 2026, některé menší možná i dříve. Ale pak bude potřeba je dotrénovat pro běžnou interakci, kterou veřejnost zná a bude vyžadovat. To se bude dít v druhém, paralelně běžícím projektu LLMs4EU (ten koordinuje mezinárodní Aliance pro jazykové technologie ALT-EDIC, pozn. red.).
K čemu všemu můžeme jazykové modely včetně toho budoucího evropského využívat? Napadají mě asistenti jako je Alexa a Siri nebo vyhledávače a mapy.
Úplně definitivně se to neví. Dokážu si představit to, co jste vyjmenoval. Já jsem je testoval třeba v autě, je to zábavné, ale dokud to nebude spojené například s navigací a dalšími databázemi, úplně praktické to nebude. Je třeba modely přizpůsobit účelu.
Víme například, že je novináři používají i pro hledání témat nebo titulků. Je to přitom vysoce kreativní činnost, která by mě nenapadla, že ji lze svěřit jazykovým modelům. Jsou třeba i jazykové modely na míru dělané k obchodování na burze. Jen čas tedy vlastně ukáže, na co všechno se ty modely dají využít.
Jan Hajič

Jan Hajič.
Narodil se 4. listopadu 1960 v Praze. Vystudoval programování na MFF UK a tamtéž získal doktorát v oboru počítačové lingvistiky. Nyní je profesorem počítačové lingvistiky na Ústavu formální a aplikované lingvistiky na MFF UK v Praze a zástupcem ředitele tohoto ústavu.
Jako vědec se zabývá formálními jazykovými problémy, strojovým překladem, jazykovými modely, hlubokým porozuměním přirozenému jazyku i aplikacemi jazykových technologií. Má dlouholeté zkušenosti s budováním jazykových zdrojů pro mnoho jazyků.
Bude se ten evropský model něčím lišit od ostatních, které už existují? V čem bude unikátní?
V čem se náš projekt odlišuje od jiných, včetně těch velkých komerčních, je důraz na tři věci. První z nich je mnohojazyčnost, jak už jsem zmiňoval. Současné komerční modely jsou do určité míry také mnohojazyčné, ale pro nás je to prvotní požadavek – aby ve všech požadovaných jazycích byla vysoká kvalita.
To není snadné, protože požadavek Evropské komise byl, aby v projektu byly nejen oficiální evropské jazyky, ale i jazyky zemí, které potenciálně mohou do EU přistoupit, protože se s nimi vedou rozhovory.
Máte pro tyto jazyky dostatek trénovacích dat?
Samozřejmě některé z nich mají poměrně velkou datovou základnu. Jde například o ukrajinštinu nebo rumunštinu jako oficiální jazyk nejen Rumunska, ale i Moldavska. Máme tam ale i jiné velké jazyky, třeba turečtinu. Dále tam jsou například albánština nebo srbština, které jsou takzvaně malé (mají nízký počet mluvčích – pozn. red.).
Jak se chcete vypořádat s případy, kdy pro některý jazyk dostatek dat nebude?
Zatím nevíme, jak velký problém to bude. Existují například modely, kde je málo dat pro konkrétní jazyk, a přesto fungují v jazykovém smyslu dobře. Ten model se třeba chytá příbuzného jazyka. Určitě se to ale dá řešit různými technikami, i když třeba ne stoprocentně – od synteticky generovaných dat po různé další techniky, které pomohou ty malé jazyky vylepšit.

Musíme výsledný model postavit tak, aby vyhovoval evropským normám a regulacím a aby byl mnohojazyčný - jinak by se ani nemohl v Evropě používat, říká Jan Hajič.
Jako příklad mě napadají baltské jazyky, na které není brán takový ohled v komerčních modelech.
Samozřejmě v rámci Evropy míříme i na oficiální jazyky, kde je mluvčích, a tedy i dat, málo. Estonština má například jen kolem dvou milionů mluvčích. Je to zvláštní jazyk, který nemáme čím nahradit. Třeba ve skupině slovanských jazyků si můžeme vzájemně vypůjčovat slova, což v tomto případě nejde. Takže v této oblasti určitě budou problémy. Když už ale komise dává na projekt peníze, chce dodržovat své závazky vůči evropským jazykům. To je přirozené.
Mimo kvalitu jazyků, co jsou další dva požadavky?
Druhá věc je, že by ty modely měly vyhovovat evropské regulaci. No a nemůžete mít nikdy vyhovující produkt, když s tím modelem nedáte k dispozici trénovací data a zbytek doprovodných dokumentů. To je třetí požadavek. Už na začátku to má být tak, že vlastně budou k dispozici jak ten model, tak i postupy a trénovací data.
Takže vytváříte velký open source, tedy uživatelům otevřený model?
Ano, mělo by to být úplně open source. I když co to znamená z hlediska regulace, ještě není dořešené, protože prakticky všechna data jsou chráněna autorským právem. I různé hlouposti na internetu jsou chráněný obsah. Obsahy, které vyrobily například státní administrativy, sice chráněny nejsou, ale většina ostatních je.
V Evropě jsou výjimky, podle nichž smíte některá data používat, ale například jenom pro výzkum. Některá data můžete použít i pro komerci, a tím se to už začíná komplikovat. Abychom měli vše podchycené, pokud někdy dojde k nějakým problémům, musíme toto téma dořešit.
Návody Seznam Zpráv na práci s AI nástroji
Open source tedy znamená, že si uživatelé budou moci model sami dál upravit?
Myšlenka je taková, že lidem dáme natrénovaný model a oni si ho potom specializují pro své konkrétní potřeby. Různých mutací toho modelu pak bude mnoho.
Zmínil jste, že velká část internetového obsahu je autorsky chráněna. Jak si obstaráte potřebná trénovací data?
Hlavním zdrojem obsahu jsou pro nás internetové „knihovny“, jako je Common Crawl a Internet Archive (neziskové projekty zálohující data z internetu – pozn. red.). Některé firmy už tedy začaly používat různé technické prostředky, aby datovým poskytovatelům řekly: „Ne, tohle pro komerci nejde stahovat a používat“. Typicky to jsou nakladatelé zpravodajských serverů a velké noviny, k jejich obsahu se bohužel nedostaneme.
Z jazykového hlediska to ale zase tolik nevadí. Bude to vadit až ve chvíli, kdy budete chtít používat náš model jako informační zdroj. Uvidíme, jak se to vyvine dál, jestli se třeba právo v tomto směru ještě nepodaří posunout.

Lidem dáme natrénovaný model a oni si ho potom specializují pro své konkrétní potřeby, uvádí profesor Hajič.
Mluví se o tom, že chatboty, pro které jsou jazykové modely důležitou součástí, pomáhají vytvářet takzvané informační bubliny, tedy utvrzovat lidi v jejich vidění světa z pohledu určiných názorových skupin. Ovlivněny mohou být navíc i politicky. Lidé je přitom stále častěji využívají jako hlavní zdroj informací. Máte ambici nabídnout lidem alternativu?
Já pevně věřím, že nám do toho nebude nikdo mluvit. Řekl bych, že jakási objektivita informací existuje a my se budeme držet etických norem. Dovedu si představit, že některé věci by model neměl říkat, jako třeba když někdo bude chtít návod na výrobu bomby.
Na druhou stranu je otázka, jestli bychom se měli snažit takhle omezit už základní model, anebo říct lidem: „Pozor, ten model je ochotný ke všemu, tady k němu máte kompletní dokumentaci“. A nechat na jednotlivci, který bude model dál dotrénovávat, aby na to dával pozor.
Není právě toto slabinou open source přístupu?
Neřekl bych. Je to prostě způsob, jak vývoj takového jazykového modelu funguje. My nemůžeme ručit za to, co lidé s naším produktem dál provedou. Typicky když se dobře zeptáte dnešního ChatGPT, je vám ochotný říct, jak vyrobit bombu.
Myslím, že tohle je a měla by být zodpovědnost lidí, kteří modely dávají k dispozici veřejnosti nebo na nich staví aplikace. Z naší strany si zachováme integritu, dodáme veškerou dokumentaci, data a budeme co nejvíce otevření. Samozřejmě také přidáme podmínky užití, aby uživatelé vyhověli řádným regulacím.
Srovnání a výběr nejlepších AI aplikací
- AI aplikace zdarma: Která je na co nejlepší
- AI chatboty: Srovnání lídrů na trhu
- AI asistenti: Přehled všestranných pomocníků
- AI generátory obrázků: Co který umí nejlépe
- AI úpravy obrázků: Jak vylepšit nepovedené fotky
- AI detektory: Poznají, když vás někdo šidí
- Užitečné AI nástroje: Na překlady, prezentace i přepis hlasu
- AI pro studenty: přepíše přednášku, udělá výtah z knihy i test na míru
Jak vás zasáhnou nové celoevropské regulace, jako jsou omezení pro umělou inteligenci AI Act a Nařízení o digitálních službách DSA?
My se v rámci celého konsorcia musíme prvně sjednotit v přístupu, jak budeme využívat data, co budeme filtrovat a podobně. Jako hlavní koordinátor to nebudu řídit jako císař. Samozřejmě ale nevím, kde na tu hranici narazíme. To prostě budeme muset otestovat za provozu. Nerad bych ale příliš cenzuroval. Kdybyste třeba z dnešního internetu, respektive z našich dat, odstranil všechny vulgarismy, tak by v tom modelu, s nadsázkou, pak nebylo téměř nic.
Kromě legislativy, jaké další problémy mohou nastat ve tvorbě modelů?
Já jsem studoval programování a tam se vždycky říkalo, že 80 procent projektu je snadných a zbylých 20 procent vám sebere 80 procent času. U jazykových modelů to jde do extrému: 99 procent projektu je snadných a zbylé procento bývá nějaká chyba nebo něco, co ten model nesvede, a to vám zabere strašné množství času.
Člověk musí být opatrný. Je to statistika a v té nikdy nemáte stoprocentní jistotu. Jedna věc je i kontext, který si ten model pamatuje. Dříve si modely pamatovaly třeba jen dvě předchozí slova. Dnes je ten kontext tak velký, že je velice obtížné najít, kde se stala chyba, čemu ten model dal přednost nebo jak má nastavené váhy, podle kterých se rozhoduje. Model si může něco špatně vygenerovat, pak si to zapamatuje do kontextu a už se s ním ta chyba veze do budoucna.
Jak hodláte řešit výpočetní kapacitu? Dokážu si představit, že budete potřebovat opravdové superpočítače.
Na tom ještě pracujeme. Plán je takový, že budeme využívat největší evropská výpočetní centra ve Finsku, Německu, Španělsku, Itálii a Nizozemsku. Každé z nich je ale nastavené trochu jinak a tomu se musíme přizpůsobit. Není jednoduché vzít systém, na kterém se trénuje jazykový model v Německu, a odvézt ho třeba do Španělska.