Hlavní obsah

ChatGPT se chce učit i z vaší práce. Takhle snadno mu to zakážete

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Velké jazykové modely budou potřebovat aktuální texty a stahovat je budou z webových stránek. Ilustrační AI vizualizace

Reklama

Umělá inteligence se učí chápat psaný text a hledá zdroje informací třeba i na vašem webu. Pokud je vám takové trénování proti srsti, můžete robotovi zakázat vstup. Ale ne každý robot se nechá odradit tak snadno.

Článek

Velké jazykové modely v posledních měsících vévodí oboru generativní umělé inteligence. Nejznámější z nich – GPT-4 od OpenAI – se používá v ChatGPT i v celé řadě dalších nástrojů. Jazykové modely jsou obecné nástroje sloužící k důvěryhodnému doplňování zadaného textu, což lze v praxi využít.

K natrénování GPT-4 bylo zapotřebí velkého množství textu. OpenAI neuvádí (na rozdíl od konkurence), jaký text byl k vycvičení jazykového modelu použit, pouze že šlo o „velký dataset textů stažených z internetu“. Předpokládá se, že velkou část textů tvořily weby jako Wikipedia nebo Reddit. K natrénování byly použity stránky vytvořené před zářím roku 2021. Na to také ChatGPT upozorní, pokud se jej zeptáte na něco aktuálního:

Foto: Pavel Kasík, Seznam Zprávy

Samotný ChatGPT pracuje s daty do září 2021, novější informace tedy nemá odkud čerpat, pokud mu je jinak nedodáte.

Zatímco pro některé účely stačí i starší data, velká část úkolů, které chatbot zvládá, by se s novými řešila mnohem lépe. Aby OpenAI zajistila příliv nových dat, bude jejich nový robot procházet webové stránky na celém světě.

Robot se neptá, ale zákaz prý respektuje

Firma OpenAI popisuje nového „crawlera“, tedy robota, který prochází webové stránky.

Podobné roboty, přesněji automatizované programy, využívají i všechny velké vyhledávače. Crawler jim říká proto, že se „plazí“ z jedné stránky na druhou. Pokud na nějakou stránku vede odkaz, dříve nebo později se tam doplazí i nějaký ten robot, který se bude chtít podívat, co na stránce je.

Vyhledávače typu Google nebo Seznam pomocí crawlerů prohledávají webové stránky a jejich obsah si ukládají do databáze (tzv. indexování). Když pak uživatel hledá nějaké slovo nebo slovní spojení, vyhledávač umí najít ve své databázi stránky, kde se vyskytuje, a zobrazit uživateli výsledky.

Jak zakázat vstup crawlerům

Většina robotů, kteří procházejí web (tzv. crawleři), respektuje nastavení v souboru robots.txt. Jedná se o jednoduchý systém funkční už od 90. let, standardizovaný je ale teprve rok.

Do hlavního adresáře webu umístí správce jednoduchý textový soubor (například www.priklad.cz/robots.txt) s informacemi o tom, kteří roboti mají oprávnění procházet web a kteří jsou naopak vykázáni.

Kromě toho můžete robotovi GPTBot (nebo kterémukoli jinému crawleru) zakázat procházení konkrétních složek nebo souborů na webu (viz informace od OpenAI).

OpenAI výslovně uvádí, že při shromažďování dat z webu některé typy obsahů automaticky vyloučí. Nebude například své jazykové modely trénovat na článcích umístěných na webech, které za obsah účtují poplatek (tzv. paywall), a pokusí se také odfiltrovat veškeré identifikovatelné soukromé údaje. Dále před trénováním odstraní texty, které odporují podmínkám služby.

Postupem času se chyby v generovaných datech prohlubují. Když se AI učí z textů vygenerovaných AI, vede to k ještě většímu zkreslení reality.
Ilia Shumailov, výzkumník AI, University of Cambridge

OpenAI neuvádí, o jaké texty přesně jde, ale z jejich podmínek pro použití generátoru lze odvodit, že se snaží vyloučit nenávistný obsah, podvody, návody na výrobu zbraní apod. Jak se totiž ukazuje, jakmile se jazykový model jednou k takovým datům dostane, je velmi těžké jej naučit, aby se k jejich reprodukci nenechal přemluvit.

Jasné odlišení stále chybí

OpenAI si zaslouží pochvalu za to, že konečně vneslo alespoň trochu transparentnosti do toho, na jakých textech se bude trénovat. Komunita umělců a kreativců už dlouho volá po možnosti zakázat generátorům obrázků, aby se učily z jejich děl a napodobovaly pak jejich styl.

Zároveň je i v zájmu OpenAI, aby se jejich model neučil na všem, co na internetu najde. Problém nastává třeba ve chvíli, kdy se jazykové modely začnou učit na textech, které jsou výsledkem jiných jazykových modelů.

„Postupem času se chyby v generovaných datech prohlubují a nakonec nutí modely, které se učí z generovaných dat, ještě více zkreslovat realitu,“ napsal Ilia Shumailov, výzkumník umělé inteligence z University of Cambridge, který na toto téma vydal zatím nerecenzovanou studii. „Překvapilo nás, jak rychle dochází ke zhroucení modelu. Umělá inteligence rychle zapomněla původní data, ze kterých se učila.“

Proto je i v zájmu firem, které generátory textů vyrábějí, aby se vygenerovaný text nešířil nekontrolovatelně internetem. Tomu ale bude těžké zabránit, a ani detekce vygenerovaných textů zdaleka není stoprocentní.

Jak zakázat indexování ostatních firem, které trénují své AI modely na textech z internetu? U společnosti Google víme, že svůj model PaLM 2 trénovala na datech v korpusu C4. V červenci pak Google potvrdil, že považuje jakékoli na internetu veřejně dostupné informace za data, na kterých může své AI modely cvičit.

Foto: Pavel Kasík, Seznam Zprávy

Informace o trénování AI modelů je vidět až po rozkliknutí.

„Můžeme například shromažďovat informace, které jsou veřejně dostupné online nebo z jiných veřejných zdrojů,“ píše Google v poznámce u svých podmínek používání služeb. „A to abychom mohli trénovat modely umělé inteligence společnosti Google a vytvářet produkty a funkce, jako jsou Překladač Google, Bard a funkce Cloud AI.“

Neexistuje zatím způsob, jak jasně označit, že se na vašem textu nesmí trénovat žádné AI modely. Není ani jasné, zda na takovou výjimku vůbec existuje právo. Z pohledu firmy Google můžete zablokovat vstup jejich crawlera (opět pomocí robots.txt, jak je popsáno v boxu výše), tím ale zároveň zmizíte z výsledků vyhledávání.

Do budoucna lze očekávat nějaké „dobrovolné značky“, které budou označovat text vygenerovaný pomocí AI modelů. A také možná způsob, jak své výtvory označit jako „pro trénování AI modelů nevhodné“. Současné jazykové modely ale vznikaly v době, kdy to prakticky nikdo neřešil. Možná právě díky tomu mohly vůbec vzniknout.

Umělá inteligence na vzestupu

Strojové učení není žádnou novinkou. Teprve v posledních letech se ale ke slovu dostaly tzv. velké jazykové modely. Nejznámější ukázkou je populární ChatGPT, jehož fungování podrobně popisujeme v tomto článku:

Důležitým faktorem aktuální popularity systému umělé inteligence je velké množství textů dostupných na internetu. A také rychlý hardware, který umožnil vytrénování řádově výkonnějších modelů. Takových, ve kterých se objevuje „emergentní chování“, jež se v některých ohledech vyrovná lidské inteligenci:

To samozřejmě vyvolává debatu o tom, zda nová vlna automatizace nahradí lidskou práci. V tomto článku shrnujeme současné poznatky a predikce ohledně toho, jak AI změní pracovní trh a kterých profesí se dotkne nejvíce:

Reklama

Související témata:

Doporučované