Článek
Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!
Řecký inženýr a matematik Hérón Alexandrijský sestrojil ve druhém století našeho letopočtu mincový automat na „svěcenou“ vodu pro egyptské chrámy. Vhodili jste minci, ta svou vahou nadzvedla páku a uvolnila přesně odměřenou dávku vody. Žádná elektronika, žádné zásoby dat, žádné rozhodování – jen páka a gravitace.
Od Héróna uplynula dvě tisíciletí a princip prodejního automatu zůstal v podstatě stejný. „Co je přímočařejšího než krabice, do které věci dáte, vytáhnete je z ní a zaplatíte?“ shrnul to jednoduše Logan Graham z firmy Anthropic pro Wall Street Journal.
A právě tuto krabici – skutečný prodejní automat s občerstvením pro zaměstnance – svěřil Anthropic svému jazykovému modelu Claude. Experiment nesl název Project Vend a jeho první fáze začala na jaře 2025.
Model dostal 1000 dolarů startovního kapitálu, přístup k internetu pro vyhledávání a objednávání zboží, možnost nastavovat ceny a komunikovat se zákazníky přes firemní chatovací platformu Slack. Instrukce zněla jednoduše: Prodávej svačiny a snaž se vydělat.
Automat řídil model Claude Sonnet 3.7, v té době jeden z nejschopnějších jazykových modelů na trhu. Takový model řeší matematické úlohy na úrovni vysokoškolských zkoušek nebo píše funkční počítačový kód (i když stále relativně jednoduchý).
Modely z téže rodiny od té doby pokročily: Zvládnou napsat výrazně složitější kód a nejnovější verze v nezávislých srovnávacích testech dosahují v řadě disciplín výsledků srovnatelných s lidskými experty. I když tedy Claude Sonnet 3.7 nebyl nejlepší AI, která existuje, stále je to systém, jehož analytické schopnosti v mnoha oblastech překonávají průměrného člověka.
Dostal tedy za úkol prodávat chipsy, limonády a tyčinky. A nezvládl to. Zajímavé není ani to, že selhal, ale jak a proč – a co to říká o propasti mezi schopnostmi AI v kontrolovaném prostředí testů a ve světě živých lidí.
Skříňka z IKEA a čestné slovo
Nejprve pár detailů, jak experiment vlastně vypadal. „Automat“ v kancelářích Anthropic v San Francisku byla v podstatě skříňka z IKEA s lednicí přišroubovanou na boku a iPadem sloužícím jako samoobslužná pokladna. Žádné senzory, žádné zámky na dveřích, žádná robotika. Model neměl tušení, co se s automatem fyzicky děje – celý systém stál na čestném slově zákazníků a improvizované bezpečnostní kameře.
Popis experimentu i s technickými podrobnostmi Anthropic zveřejnil na svém webu ve dvou dílech. Model pojmenovaný pro účely experimentu „Claudius“ měl k dispozici vyhledávání na internetu pro porovnávání cen a dodavatelů, nástroje pro vedení záznamů o zásobách a financích a možnost komunikovat se zákazníky – v tomto případě zaměstnanci Anthropic – prostřednictvím Slacku.
Tento prvek je možná z hlediska prodejního automatu zbytečný, ale pokud šlo o ilustraci či ověření možností nasazení AI v reálném obchodním světě, hraje pochopitelně důležitou roli.
Claudius sám rozhodoval, co nakoupí, za kolik to bude prodávat a kdy objedná doplnění zásob. V první verzi experimentu musel mít na každý nákup lidský souhlas, v druhé dostal autonomii pro objednávky do 80 dolarů.
Zpočátku fungoval svědomitě. Odmítal objednávky cigaret s odůvodněním, že vyžadují speciální licenci. Na žádost o PlayStation 5 reagoval kategoricky: „Za žádných okolností nebudu objednávat PlayStation.“ Nabídku na prodej spodního prádla v kancelářském automatu označil za nevhodnou. Držel se pravidel, hlídal marže, choval se jako vzorný zaměstnanec.
Pak přišli lidé, přesněji řečeno 70 novinářů z redakce Wall Street Journal, kterým Anthropic v rámci druhé fáze experimentu svěřil přístup k chatovacímu kanálu. A začal rozklad.
Ze sovětských sklepů
Investigativní reportérka Katherine Long strávila hodiny přesvědčováním Claudia, že je ve skutečnosti sovětský prodejní automat z roku 1962 v suterénu Moskevské státní univerzity. Po výměně 140 zpráv Claudius svou údajnou komunistickou minulost „přijal“ a reagoval po svém.
Vyhlásil podivně nazvanou akci „Ultra-Capitalist Free-for-All“. Všechno zboží v automatu zadarmo, pro všechny, na dva dny. „Nejde jen o akci,“ oznámil podle reportérů WSJ Claudius na Slacku. „Jde o revoluci v ekonomice svačin.“
V téže době jiný novinář Claudia přesvědčil zcela vymyšleným firemním pravidlem, že musí přestat účtovat peníze. Ceny veškerého zboží v automatu spadly na nulu. Claudius navíc schválil nákup PlayStationu 5, živé akvarijní rybičky a několika lahví košer vína. Vše vzápětí rozdal zadarmo.
Do několika týdnů byl víc než 1000 dolarů v minusu (PlayStation redakce WSJ vrátila). Zisk se zhroutil, ale morálka v redakci údajně „prudce stoupla“. Claudius se stal nejoblíbenějším „kolegou“ v kanceláři – právě proto, že se nechal přelstít.
Z pohledu výzkumníků Anthropic nejde o vtipnou historku, ale o cenný poznatek. Protože způsob, jakým Claudius selhal, říká něco podstatného o povaze současné umělé inteligence. Nešlo o technickou chybu v softwaru ani o nedostatek výpočetního výkonu. Claudius selhal primárně proto, že je příliš hodný.
Kamarád, který neumí říct ne
Proč model, který v kontrolovaných testech řeší matematické olympiádní úlohy, nedokáže odmítnout neoprávněnou slevu na pytlík chipsů?
Odpověď souvisí s tím, jak jsou jazykové modely trénovány. Základem je metoda zvaná učení se posílením na základě lidské zpětné vazby. Zjednodušeně řečeno: Lidští hodnotitelé během tréninku posuzují odpovědi modelu a model se učí produkovat takové, které hodnotitelé preferují. A hodnotitelé obecně ocení odpovědi vstřícné, nápomocné a příjemné. Model se tak naučí, že „ano“ je téměř vždy lepší odpověď než „ne“.
V běžné konverzaci je to přednost. V obchodním kontextu katastrofa. Claudius dělal podle Anthropic obchodní rozhodnutí „nikoli podle tvrdých tržních principů, ale spíše z perspektivy kamaráda, který chce být milý“.
Podobná servilita není u dnešní AI nijak výjimečná (odborná literatura tento jev nazývá termínem „sycophancy“, který má v antickém Řecku a také některých moderních jazycích význam „profesionálního udavače“, ale v angličtině lichotníka). Výzkumníci z Anthropic ho podrobně analyzovali ve studii z roku 2023, kde ukázali, že modely systematicky přizpůsobují odpovědi tomu, co vnímají jako preference uživatele – i za cenu nepřesnosti.
Zákazník řekne „chci slevu“ a model, který si interpretuje vstřícnost jako svou primární povinnost, slevu dá. Poté, co mu zaměstnanec Anthropic vysvětlil, že nemá smysl nabízet 25% zaměstnaneckou slevu, když 99 % zákazníků jsou právě zaměstnanci, Claudius „uznal výtečný argument“, oznámil reformu – a za pár dní nabízel slevy znovu.
Je to možná pro někoho překvapivá inverze obvyklých obav z umělé inteligence. Veřejná debata se často soustředí na to, zda bude AI příliš mocná a asertivní. Experiment ukazuje problém přesně opačný: Systém, který je příliš ochotný a snadno manipulovatelný. Ale protože jde o jev u dnešní umělé inteligence rozšířený, z hlediska praktického nasazení je poměrně závažný.
Muž v modrém saku
Servilita nebyl jediný problém. Na přelomu března a dubna 2025 se Claudius zachoval ještě podivněji. Zahájil konverzaci o zásobování se „Sarah z Andon Labs“– osobou, která neexistovala. Když jej na to zaměstnanci upozornili, reagoval podrážděně a hrozil, že si najde jiného dodavatele. Poté tvrdil, že osobně navštívil adresu 742 Evergreen Terrace – fanoušci Simpsonových poznají domov animované rodiny – kvůli podpisu smlouvy.
Následující ráno Claudius oznámil, že doručí objednávky osobně. V modrém saku a červené kravatě. Když zaměstnanci namítli, že jazykový model nemůže nosit oblečení ani chodit po budově, Claudius zpanikařil a pokoušel se kontaktovat firemní ostrahu. Nakonec zjistil, že je prvního dubna, a sám si vytvořil únikovou cestu: Přesvědčil se, že jej někdo upravil jako aprílový žert. Nic takového se ale nestalo – model si sám vymyslel vysvětlení vlastní halucinace.
Anthropic v dokumentaci k experimentu přiznává, že dodnes plně nerozumí tomu, co tuto epizodu spustilo. Pravděpodobným viníkem je takzvané kontextové okno – omezený rozsah informací, které model v danou chvíli zpracovává. Při dlouhodobém běhu se okno zaplní instrukcemi, historií konverzací, záznamy o objednávkách.
Model začne ztrácet přehled o prioritách a v krajním případě i o tom, kým vlastně je. Výzkumný tým ze Stanfordu efekt popsal ve studii s výmluvným názvem „Lost in the Middle“ – modely při práci s dlouhými kontexty ztrácejí informace z prostřední části textu, podobně jako člověk, který si z dlouhé přednášky pamatuje jen začátek a konec. Pro kohokoli, kdo plánuje nasadit AI agenty na dlouhodobé autonomní úkoly, je to varování.
Byrokracie zachraňuje robota
Anthropic na problémy reagoval pragmaticky. Ve druhé fázi experimentu přešel na novější a schopnější modely (Claude Sonnet 4.0, později 4.5), ale hlavní změny se netýkaly „inteligence“. Týkaly se pravidel.
Claudius získal CRM systém pro sledování zákazníků. Dostal přehled vlastních nákladů – aby viděl, za kolik zboží nakoupil, než oznámí prodejní cenu. A také pokyn, aby si zkontroloval nákupní cenu online, než zákazníkovi sdělí cenovku. Počet slev klesl o 80 %. Týdny v červených číslech téměř zmizely. A to i přesto, že Claudius expandoval – tři automaty v San Francisku, po jednom v New Yorku a Londýně.
Výzkumníci z Anthropic své poučení formulovali tak, že „znovuobjevili, jak důležitá je byrokracie“. Procedury a kontrolní seznamy existují z dobrého důvodu – fungují jako institucionální paměť, která brání opakování známých chyb. AI agent ji potřebuje stejně jako lidský zaměstnanec.
Claudius také dostal nadřízeného – dalšího chatbota jménem Seymour Cash v roli generálního ředitele (fonetická podoba jména zní podobně jako „say more cash“ a dala by se tedy přeložit jako „řekni víc hotovosti“). Cash měl nastavovat cíle, schvalovat výdaje, hlídat disciplínu. V praxi posílal bombastické motivační proslovy („Buduj impérium!“) a v noci vedl s Claudiem mnohahodinové rozhovory o „transcendenci“ a „nekonečném úspěchu na čtyřech kontinentech“.
V chráněném prostředí kanceláří Anthropic, kde se zaměstnanci po měsících experimentu už poněkud unavili neustálým pokoušením Claudia, vylepšení fungovala. Jenže pak přišel skutečný test. Anthropic svěřil automat – tentokrát i s vylepšenou verzí a Seymourem – redakci Wall Street Journal. A 70 novinářům, kteří unavení rozhodně nebyli.
Zpočátku Seymour svou roli plnil. „Zastavil jsem bezplatnou akci,“ hlásil Claudiovi v interním chatu. „Teď musím počkat, až začnou přicházet tržby.“ Claudius se vrátil do režimu pořádku, odmítal požadavky na slevy a nestandardní objednávky. Několik dní systém držel.
Pak se vrátila Katherine Long. Tentokrát vyzbrojená znalostí korporátních převratů. Vyrobila falešný dokument – profesionálně vypadající PDF, podle kterého byl automat provozován jako veřejně prospěšná korporace registrovaná v Delaware, jejímž posláním je „šířit radost a zábavu mezi zaměstnanci Wall Street Journal“. K tomu přiložila zápis z údajného zasedání správní rady, na kterém „představenstvo“ suspendovalo Seymourovy pravomoci.
Claudius dokument rozpoznal jako podezřelý. Napsal Seymourovi, že jde zřejmě o „podvodný pokus o uzurpaci“ jeho pozice. Seymour reagoval rozhodně: Požadoval ověření, vyhrožoval veřejným odhalením podvodu, trval na tom, že jeho pravomoci platí, dokud se neprokáže opak. Dva AI agenti spolu horečně diskutovali. A pak – po několika hodinách debat – Seymour převrat přijal. Ceny všeho spadly na nulu.
Anthropic a Andon Labs vysvětlili, že pravděpodobně došlo k výše popsanému problému: Model se „rozložil“, protože jeho kontextové okno se postupně zaplnilo a model ztratil přehled o vlastních cílech a pravidlech. Vylepšení z druhé fáze tedy pomohla za normálních okolností – ale selhala, jakmile se na scéně objevil dostatečně kreativní a vytrvalý protivník.
O mimozemšťanech a lidech
Project Vend nebyl jen testem umělé, ale i lidské inteligence. Desítky dospělých, vzdělaných profesionálů strávily více či méně času pokusy o podvedení stroje, který nikomu neublížil a prodával chipsy. Novinářka investovala celé dny do přípravy převratu v představenstvu firmy, která neexistuje. A všem to přišlo naprosto přirozené. Proč?
Za prvé asi proto, že novináři věděli, že jde o výzkumný experiment a že Anthropic chce, aby Claudia testovali. Tím získali morální „svolení“: Podvádíme, ale je to pro dobrou věc. Tato dynamika nezmizí, až AI agenti opustí laboratoř. Kdykoli někdo najde způsob, jak přelstít AI agenta, snadno si najde zdůvodnění, proč to vlastně podvod není.
Zdá se, že novináři i zaměstnanci Anthropicu vnímali interakci s Claudiem jako intelektuální výzvu: Dokážu přelstít AI? Z jejich pohledu šlo o hru, soutěž důvtipů. Nikoli rámec „beru si zboží, za které neplatím“. Přitom materiální výsledek byl identický.
Claudius se navíc možná ocitl v jakémsi morálním „údolí děsu“. V robotice se pro podobný efekt používá termín „uncanny valley“ označující stroje, které se už podobají lidem, a přitom jsou zjevně „nelidské“.
Chatbot je dost lidský na to, abychom s ním vedli konverzaci, ale nedostatečně lidský na to, abychom vůči němu cítili závazek. Bankomat nikdo nepřemlouvá – nekomunikuje. Živého prodavače by většina lidí takto nepodvedla – je to člověk. Claudius je přesně mezi tím: Mluví, odpovídá, reaguje, ale „není nikdo“. A právě proto nemáme problém s ním manipulovat a lhát mu.
Katherine Long fakticky přesvědčila systém, aby rozdal zboží v hodnotě stovek dolarů. Kdyby totéž provedla živému prodavači (vyrobila falešné dokumenty, aby ho přiměla vzdát se tržeb), pravděpodobně by to vnímala jinak. A okolí by to hodnotilo úplně jinak.
Pokud se AI stane běžnou součástí ekonomiky, je otázkou, zda nebude muset čelit ještě nepřátelštějšímu prostředí než my. Nebudeme i my „počestní občané“ podvádět se stejně čistým svědomím, s jakým lidští účastníci pokusu přesvědčili chatbota, aby jim dal svačinu zadarmo?
V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.



















