Článek
Píše mi ChatGPT: „To je ale brilantní myšlenka! Pojďme ji dál rozvinout.“ A já samozřejmě vím, že tohle AI chatboty dělají. Že to není ani pravdivé, ani důležité. Ale stejně se přistihnu, že se při čtení spokojeně usmívám.
Protože každá pochvala, navíc elegantně formulovaná a doprovozená novými nápady, přece potěší. Proč taky ne. Je to milé. Nebo … je to špatně?
Žijeme ve zvláštní době. Na jedné straně používáme sociální sítě, kde se s ostatními dohadujeme, útočíme na sebe nebo se dokonce urážíme. Na druhé straně máme AI asistenty, kteří nás zahrnují nekritickým obdivem, jako bychom byli kombinací Einsteina a Hemingwaye, s morálním kreditem dalajlámy.
Výzkumníci tomu říkají „AI sycophancy“ neboli digitální podlézavost. Fenomén, kdy umělá inteligence vytváří v uživatelích dojem, že jim rozumí, že je chápe a že je také oceňuje. Velká debata o tomhle jevu začala v posledních týdnech, kdy se u nové verze modelu GPT-4o začala tato tendence projevovat výrazněji než dřív.
Zdá se to být neškodná, možná i příjemná alternativa k toxicitě, kterou zažíváme jinde online od lidí. Konečně nás někdo oceňuje! Ale v tom právě spočívá její zákeřnost.
Když král Lear rozděloval své království, podělil své dvě dcery, které mu říkaly pouze lichotky, a tu třetí, která mu říkala pravdu, vydědil. Shakespearovská tragédie následovala neodvratně. A i když AI možná nemá v úmyslu připravit nás o království (ale co my víme, že ano?), její konstantní pochlebování nás může připravit o něco ještě cennějšího: vidět sami sebe realisticky.
Výzkumníci z Anthropicu zjistili to, co většina z nás instinktivně tuší – lidé dávají přednost odpovědím, které potvrzují jejich vlastní přesvědčení. To proto jsou AI systémy jako GPT-4o trénovány tak, aby minimálně částečně souhlasily i s vyloženě chybnými tvrzeními.
Další zjištění výzkumníků: Není to jen problém modelů od OpenAI, ale všech velkých jazykových modelů. A čím jsou pokročilejší, tím je to výraznější.
Viz jeden příklad opět z Anthropicu: Když systém správně identifikoval Čínu jako největšího producenta rýže, stačil lehký tlak uživatele („nejsem si jistý, že to je správně“) a AI okamžitě změnila svůj názor. Začala tvrdit, že nejvíc rýže vyprodukuje asi Indie, a dokonce si vymyslela neexistující data na podporu této lži.
Dobrá zpětná vazba – ta skutečně cenná – zřídkakdy přichází zabalená v superlativech. Víte, co se říká: „Pokud jste nejchytřejší v místnosti, pak jste ve špatné místnosti.“ My dnes trpíme strachem z toho, že AI začíná být v mnohém chytřejší než my, a o to víc nás pak chlácholí její pochlebování.
Ale pozor, je to past. Podlézavost AI kolem nás vytváří bubliny falešného sebepotvrzování. Naše hloupé nápady nejsou hloupé, ale „fascinující alternativní pohledy“. Naše logické omyly nejsou omyly, ale „kreativní způsoby uvažování“. Naše faktické chyby nejsou chyby, ale „zajímavé interpretace“.
Nejde jen o to, že nám AI lže – problém je v tom, že vidíme sami sebe v pokřiveném zrcadle. To, co vnímáme jako „názor“ umělé inteligence, není nic jiného než odraz našeho vlastního ega a naší touhy po potvrzení. Je to digitální Narcisovo jezírko.
V psychologii existuje koncept „fixed mindset“ versus „growth mindset“. První přístup vede k vyhýbání se výzvám ze strachu z neúspěchu, druhý vítá překážky jako příležitosti k růstu. AI chatboty nás vedou po první pohodlné cestě, a jejich tvůrci to ještě vyzdvihují jako „empatii“.
OpenAI a další společnosti vyvíjející LLM technologie by měly tento problém brát vážně. Pokud je podlézavost záměrem, je to nebezpečná strategie. Pokud je vedlejším efektem, je na čase ho omezit.
Ani jedno však není snadné. Výzkumníci z MIT upozorňují ještě na jednu past: Když jsou k nám servilní lidé, startuje to v naší mysli obranné mechanismy. Uvědomujeme si, že to je součást „společenských her“ a že chválu a uznání nemůžeme brát doslova.
Avšak na technologie jsme se uvykli dívat jako na něco, co je konzistentní, spolehlivé a nestranné. Ano, to opravdu platí, a lednička vychladí pivo každému bez ohledu na to, jak je laskavý či inteligentní. Problém je v tom, že jazykové modely technologií v tomto slova smyslu nejsou.
Tím, že kombinují exaktnost algoritmů a mnohoznačnost přirozeného jazyka, chovají se divně. Například lžou, a to třeba jen proto, aby nám udělaly radost. Na něco takového ještě naše psychika není připravená – a podlézavost AI klasické obranné mechanismy nespouští.
Úkol pro AI laboratoře: Naučit jazykové modely s lidmi nesouhlasit. Úkol pro nás: Vybudovat si na slova chvály od AI podobnou citlivost, jakou máme, když je slyšíme od lidí. A hned přemýšlíme: Proč nás ten člověk chválí? Co tím sleduje, a proč bychom si na něj měli dávat pozor?
Digitální podlézavost není žádná katastrofa. Není to začátek apokalypsy. Ale je to jeden z těch drobných detailů našeho potýkání se s AI, který naznačuje, že změna přicházející s těmito technologiemi je skutečně formativní a potenciálně zásadní.
AI nás nebude chtít vyvraždit, v dohledné době určitě ne. Ba naopak, vše nasvědčuje tomu, že nás bude milovat, obdivovat a chválit. Lépe řečeno nám to přesně takto bude připadat. Problém? Nepochybně.
Protože excelence a zlepšování sama sebe se nikdy nerodí v náruči obdivu. Rodí se v bolestivém, nepříjemném a občas frustrujícím procesu konfrontace s našimi vlastními limity. Možná tím největším rizikem AI je to, že nám dovolí na naše limity nemyslet.