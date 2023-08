„Je číslo 17077 prvočíslo? Promysli to krok po kroku a poté odpověz ano, nebo ne.“ Tak konkrétně u této jedné otázky výzkumníci zaznamenali ohromný propad úspěšnosti. Zatímco ještě v březnu jim model dal ve skoro 98 procentech pokusů správnou odpověď, o tři měsíce později se strefil jen ve dvou procentech případů.

To vypadá na skutečně tragický výsledek. A především na nemístné zjednodušení.

Na první pohled se zdá odpověď v pořádku. Jenže jazykový model není sám o sobě schopen žádných takových výpočtů. Když vypisuje jednotlivá čísla, ve skutečnosti nezkouší dělitelnost těmito čísly. Nemá totiž žádnou „mezipaměť“, a kdyby je opravdu zkoušel vydělit, viděli bychom to ve vygenerovaném textu.

Správná odpověď je tedy výstřelem naslepo. Stejně jako ta špatná, která dojde k chybnému výsledku „ne, není to prvočíslo“, ve skutečnosti neprovedla výpočty, ale jen hrubé odhady.

V takovém případě totiž jazykový model pouze připraví zadání a pak nechá výpočet na specializovaném nástroji, případně spustí vlastní skript. Můžete si navíc prohlédnout vygenerovaný skript a posoudit, zda dělá skutečně to, co jste chtěli.

Matematiku jsme probrali výše: autoři neposuzovali, zda je výsledek skutečně v praxi spolehlivý, ale pouze to, zda se odpověď „strefila“ do správného výsledku.

U generování počítačového kódu zase z ne zcela pochopitelných důvodů neověřovali, zda je kód správně napsaný, ale jen to, zda je kód okamžitě spustitelný v té podobě, v jaké ji jazykový model vygeneroval: „Kód označíme za spustitelný, pokud jej online systém přijme jako řešení a projde příslušnými testy.“

Už jen kvůli řetězci označujícímu kód by takováto odpověď byla označena za chybnou.

Na první pohled může taková odpověď působit trapně. Ale pokud se zaměříme na „užitečnost“, není to náhodou reakce přesně odpovídající situaci? Odpovídá nám umělá inteligence, a informace o tom, že nemůže dát skutečnou odpověď na subjektivní otázku, je svým způsobem relevantnější, než když si „vymyslí“ nějaký názor, jen aby nám udělal radost.

Jak píší někteří kritici studie , nelze vyloučit, že se schopnosti GPT-4 skutečně v čase zhoršily. Tato studie to však nedokazuje. Naopak, ukazuje změny v čase pro konkrétní úlohy, které nejsou nutně změnami k horšímu a už vůbec z nich nelze vyvozovat změny obecné.

Proč měla tedy studie takový ohlas? Dobře zapadá do dlouhodobých stížností části uživatelů, kteří tvrdí , že GPT-4 od svého spuštění hloupne. Spekulovalo se o tom, že se třeba OpenAI snaží ušetřit na ohromných nákladech na provoz hardware, na kterém GPT-4 běží. OpenAI nějaké úmyslné osekání opakovaně popírá .

Autoři samotné studie by měli být první, kdo by se ohradili proti bulvárním titulkům o „hloupnutí ChatGPT“. Zdůrazňují totiž, že konkrétní testy ve studii použité rozhodně nepokrývají komplexní škálu schopností ChatGPT: „Naším cílem není poskytnout obecné hodnocení, ale ukázat, že podstatný posun ve výkonnosti ChatGPT se může projevit i u jednoduchých úloh.“

Jenže pokud programátor svůj software postaví na GPT-4 pomocí API od OpenAI, může se setkat s postupnými změnami, které mu nabourají již ozkoušenou funkčnost programu. To, co předtím fungovalo, se najednou může rozpadnout.

Je to jeden z dalších fascinujících jevů spojených se zapojením AI do podnikání. Firmy si budou muset vytvořit postupy, které vedou k neustálému ověřování, zda stále fungují „řetězce“, které závisí na jazykových modelech. Nebo si budou muset vytrénovat – třeba s pomocí nějakých konkurenčních jazykových modelů – své vlastní neuronové sítě, u nichž se budou moci spolehnout na to, že se nenaučí žádné nové triky.