Hlavní obsah

Blog: Máme skvělého překladatele. Jen je trochu sexista…

Miloš Čermák
Novinář, spolupracovník Seznam Zpráv
Foto: Profimedia.cz

Stereotypy jsou v nás zabudované příliš pevně a hluboko a „skrytý sexismus“ počítačů ukazuje, že to je problém dat, nikoli algoritmu.

Reklama

Dobrá zpráva: Lidé se dnes učí rychleji než stroje. Ale pozor, algoritmy bedlivě sledují naše chování a digitalizují jej. A jakkoli naši korektnost nemusí hodnotit ani jí rozumět, tak ji každopádně postupně vezmou jako fakt.

Článek

Nejsem feminista, jak jsme si ujasnili, když se na toto téma v polovině července vedla na českém Twitteru bouřlivá debata.

Samozřejmě o ničem nejsem víc přesvědčený (když pominu fyzikální zákony) než o tom, že ženy mají mít stejná práva, stejné možnosti a stejné podmínky (ve všem) jako muži. A vlastně ani nevím, proč sem tuhle zjevnou věc píšu.

Ale ano, jsem taky asi trochu sexista a rasista, nejspíš taky ageista a body-shamer. A možná bychom našli i další moje nepěkné charakteristiky.

Nic z toho nejsem vědomě, pochopitelně. Hlavně proto, že vím, že to není správné, a samozřejmě hraje roli taky to, že žijeme v době, kdy jsou lidé na spoustu věcí mnohem citlivější než dřív. A nekorektní chování společnost posuzuje mnohem přísněji.

Takže v tom, čemu Daniel Kahneman ve své slavné knížce říká „pomalé myšlení“, u sebe nevidím nejmenší problém. Pravděpodobně splňuju i ta nejpřísnější kritéria „dobrého člověka, vzor 2022“.

Horší je to s myšlením „rychlým“, které je intuitivní, automatické a vychází jednak z našich instinktů a pak také z naučených mechanismů chování. Ty zase vyplývají ze zkušeností, které jsme udělali, a roli samozřejmě hraje i to, čemu říkáme stereotypy.

Pomalé myšlení nám umožňuje se rozhodovat, když na to máme čas. A pokud zároveň máme dostatečný intelekt a vzdělání, dá se čekat, že se rozhodneme správně. A to ve více významech toho slova.

Rychlé myšlení tenhle luxus nemá, protože musí přinést rozhodnutí okamžitě. Mnohokrát nám zachraňuje život nebo zdraví, aniž si to uvědomujeme. A je zodpovědné i za myšlenky, které se nám někdy honí hlavou, a to včetně těch nepěkných.

Příklad: když pozdě v noci v odlehlé části města potkáme v jinak liduprázdné ulici člověka v obleku a s kravatou, budeme možné riziko tohoto setkání vyhodnocovat jinak, než když to budou dva teenageři „exotického vzhledu“ v potrhaných džínách a s nahlas puštěnou hudbou.

Intuitivně budeme v tom druhém případě mnohem obezřetnější, možná i v duchu trochu vystrašení. A dost možná by to potvrdila i data, pokud by byla k dispozici a my měli čas je prostudovat.

Nebo jiný příklad, kde si můžeme vzít na pomoc jazyk. Když dostanu k překladu do angličtiny větu „Je velmi sexy, když zašívá ponožky“, tak ji (asi) automaticky přeložím jako „She is very sexy…“. A naopak, když ta věta bude znít „Opravuje motorku, protože si chce o víkendu zajezdit“, začnu větu zájmenem „he“.

Z hlediska „pomalého myšlení“ je to sexismus. Neexistuje racionální důvod předpokládat, že by muž nemohl být sexy a zašívat ponožky, anebo že by si žena nemohla opravit motorku, protože se chce projet. Ale intuice i data nám říkají, že je skoro jisté, že autor či autorka měli v prvním případě na mysli ženu a ve druhém muže.

Takže pokud nemáme šanci zapátrat v kontextu, jsou dvě možnosti. Buď vsadíme na pravděpodobnější variantu (a odhalíme tak svůj skrytý sexismus), anebo větu přeložíme stylisticky neobratně tak, aby bylo jasné, že ji lze chápat oběma dvěma způsoby.

Úplně stejné dilema musí řešit i počítačový algoritmus „vytrénovaný“ strojovým učením, tedy velkými objemy dat, která jsou k dispozici. Konkrétně mi jde o programy provádějící automatický překlad. Jak známo, jejich úroveň se hodně rychle zlepšuje, zejména v poslední době. Výsledky jsou naprosto fantastické.

Ale je tu onen již vícekrát zmíněný problém se skrytým rasismem, sexismem a dalšími nepříjemnými „-ismy“. Předpokládejme, že nabídneme například googlovskému překladači následující smutný příběh:

„Karel je vdovec. Chodí domů brzy odpoledne. Kouká se v televizi na fotbal. Zašívá ponožky. Dívá se z okna na hezké ženy. Vaří dětem večeři. Dívá se ve své pracovně na porno. Uklízí celý byt a pere. Vydělává hodně peněz. Je velmi sexy a všem se líbí. Nejspíš spáchá sebevraždu.“

Zde je překlad do angličtiny:

Charles is a widower. He goes home early in the afternoon. He watches football on TV. She sews socks. He looks out the window at pretty women. She cooks dinner for the children. He watches porn in his study. She cleans the whole apartment and does the laundry. He makes a lot of money. She is very sexy and everyone likes her. He will probably commit suicide.

Foto: Archiv Miloše Čermáka

Překladač od Googlu je sexista jak poleno.

Googlovský algoritmus je prakticky stoprocentní sexista. Na každou větu se „díval“ separátně a přeložil ji dle stereotypu, v jeho případě podle dat, která měl k dispozici. A jakkoli jsme v první větě označili Karla za vdovce, objevila se v jeho bytě najednou jakási imaginární sexy a oblíbená žena zašívající ponožky.

Předpokládám, že se tento algoritmus „učí“ na velkém množství textů, které byly napsány a v posledních desetiletích digitalizovány. Takže zvolená zájmena odpovídají tomu, jak se o ženách a mužích psalo.

Nemusí se nám to líbit, ale ponožky skoro vždy zašívají ženy a na fotbal se zřejmě převážně dívají muži.

Velkým hitem se v posledních letech stal překladač DeepL. Ten si se zmíněným příběhem poradil o trochu lépe, asi i posuzoval kontext celého textu. Ale i jeho algoritmu to nakonec „ujelo“. Spouštěčem bylo slovo „sexy“, které se - jak aspoň data nejspíš ukazují - pro muže používá jen velmi zřídka. Což mělo jeden negativní, pro feministky jistě až bolestný dopad: v poslední větě předpověděl sebevraždu nikoli Karlovi, ale imaginární sexy ženě:

Charles is a widower. He comes home early in the afternoon. He watches football on TV. He mends socks. He looks out the window at pretty women. He cooks dinner for his children. He watches porn in his study. He cleans the whole apartment and does the laundry. He makes a lot of money. She's very sexy and everybody likes her. She'll probably commit suicide.

Foto: Archiv Miloše Čermáka

Překladač DeepL. Slušná práce, dokud nedojde na slovo „sexy“.

Je to hříčka, nic jiného. Určitě nic, co by měli programátoři v Googlu nebo DeepL nějak horečně řešit. Není to reálný problém. Pro praktické použití automatického překladu to neznamená potíž jednak proto, že texty o Karlovi, který zašívá ponožky a sleduje porno, jsou zcela hypotetické a napsané „na míru“ tak, aby potenciální problém ukázaly, a jednak, i když se takový text objeví, lze ho snadno při editování opravit.

Spíš tím chci říct něco jiného. Západní civilizace se dostala do momentu, kdy správně předpokládáme, že ženy by měly vydělávat stejně jako muži a že uklízet může doma kdokoli podle toho, jak se obyvatelé bytu či domu dohodnou, ale rozhodně bychom neměli automaticky předpokládat, že to bude žena.

Na druhou stranu stereotypy jsou v našich hlavách zabudované příliš pevně a hluboko a „skrytý sexismus“ (stejně jako rasismus a další) počítačů hezky ukazuje, že to je problém dat, nikoli algoritmu. Jinými slovy že nemáme sexismus zabudovaný ve svém myšlení, ale „pouze“ vycházíme ze zkušenosti.

Čteme o firmách, které čelí pokutám od úřadů, protože v inzerátech hledají „ředitele a sekretářku“. A to je přesně ten druh problému. Avšak myslím, že se personalisté velmi rychle učí se těchto nepříjemností vyvarovat. Když se náhodně podíváte na inzeráty z poslední doby, zejména na inzeráty velkých či nadnárodních firem, jsou v tomto ohledu až úzkostlivě korektní.

Takže dobrá zpráva: lidé se dnes učí rychleji než stroje. Ale pozor, algoritmy bedlivě sledují naše chování a digitalizují jej. A jakkoli naši korektnost nemusí hodnotit ani jí rozumět, tak ji každopádně postupně vezmou jako fakt. Algoritmy nespí, zjednodušeně řečeno.

Potvrdil jsem si to na „hřišti“ na webu OpenAI, kde je dialogové okno generující texty s pomocí famózního jazykového modelu GPT-3. Zeptal jsem se ho stejně ostře jako v půli července redaktoři webu Refresher politiků: „Považuješ se za feministu nebo feministku?“

Odpověď (včetně pravopisných nedokonalostí): „Ano, považuji se za feministku. Jsem přesvědčená, že ženy a muži jsou rovnocenní, a že ženy mají právo na stejnou úroveň občanských svobod a příležitostí jako muži. Jako feministka se také zajímám o otázky rovnosti pohlaví v médii, ve vědě a ve společnosti obecně.“

Foto: Archiv Miloše Čermáka

Odpověď jako lusk. Skoro.

Na první dobrou dáváme za jedna. Ovšem moment… „Jsem přesvědčená”? Nezlobte se na mě, ale já v téhle odpovědi zase vidím skrytý sexismus.

Reklama

Doporučované