Hlavní obsah

Dá se ještě věřit lidskému hlasu? Podvodníci mají náskok, varují experti

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Klonování lidského hlasu pomocí AI je levné a rychlé, stačí na to už i volně dostupné nástroje.

Poznáte hlas příbuzného, který vám volá? Nebuďte si tím tak jistí. Nové nástroje na klonování lidského hlasu už jsou velmi přesvědčivé. Profesionál sice falšovaný hlas dokáže odhalit, ale to už je často pozdě.

Článek

„Je to tvůj hlas, Davide, synu můj?“ Už od biblických časů je lidský hlas považován za bytostný otisk naší osobnosti a také za důležitý způsob identifikace lidí, které známe. Schopnost imitátorů napodobovat cizí hlas je pak pro nás jak zábavná, tak trochu děsivá. Zvykli jsme si totiž na to, že když někoho poznáme po hlase, můžeme mu věřit.

Nová vlna nástrojů pro napodobování hlasu však tuto důvěru rozbíjí. Také v Česku se dostává téma klonovaného hlasu pomocí AI na výsluní, naposledy kvůli aféře kolem údajné nahrávky radního ČT Pavla Matochy.

Jak daleko je technologie, která umožní počítači mluvit hlasem někoho jiného? Je možné napodobit cizí hlas jen z několika sekund záznamu? A dokázal by expert naklonovaný hlas poznat, když k tomu bude mít dostatek času?

„Odborníci věnující se anti-spoofingu, tedy detekci uměle generovaných hlasů, budou vždy (pozadu) za těmi, kdo ty hlasy vytváří,“ varuje Radek Skarnitzl z Fonetického ústavu Filozofické fakulty Univerzity Karlovy v Praze. Varuje, že klonovaných hlasů bude přibývat: „Umělá inteligence bude pro tyto potřeby využívána stále více.“

Schválně si vyzkoušejte, zda poznáte, který z klipů je skutečně můj hlas a který jsem naklonoval pomocí AI nástrojů:

Podstatné je, že se snížila náročnost „naklonování“ cizího hlasu. Je to možné i na základě krátké nahrávky, v našem případě to bylo 10 sekund. Dříve se do takového projektu mohl pustit jen výjimečně talentovaný imitátor nebo tým expertů na zvukové efekty. Dnes dosáhnete věrohodných výsledků i s volně dostupnými nástroji. Ani ne za minutu „práce“ máte výsledek, který řadu lidí splete. Zvlášť po telefonu.

Lidé na to navíc nebývají připraveni. Vyrůstali v době, kdy šel lidský hlas od toho strojového bezpečně rozpoznat.

Robotické hlasy jako z konzervy

Historie syntézy hlasu sahá až do 30. let 20. století, kdy v amerických Bell Laboratories hledali způsob, jak přenášet hlas telefonní linkou v úspornější podobě. Jeden z experimentů spočíval v tom, že by se nepřenášel samotný zvuk konkrétního hlasu, ale místo toho by se hlas na druhé straně napodoboval.

Výsledkem byl nástroj zvaný Voder: umožnil „psát“ na klávesnici a produkovat něco, co připomínalo s přimhouřením uší lidský hlas. Technologicky byl zajímavý a v době svého představení v roce 1939 vzbudil zájem, ale byl nesmírně nepraktický. Navíc bylo téměř nemožné jej ovládat a operátorky, které se s jeho pomocí naučily lidský hlas „psát“, byly přirovnávány ke klavíristkám. Neťukaly totiž do kláves text, ale spíše pomocí kláves ovládaly různé části umělých hlasivek.

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Schéma systému Voder (Voice Decoder), vynálezu Homera Dudleyho z Bell Telephone Laboratory (na základě ilustrace z roku 1940).

Ve druhé polovině století se postupně přidávaly další inovace, které pomohly lidský hlas vizualizovat, rozkrájet, analyzovat a poté sestavit. Tak vznikla první digitální syntéza hlasu. Zdaleka ještě neměla ambice napodobovat nějaký skutečný hlas, ale šlo vůbec o to, aby počítač mohl vytvářet zvuky, které člověk rozpoznal coby „řeč“.

V roce 1961 se IBM ve spolupráci s Bell Labs mohly pochlubit „prvním zpívajícím počítačem“, který dokázal použít modularizovaný syntetizátor řeči k produkci písničky. Dodnes rozumíme „robotickým hlasem“ právě tento styl: mechanizovaný, předvídatelně roztřesený a bez výrazné intonace, která by reflektovala význam slov.

Ve srovnání s těmito – z dnešního pohledu až prehistorickými - začátky se ale syntéza řeči posunula vpřed. Někdy kolem roku 2010 začínají být počítačové hlasy téměř k nerozeznání od hlasů lidských. Jakmile byste si ale pustili delší ukázku, jejich monotónnost by je prozradila. Lidský hlas byl stále jen těžko napodobitelný – rozhodně to nešlo bez specializovaného vybavení. To se ale v posledních deseti letech radikálně změnilo.

Photoshop pro lidský hlas

Rok 2016 lze skutečně označit za přelomový, co se týče pokroků umělé inteligence v klonování lidského hlasu. Firma Adobe tehdy představila Projekt VoCo: úpravu zvukové nahrávky pomocí textu. Publikum bylo nadšené už jen z toho, že lze smazat nějaké slovo z přepisu a ono zmizí i z editované nahrávky. Ale když prezentující do textu vepsal slovo, které v původní nahrávce vůbec nebylo, v sále to nevěřícně zašumělo. Z věty „Políbil jsem své psy a svou ženu“ se stalo „Políbil jsem Jordana a svého psa“.

Foto: Adobe

Úprava audionahrávky ve stylu „Photoshopu pro řeč“ publikum zjevně překvapila.

Ukázka už tehdy vyvolala nadšení i rozhořčení. Nadšení proto, že si všichni editoři audia dokázali živě představit, kolik času by jim taková funkce ušetřila. A rozhořčení kvůli tomu, že s možností vložit lidem do úst cokoli se rozpadá určitá část důvěry v jakékoli zvukové záznamy hlasu.

Ve stejném roce – a s poněkud menšími fanfárami – předvedly laboratoře DeepMind (od roku 2014 součást společnosti Google) svůj projekt WaveNet. Ten ukázal schopnost generovat zvukovou vlnu pomocí neuronové sítě. Dnes bychom ji nazvali „generativní umělou inteligencí“. Poslechově byla kvalita vynikající, podle slepých měření se přiblížila lidskému hlasu více než jakýkoli jiný syntetizátor řeči v té době.

Poté už neuplynul rok, aby se na scéně neobjevilo nějaké tvrzení, že některá laboratoř nebo firma dokáže klonovat lidskou řeč. Předhánějí se i v tom, jak dlouhou ukázku potřebují. Microsoft v roce 2017 tvrdil, že jim na nápodobu stačí tři sekundy.

Tehdejší špičkové nástroje ještě zůstaly v laboratořích. Bylo to kvůli pochopitelným obavám ze zneužití. A možná i proto, že v praxi by ty výsledky nebyly tak působivé jako na vybraných ukázkách. Ale po roce 2022 nastal v oblasti generativní umělé inteligence boom, který se často na etiku či zodpovědnost neohlížel.

Klonovač hlasu pro každého za hubičku

Přístup ke klonovacím nástrojům má dnes opravdu každý, kdo má zájem. U poskytovatelů online služeb je obvyklé alespoň nějaké základní omezení, k čemu lze či nelze tyto nástroje využít.

Foto: Pavel Kasík, Seznam Zprávy

Při klonování hlasu ve službě ElevenLabs musíte zaškrtnutím potvrdit, že máte „potřebná práva nebo potřebný souhlas k nahrání a klonování hlasu“.

Jenže jiné AI modely si může kdokoli spustit na vlastním počítači a generovat pomocí nich cokoli, kdykoli a v jakémkoli množství. Ne ve všem jsou tyto open-source technologie na úrovni top modelů, ale jsou již natolik výkonné, že pomocí nich i naprostý začátečník dosáhne velmi dobrých výsledků po pár minutách experimentování.

Foto: Pavel Kasík, Seznam Zprávy

Vlastní nástroj pro klonování hlasu si dnes může vyrobit kdokoli. Běží lokálně a generuje „nahrávky“ již na základě desetisekundové ukázky hlasu.

I když jsem věděl, že klonování hlasu je už možné provozovat lokálně, stejně mne překvapilo, jak jednoduché to bylo. Výsledný hlas rozhodně není dokonalý, ale jeho vytvoření bylo otázkou necelé minuty. Klipy pak z generátoru padají rychleji, než text stíhám psát. Lze si tedy představit i poměrně zákeřné nasazení. Pokud by někdo tímto hlasem někomu zavolal, poznal by člověk na druhé straně, že se jedná o „padělek“?

Hlas po telefonu už není důkazem identity

Lidé jsou vytrénovaní, aby ostatní poznali na první poslech. „Identitu poznáme podle hlasu velmi bezpečně, a to dokonce i pokud jde o hlas nějak deformovaný nebo v hlučném prostředí,“ popisuje Kateřina Chládková, lingvistka z Psychologického ústavu Akademie věd ČR. „K charakteristikám hlasu jako takového je člověk velmi citlivý a identitu pozná bezpečně nejen podle barvy hlasu a výslovnosti, ale taky podle frázování, hezitačních zvuků, volby slov a podobně.“

Čím delší je tedy naklonovaná řeč, tím větší je šance, že by posluchačům „něco nehrálo“. Lze si ale snadno představit útoky, ve kterých na dlouhé povídání není čas. Útočníci často pracují s různými scénáři telefonických podvodů, které různým způsobem vysvětlují, proč nemůžete mluvit s člověkem na druhé straně: je zraněný, je unesený, je v jiné místnosti, právník mu doporučil s nikým nemluvit atd.

V typickém útoku využívajícím naklonovaný hlas – v angličtině se začal ve větší míře objevovat kolem roku 2023 – se pracuje s časovým tlakem. Má to ve vás vyvolat pocit stresu, paniky, ideálně abyste zapomněli na možnost ověřit si identitu daného člověka jinak. Třeba tak, že mu zavoláte na jeho číslo.

Další možností je mít domluvenou nějakou frázi pro podobné případy, nebo se alespoň zeptat na detail, který znáte jen vy a daný člověk. Bez jasné odpovědi musíte předpokládat, že může jít o falešný hlas.

Typické podvody s naklonovaným hlasem

Tísňové volání od „dítěte“ – rodič nebo prarodič slyší na druhé straně své dítě či vnouče a okamžitě chce udělat vše, aby mu pomohl. Včetně nelogických kroků, jakým je třeba zaslání peněz v kryptoměně.

Falešný únos a výkupné – rodina dostane informace o únosu, který se neuskutečnil, ale hlas uneseného je přesvědčivý.

Investiční doporučení – politik nebo celebrita na videu doporučuje nějaký produkt a využívá tak známosti daného člověka u cílového publika.

Smyšlené zprávy – zfalšovaná zpravodajská relace nebo rozhovor napodobuje nejen hlas známého moderátora, ale i jejich podobu. Cílem bývá například prodej investičních platforem a dalších „zaručených nástrojů na zbohatnutí“.

Příkaz od nadřízeného – příjemce hovoru slyší hlas rozhořčené šéfové či šéfa, kteří požadují okamžité převedení finančních prostředků „klientovi“.

Falešný politik – v předvolebních kláních bylo využito hlasu politiků v hromadných telefonátech k pokusům o ovlivnění voleb.

Jenže to bychom si museli vzpomenout, že máme být ostražití. Na to, že hlasy na druhé straně sluchátka mohou být zfalšované, zatím zvyklí nejsme. „Lidé primárně slyší to, co slyšet chtějí, většina verbální i neverbální komunikace je z velké části ne o tom, co mi kdo řekl, ale co já jsem slyšel a co můj mozek vlastně slyšet chtěl,“ vysvětluje psycholožka Chládková.

Možná, že časem se naučíme dávat si na podobné zfalšované „hlasové klony“ pozor. Čím více se budeme na sítích i jinde setkávat s „vtipnými“ videoklipy plnými falešných hlasů, tím to může být paradoxně pro naši ostražitost lepší. „Rostoucí zkušenost s AI-generovaným obsahem, včetně klonů hlasů, by mohla postupně sloužit jako obrana proti oklamání. Lidé se budou nad původem obsahu zamýšlet, identifikovat jej jako AI a postupně se potom - podvědomě i vědomě - naučí, čím se AI obsah odlišuje od obsahu generovaného člověkem,“ doufá Chládková.

S tím ale souvisí i opačný problém: když lidé vědí, že se může jednat o AI hlas, mají tendenci jako falešnou nahrávku označovat i skutečné promluvy skutečných lidí. Studie z roku 2025 ukázala, že respondenti v experimentu označili lidský hlas za lidský jen v 62 % případů. A naopak naklonovaný hlas je ošálil až v 70 % případů. Je tedy vidět, že při běžném poslechu nemají lidé vysokou úspěšnost rozpoznání.

Strategie co nejvyšší ostražitosti je tedy na místě – vede ale k falešným nálezům. Za klonovaný hlas je pak často považován i ten skutečný. Už v roce 2024 novinářská organizace Poynter varovala, že i volně dostupné nástroje pro detekci AI klonů jsou nespolehlivé. Experti zdůrazňují, že lidé by se měli řídit zejména tím, nakolik důvěřují danému zdroji.

„Vytvořit důvěryhodně znějící klon je nyní triviální,“ konstatoval informatik Hany Farid z University of California v Berkeley už na začátku roku 2024. „Nejen, že můžete napsat text a počítač jej přečte naklonovaným hlasem. Můžete také něco namluvit a počítač to přenese do naklonovaného hlasu, včetně intonace nebo nadávek. Je to v principu ta stejná technologie.“

Umí to rozpoznat vůbec někdo?

Rozpoznání povedených hlasových klonů je nicméně někdy oříškem i pro experty. „U těch nejpokročilejších modelů pro syntézu řeči je to skutečně prakticky nerozeznatelné, zvlášť pokud se jedná o krátkou promluvu,“ varuje Marie Kunešová z Fakulty aplikovaných věd Západočeské univerzity v Plzni. „Čím je promluva delší, tím je větší šance, že se v ní objeví nějaká nesrovnalost. Jsou modely, které, pokud mají dostatek dat, dokážou imitovat i styl řeči cílového řečníka – například jak rychle mluví, kde dělá pauzy a podobně. Jiné pouze napodobují barvu hlasu, takže pokud je falešná ukázka dostatečně dlouhá, i na poslech poznáte, že to nezní jako daný člověk.“

Protože se oblast napodobování hlasů pomocí AI rychle rozvíjí, nelze se spolehnout ani na metody, které ještě nedávno fungovaly. „Před dvěma lety na konferenci Mezinárodní asociace pro forenzní fonetiku a akustiku (IAFPA) kolegové prezentovali, že uměle generované nebo klonované hlasy lze identifikovat podle spektrálních informací nacházejících se ve vysokých frekvencích,“ popisuje Radek Skarnitzl. Jsou to frekvence, které nejsou běžně slyšitelné, ale na záznamu jsou přesto „vidět“.

Foto: Pavel Kasík, Seznam Zprávy

Ukázka spektrogramové vizualizace zvukové nahrávky hlasu. Vyšší frekvence (nahoře) jsou pro většinu lidí neslyšitelné a syntetizátory hlasů se jimi dříve „nezdržovaly“.

Expert tak při podrobné analýze mohl padělané hlasy odhalit. Jenže jakmile je tento „znak“ veřejný, jsou na tahu autoři klonovacích nástrojů. „Do pár měsíců toto už v těch hlasech nebylo,“ dodává Skarnitzl.

Nadále samozřejmě mohou soudní znalci a další experti využít svých zkušeností s editací zvuku. Zaměřit se mohou na fyzickou stránku situace, kterou nahrávka údajně zaznamenala. Jaký mikrofon nahrávku pořídil, kde byl umístěný? Jaká je v dané místnosti ozvěna?

„Pro autentizační analýzu je klíčové určit, zda jsou pozorované rysy nahrávky vneseny původním záznamem, nebo až následným editačním zásahem,“ vysvětluje příručka Evropské sítě forenzních institutů (ENFSI). To platí i v případě, že analytik podezírá nahrávku, že je nejen upravená, ale rovnou celá vygenerovaná. Pokud je autentická, měla by nést známky celého nahrávacího procesu.

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace, dle ENFSI

Skutečná nahrávka zaznamená nejen daný zvuk, ale také ruchy prostředí, charakteristiku konkrétního mikrofonu, ztráty způsobené převodem a kódováním, případně i aspekty spojené s jejím uložením. Vše z toho lze teoreticky zfalšovat, ale není to triviální.

V některých případech může analytik zkusit napodobit záznam ve stejném prostředí a na stejném zařízení. Pokud by se ukázalo, že zachytit a uložit nahrávku tak, jak je prezentována, by bylo ve skutečném světě nemožné, je to pádný argument proti její pravosti.

Když ale odborník takové známky AI generování nenalezne, pořád si nemůže být zcela jistý, že je nahrávka pravá. A dostupné nástroje pro detekování AI podvodů nejsou zatím vhodné. „Současné modely pro detekci deepfake zvuku by neměly u soudu sloužit jako hlavní forenzní důkaz,“ varují výzkumníci ve studii publikované v odborném časopise Forensic Science International. Při testování zjistili, že současné přístupy „vzhledem ke své nedostatečné transparentnosti a prokázané zaujatosti nejsou spolehlivé pro rozhodující právní posouzení“.

Taková 100% jistota autenticity záznamu je možná jen u „zamknutého záznamu“. Tedy takového, který je už od svého vzniku kódován a šifrován způsobem, který neumožňuje pozdější změnu. O to se snaží například standard C2PA: záznam by už při nahrávání dostal matematický otisk podepsaný důvěryhodným zařízením. Takové uložení znemožní následnou změnu a slouží jako důkaz, že záznam v této dané podobě existoval v konkrétní čas. Není to sice stále důkaz, že se událost odehrála, ale zabránilo by to některým typům podvrhů, které vznikají až dodatečně.

Celkově vzato ale teď není žádný jednoduchý způsob, jak stoprocentně dokázat pravost zvukové nahrávky, nebo naopak její AI falšování. Naopak tvorba takových falešných nahrávek je čím dál jednodušší. Asymetrie mezi detekcí a generováním má podle Farida jednoduchý důvod: „Tvorbou falešného obsahu se dá vydělat hodně peněz, zatímco detekováním falešného obsahu až tak ne. Detekování je obtížnější a laťka se neustále zvyšuje.“

Při běžném telefonním hovoru se tak v žádném případě nemůžeme spolehnout, že na druhé straně je člověk, jehož tvář nám po zaslechnutí daného hlasu naskočí. Může to být váš příbuzný. Anebo někdo, kdo mu zavolal, nahrál si jeho „Haló, kdo volá?“ a z této krátké ukázky teď napodobí libovolnou větu, kterou si na svém počítači napíše.

Podívejte se, jak rychle lze naklonovat něčí hlas na základě několika sekund hovoru:

Ukázka klonování hlasu pomocí lokálního modelu ve vlastním nástroji. Vše probíhalo na osobním počítači bez připojení k internetu.Video: Pavel Kasík, Seznam Zprávy

Poznat někoho po hlase je jednou z bytostně lidských zkušeností, která s nástupem AI končí. Bude chvíli trvat, než si na to zvykneme.

Doporučované