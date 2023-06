Pusťte si následující dvě zvukové ukázky. Klidně vícekrát. Jedna nahrávka je hlas Barbary Hacsi, naší skutečné kolegyně, moderátorky Expres FM. Druhý hlas je výsledkem digitální analýzy jejího hlasu a následné počítačové syntézy.

Poznáte originál od kopie?

Anketa Která nahrávka je podle vás syntetická, počítačem vytvořená? ukázka A je syntetická 31,3 % ukázka B je syntetická 57,8 % obě jsou syntetické 7,2 % ani jedna není syntetická 3,7 % Celkem hlasovalo 83 čtenářů.

Než odhalíme, který z hlasů vznikl v lidských hlasivkách a který v umělé neuronové síti, pojďme se podívat, proč vlastně Seznam Zprávy něčí hlas chtějí kopírovat. Ptali jsme se na to vývojáře Jiřího Špačka, kolegy ze Seznam Zpráv, který má v redakci na starosti právě zavádění inovativních technologií a postupů do praxe.

Digitální dvojnice zatím nedýchá

Proč jste se vlastně pustili do tvorby syntetického hlasu?

Nejde o nějaké samoúčelné experimentování s novými technologiemi. Cílem není syntetický hlas. Syntetický hlas je pro nás prostředek k tomu, abychom měli kvalitnější obsah pro naše posluchače.

Bereme to jako příležitost vyzkoušet něco nového. Vnímáme to tak, že to bude časem nutnost, protože to umožní rozšířit výrobu.

Na umělé hlasy jsou lidé poměrně zvyklí. Na zkopírování hlasu konkrétního člověka už ale méně. Jak trénování syntetického „hlasového dvojčete“ probíhalo?

Náš umělý hlas jsme pojmenovali Hacsiko, podle moderátorky Báry Hacsi, moderátorky rádia Expres FM. Bára je docela technooptimistka, a tak se do toho projektu pustila s námi. Pro ni to znamenalo nahrát s námi ve studiu, pod dozorem zvukaře a technika, celou řadu speciálně vybraných textů.

Tyto nahrávky jsme následně digitálně očistili a spárovali s příslušnými větami. Tím dáváme „robotovi“ data k tomu, aby se trénoval, jak se který foném (části zvukové stránky řeči – pozn. red.) vyslovuje třeba na základě toho, kde ve větě se nachází.

Pamatuji si, že úplně první syntéza řeči, se kterou jsem si v 90. letech hrál, bylo doslova skládání několika desítek kratičkých nahrávek jednotlivých fonémů za sebe. Tvořilo to taková sice srozumitelná, ale hodně kostrbatá slova. Trochu jako když někdo z novin vystříhá písmena a pak z toho něco poslepuje.

V principu je to pořád skládání, ale mnohem důkladnější. Ty jednotlivé stavební prvky se poskládají, ale pak dojde k jejich vyladění a vyhlazení, že není vůbec poznat, že jde o skládačku. To generování probíhá na mnohem vyšší úrovni. Myslím, že posluchači mohou sami posoudit, jak to funguje.

Už při sběru vzorových nahrávek jsme kladli důraz na to, k čemu budeme výsledný syntetický hlas používat. Je to hlas určený do rádia, nebude číst pohádky pro děti, ale bude číst zprávy nebo moderovat vysílání. Tomu je uzpůsobená i dynamika a tzv. akustický model, tedy konkrétní přístup ke čtení daného textu.

Myslíte, že lidé poznají, že se jedná o syntetický hlas?

Ten hlas myslím zní hodně uvěřitelně. Ale je to samozřejmě naše první testovací verze. Pustili jsme ji do světa, abychom ukázali, že to jde a že to nezní vůbec špatně.

Ale samozřejmě víme, že je na tom ještě spousta práce. Že to není žádná moderátorka, je to jen syntetický hlas.

Dozvědí se posluchači, že jde o syntetický hlas?

Ve vysílání je jednoznačně označeno, že jde o syntetický hlas. Bude to řečeno na začátku toho bloku, na jeho konci a je to zmíněno i ve znělce toho pořadu.

Umělá inteligence v Seznam Zprávách V redakci Seznam Zpráv experimentujeme s celou řadou nástrojů využívající umělou inteligenci. Zveřejnili jsme jasná pravidla, jak tyto inovativní technologie zapojujeme do naší práce tak, abychom vždy mohli ručit za výstupy. Seznam Zprávy pracují s AI a mají jasná pravidla Nikdy například netvoříme text článku pomocí služeb typu ChatGPT, protože vygenerované texty bývají plné chyb a nesmyslů. Čtenáři se tak mohou spolehnout, že to, co čtou, je výsledkem lidské práce a podloženo zodpovědností konkrétních autorů.

Jak moderátorka na výsledný syntetický hlas reagovala, když jej poprvé slyšela?

Bára Hacsi mi říkala, že nerada poslouchá sama sebe. Takže to byla její první reakce na ten umělý hlas, který nám propůjčila. Ale když to posloucháte déle, tak víte, že to není ona. Kdo často poslouchá rádio, určitě to pozná. Zvláště na delších textech je to zkrátka cítit, že to není živý člověk.

Učíme se s tím textem dále pracovat. Říká se tomu prozodie, metoda, jak upravovat výšku hlasu, rychlost, mezery, důrazy a podobně. My vlastně tomu robotovi nedáváme k přečtení jen text, my mu také říkáme, jak přesně má které části přečíst.

Takže třeba kde se má nadechnout…

Nádechy nebo takzvané hezitace, tedy občasné váhání hlasem, to jsme ještě nepřidávali. Na tom ještě budeme pracovat.

(Je čas na rozuzlení hádanky z úvodu. Ukázka A patří syntetickému hlasu Hacsiko, ukázka B pak lidské kolegyni Báře Hacsi.)

Na obsahu záleží nejvíce

Máte tedy syntetický hlas. Ale co bude číst?

My si teď chceme vyzkoušet, co všechno tato technologie umožňuje. Máme nějaké vzory třeba v USA, ale v Česku to, pokud vím, nikdo takto daleko nedotáhl. Rozhodně nám nejde o to mít jen syntetický hlas. Chceme, aby ten hlas říkal něco užitečného. Když hlas nemá posluchačům co říci, tak tam nemusí být a místo toho může hrát písnička.

A jaký obsah bude nyní syntetická Hacsiko číst?

Na Seznam Zprávy a dalších našich webech denně vychází přes 80 článků. Z toho třeba patnáct nebo dvacet by dávalo smysl předělat do rozhlasového formátu. Takže to je náš další cíl. Vytvořit noční blok poloautomatizovaného vysílání, ve kterém budou existující kvalitní články přečtené syntetickým hlasem ve vysílání. Je to způsob, jak těmto zajímavým textům dát nový život a předat je do éteru. Lidem, ke kterým by se jinak nedostaly.

Musím dodat základní věc: vše podléhá kontrole člověka. Ručně vybíráme texty, které pak necháme nahrát syntetickým hlasem. A výsledek opět před odvysíláním kontrolujeme.

Foto: Seznam Zprávy Jedno z možných schémat smysluplného zapojení syntetického hlasu.

Do budoucna se samozřejmě nabízí další možnosti, jak zapojit další nástroje využívající umělou inteligenci. Ale rozhodně nemůžeme říct nějakého nástroji typu ChatGPT, aby si vymyslel vstup do rádia. Protože v tu chvíli do toho ten systém začne vnášet svoje výmysly. To nechceme. Všechny informace před vysíláním ověřujeme.

Jakou výhodu by zapojení syntetického hlasu mohlo mít?

Teď jsme teprve na začátku. Když se podívám do nějaké vzdálenější budoucnosti, tak předpokládám, že budou existovat rádia klasická, hybridní a zcela syntetická. A to hybridní rádio bude kombinovat práci lidí a algoritmů. Výsledkem může být mnohem levnější personalizace a přizpůsobení obsahu pro lokální účely.

Teď je vysílaní do regionů omezené. Ale pokud bude možné zapojit nástroje AI i při přípravě vysílacích bloků, tak dokážeme pro každý okruh i vysílač vygenerovat trochu jiný obsah. Zprávy i vstupy do vysílání pro Prahu budou trochu jiné než pro Tachov nebo Karlovy Vary.

Foto: Seznam Zprávy Jak by mohly AI nástroje pomoci při tvorbě regionálního vysílání.

A nakonec ta základní otázka, která určitě napadla řadu lidí. Přijdou tedy moderátoři o práci?

Pracovní trh se v této oblasti určitě promění. Přijde doba, kdy si každý bude moci naklikat nějaký konkrétní český hlas, nastavit si parametry a třeba spustit svůj vlastní podcast, aniž by do mikrofonu řekl jediné slovo.