Na hranici technologických možností. Jak vznikl digitální otisk hlasu Karla Gotta?

14. červenec 2023

Užití hlasu vytvořeného umělou inteligencí v literárně-dramatickém díle je v roce 2023 skutečným unikátem. V Česku je to vůbec poprvé. Také proto Český rozhlas, iniciátor projektu GOTT NAVŽDY, po celou dobu příprav dodržoval vysoké standardy práce. „Vývoj technologií lidstvo jen těžko zastaví, můžeme ale nastavit způsob a pravidla, podle nichž bude například právě umělá inteligence využívána. A na to klademe velký důraz,“ říká generální ředitel Českého rozhlasu René Zavoral.

Tvůrci projektu po celou dobu důsledně dbali na to, aby bylo zachováno dobré jméno Karla Gotta a aby projekt nijak nepoškozoval jeho památku. Český rozhlas jako majitel digitálního otisku hlasu Karla Gotta proto vytvořil soubor pravidel, která například zajišťují, že hlas Karla Gotta vytvořený umělou inteligencí nemůže být za žádných okolností použit v pozměněném kontextu anebo pro načtení textu, který Karel Gott sám nenapsal nebo nepronesl. Zároveň je kladen velký důraz na datové zabezpečení, aby hlas nemohl být jakkoliv zneužit.

Čtěte také

S jistotou je možné říci, že se tvůrci projektu v práci s takzvanou hlasovou syntézou dostali na samou hranici nynějších technologických možností. Digitální otisk hlasu Karla Gotta vytvořili vědci z plzeňské společnosti SpeechTech ve spolupráci s Výzkumným centrem NTIS Západočeské univerzity v Plzni, kteří mají mnohaleté zkušenosti se syntézou hlasu a ve svém oboru patří ke špičce. Při vývoji hlasu vycházeli z desítek hodin zvukových záznamů pořadu Zpátky si dám tenhle film, který Karel Gott připravoval v letech 2011 až 2015 pro Český rozhlas Dvojka. Zvuk nechali přepsat do textu a následně párovali text a zvuk, respektive jednotlivá písmena nebo skupiny písmen v textu a ve zvuku.

Vznikla tak rozsáhlá databáze, která byla základem pro hlasový model. Tento hlasový model následně učili některé zvyklosti běžné řeči, například vliv interpunkčních znamének na intonaci a podobně. Takto vycvičený model pak mohl zpracovávat konkrétní texty, tedy vybrané pasáže z autobiografie Karla Gotta. Editoři hlasové syntézy pak měli k dispozici 60 verzí každé věty a z nich vybírali do výsledné podoby ty, které v daném kontextu zněly nejlépe. Celkem umělá inteligence hlasem Karla Gotta načetla víc než 16 tisíc slov.

Základní pravidla Českého rozhlasu pro práci s hlasovou syntézou

  • Pokud je ve vysílání nebo v on-line prostředí Českého rozhlasu použita syntéza řeči (hlas vytvořený umělou inteligencí), je nutné tento způsob posluchačům a uživatelům jednoznačně identifikovat.

  • K výrobě digitálního otisku hlasu zemřelé osoby smí Český rozhlas užít pouze hlasovou předlohu, k níž drží anebo získá oprávnění od příslušných nositelů práv, a to v případě, že hlasovou předlohou je umělecký výkon, k němuž trvají majetková práva dle autorského zákona.

  • Hlasovou syntézu v případě zemřelé osoby využívá Český rozhlas výhradně pro texty a repliky, které dotyčný/dotyčná sám napsal/a nebo pronesl/a.

  • Dílo s hlasovou syntézou lze použít pouze v náležitém kontextu, které odpovídá původnímu účelu díla. Nesmí být vytrženo z kontextu, resp. vloženo do zavádějících souvislostí.

  • Zvuk vytvořený hlasovou syntézou v případě literárně-dramatického díla prochází důkladným editačním procesem, aby bylo dosaženo co nejvěrnější podoby s hlasovou předlohou.

  • Zvuk vytvořený hlasovou syntézou publikuje Český rozhlas vždy v nejvyšší technické kvalitě, která je v daný okamžik dosažitelná.

  • Dodavatel, který pro Český rozhlas vyrábí vlastní digitální otisk hlasu, musí Českému rozhlasu poskytnout výhradní licenci na tento počítačový kód.

  • Dodavatel digitálního otisku hlasu musí zaručit, že digitální otisk hlasu, resp. data v souvislosti s jeho vytvářením vzniklá, nebudou odcizena či jinak zneužita. Nesmí třetím stranám poskytovat žádnou část vytvořeného digitálního otisku ani žádný zvuk vytvořený hlasovou syntézou.

  • Aktivně používaný digitální otisk hlasu je uložen na zabezpečených technologiích provozujících syntezátor řeči, které provozuje Český rozhlas nebo dle smluvních podmínek dodavatel. K těmto technologiím mají přístup pouze osoby pověřené vedením Českého rozhlasu.

  • Neaktivní digitální otisk hlasu nesmí být dostupný na technologiích určených pro generování audio výstupů a je uložen výhradně na digitálním nosiči na zabezpečeném místě v budově Českého rozhlasu.

Spustit audio