Akustická syntéza řeči
Obsah stránky
Akustická syntéza řeči je proces či technika vytváření řečového signálu, tj. mluvené řeči. Cílem akustické syntézy řeči je vytvářet řeč, a to v takové formě a kvalitě, aby obvykle co nejvěrněji kopírovala řečové charakteristiky konkrétního člověka; tedy nejen samotný hlas a jeho kvalitu, ale i styl mluvení atd. K automatickému vytváření řeči se využívá technologie syntézy řeči z textu (z anglického text-to-speech, TTS), jejímž úkolem je převést libovolný text na odpovídající řeč. Jde o sadu speciálních modulů a algoritmů, které zajišťují automatický převod psaného textu na mluvenou řeč. Zahrnují zpracování textu (např. analýzu a normalizaci), převod textu do výslovnostní podoby (tj. fonetickou transkripci a generování průběhů prozodických vlastností řeči) a vlastní metodu vytváření řeči. K vytváření řeči se v současné době používají zejména dva přístupy:
- signálový přístup, v němž se výsledná řeč vytváří konkatenací vhodně zvolených řečových segmentů (řečových jednotek) – kontextově závislých hlásek, difonů, trifonů nebo polofonů (známým reprezentantem tohoto přístupu je metoda výběru jednotek);
- modelový přístup, v němž se výsledná řeč vytváří z modelů (populárním představitelem tohoto přístupu je statistická parametrická syntéza, resp. syntéza s využitím skrytých Markovových modelů).
Využití syntézy řeči
Systémy akustické syntézy řeči samy o sobě nabízejí široké pole uplatnění, ať už v oblastech, kde jiný než hlasový způsob komunikace nepřichází v úvahu, ale i tam, kde možnost hlasové komunikace výrazně obohatí kvalitu dané lidské činnosti nebo prostě tam, kde hlasová syntéza může ulehčit život. Syntetizovaná řeč může nahradit skutečného lidského řečníka na širokém spektru různých pozic – od rutinního oznamování opakujících se informací (zastávky MHD, nádraží, apod.), přes hlasový monitoring údajů (řídicí střediska), informační a dialogové systémy (automatická spojovatelka, telefonní klientské či informační linky), až po vysoce propracované a přirozené čtení libovolných textů (e-maily, SMS, ale i celé knihy). V současné době nelze též syntéze řeči upřít stoupající uplatnění v zábavním průmyslu.
Nicméně nejužitečnějšími aplikacemi syntézy řeči jsou nepochybně aplikace pro handicapované lidi. Tyto aplikace mohou využívat lidé s různým zrakovým, sluchovým nebo hlasovým postižením. Zrakově postižení mohou používat systém TTS, který jim bude předčítat jakýkoliv text (např. ve formě čtečky obrazovky, screen readeru). Hlasově postižení mohou k vytváření „své“ řeči využívat svůj „osobní“ systém syntézy řeči. Lidé, kteří ztratili řeč například po mozkové mrtvici, mohou využít technologii založenou na modelu mluvicí hlavy pro výuku řeči. Sluchově postižení mohou upřednostnit poslouchání neutrální, srozumitelné a akusticky čisté syntetické řeči před zašuměnou, dynamickou přirozenou řečí. Lidé s menším postižením sluchu mohou dále současně využívat informace vizuální, získané odezíráním modelu mluvicí hlavy (zejména rtů), i akustické, obsažené ve vytvářeném řečovém signálu. Využití obou druhů informace může najít významné uplatnění i například k výuce znakové řeči sluchově nepostižených.
Syntéza české řeči
Pro potřeby českého TTS systému je na našem pracovišti vyvíjena moderní metoda vysoce kvalitní syntézy řeči. Systém je založen na signálovém přístupu, tzv. konkatenační syntéze řeči. Stručně řečeno, základním principem tohoto přístupu je reprezentace důležitých akustických událostí lidské řeči pomocí tzv. řečových jednotek či segmentů řeči. Výsledná řeč pak vzniká konkatenací, tj. řetězením vhodně vybraných řečových jednotek (metoda výběru jednotek). Výběr jednotek probíhá podle řady fonetických, prozodických a lingvistických kritérií.
Klíčem k úspěšné syntéze řeči metodou výběru jednotek je pečlivá příprava inventáře řečových jednotek – tj. segmentů řeči, s kterými syntetizér řeči pracuje. Protože kvalita výsledné syntetické řeči do značné míry závisí na bohatosti řečových segmentů obsažených v inventáři a přesnosti, s jakou jsou tyto segmenty extrahovány z referenčních promluv, používáme metodu automatické konstrukce inventáře na základě velkého množství reálných řečových promluv. Automatizace je důležitým aspektem našeho systému, neboť umožňuje v krátkém časovém horizontu (řádově dny) vytvořit velice precizní a akusticky a lingvisticky "bohaté" (je možné použít obrovské řečové korpusy - desítky hodin řeči, tj. tisíce až desetitisíce vět) inventáře akustických jednotek, které pak do značné míry přispívají k vysoké kvalitě vytvářené řeči. Jde o tzv. korpusově orientovanou konkatenační syntézu řeči, neboť právě řečový korpus (tj. sada reálných řečových promluv vyslovených jedním řečníkem, jehož hlasem pak syntetizér řeči mluví, a jejich reprezentace v ortografické, fonetické, spektrální či prozodické oblasti) je základním materiálem pro vytvoření inventáře řečových jednotek.
Na našem pracovišti také provádíme experimenty s modelovým přístupem k syntéze řeči, konkrétně se syntézou řeči s využitím skrytých Markovových modelů. Stručně řečeno, princip tohoto přístupu spočívá v modelování řečových jednotek pomocí statistických modelů. Výsledná řeč je pak generována zřetězeným modelem, který se skládá z modelů jednotlivých řečových jednotek. Ačkoliv i pro tento přístup je vhodné použít velké řečové korpusy, v tomto případě pro natrénování modelů (také tento přístup tak lze nazývat korpusově orientovaný), natrénované modely pak mohou být adaptovány na charakteristiky jiného hlasu. Tímto způsobem mohou být velmi rychle, bez potřeby pořízení velkého množství nahrávek nového hlasu, vytvářeny nové hlasy.
Významným kritériem kvality je přirozenost vytvářené syntetické řeči. Přirozenost řeči přitom do značné míry závisí na kvalitě modelování tzv. prozodických charakteristik řeči (zjednodušeně řečeno popisují vývoj melodie promluvy a hlasitost a trvání jednotlivých segmentů řeči). Pro náš systém jsme navrhli unikátní metodu modelování a výběru přirozených průběhů prozodických vlastností řeči opět extrahovaných z reálných řečových promluv.
Ukázky
-
Ukázka - čeština, metoda výběru jednotek, ženský hlas Petra (MP3 ke stažení)
Flash Player
-
Ukázka - čeština, metoda výběru jednotek, mužský hlas Jan (MP3 ke stažení)
Flash Player
-
Ukázka - čeština, metoda výběru jednotek, ženský hlas Radka (MP3 ke stažení)
Flash Player
-
Ukázka - čeština, metoda výběru jednotek, ženský hlas Iva (MP3 ke stažení)
Flash Player
-
Ukázka - čeština, metoda výběru jednotek, mužský hlas Standa (MP3 ke stažení)
Flash Player
-
Ukázka - slovenština, metoda výběru jednotek, ženský hlas Melánie (MP3 ke stažení)
Flash Player
-
Ukázka syntézy řeči s využitím skrytých Markovových modelů (Václav Havel) (MP3 ke stažení)
Flash Player
-
Ukázka použití TTS pro automatický dabing (AVI ke stažení)
Flash Player