Audio-visual speech synthesis
Thank you for your patience
Výsledky výzkumu - Ukázky - Audiovizuální syntéza řeči
Obsah stránky
Syntéza řeči
Syntézou řeči rozumíme napodobení lidské promluvy a v tomto případě využitím počítače. Tuto problematika je obecně složena ze dvou částí: syntéza akustické řeči a syntéza vizuální řeči. Syntéza vizuální i akustické části řeči se často skrývá pod společným názvem "Mluvící hlava" nebo také ve zkratce TTAVS systém. Syntéza akustické části řeči je vytváření právě té složky řeči, kterou můžeme slyšet a vizuální syntéza je pak tedy plynulé vytváření viditelné složky řeči, tedy to co můžeme pozorovat na tváři mluvícího člověka. Obecné schéma můžeme vidět na obr.1. Vstupem tohoto systému jsou libovolná slova ve formě posloupnosti hlásek doplněná o prozodické informace. Výstupem je pak audio-vizální řeč ve formě obrazu a zvuku.
Flash Player
Video: Po doplnění modelu hlavy, který vznikl počítačovou rekonstrukcí, dostáváme věrně vypadající animaci "virtuálního dvojníka".
Prezentaci virtuálního dvojníka, vytvořeného týmem projektu MUSSLAP, zařadila Česká Televize i do pořadu České hlavy, který byl poprvé odvysílán 21.9.2005.
Vizuální řeč
Je dobře známo, že odezírání ze rtů je nutnou podmínkou porozumění řeči sluchově postižených lidí. Ti používají specifických tvarů tváře zejména pak rtů k získání informací o promluvě. Ale i pro normálně slyšící jedince pomáhá vizuální vjem k lepšímu porozumění. Již v roce 1935 pak Cotton uvedl, že vizuální řeč je důležitou částí vizuálního slyšení normálně slyšících i když v těchto případech je vždy dominantním akustický vjem. Proto můžeme konstatovat, že vizuální řeč je přirozenou částí verbální mezilidské komunikace.
Do vizuální řeči můžeme zahrnout všechny řečové projevy, které můžeme vnímat zrakem na tváři řečníka. Kompletní vizuální informace je zprostředkována tvarem a pohybem rtů, brady, zubů, tváří a krku. Vizuální a akustické projevy jsou z principu jejich vzniku synchronizované. Důkazem o přínosu vizuální řeči k celkovému porozumění jsou prováděné audio-vizuální studie vnímání řeči. Výsledek takové studie můžeme vidět např. na obr1. Studie ukazuje vjem audio-vizuální řeči za různých stupňů degradace akustické informace. Studie se provádí nejčastěji s plně slyšícími jedinci ve formě poslechových testů. Krajní hodnota v grafu pak ukazuje úspěšnost porozumění řeči pouze ze rtů, neboť porozumění akustické složce je díky šumu nulováno.
Další důkazem toho, že každý člověk vnímá vizuální řeč je tzv. "McGurkův efekt". Pan Harry Mc Gurk jako první zpozoroval dvojí vnímání řeči na promluvě slabiky /ba/. Experiment spočíval ve spojení akustické promluvy slabiky /ba/ a vizuální promluvy slabiky /ga/. Spojení bylo samozřejmě synchronizované. Pozorovatel tedy slyšel /ba/ a na tváři řečníka viděl /ga/. Výsledkem vnímání této přirozeně nemožné řeči je slabika /da/. Toto dokazuje to, že lidský mozek nějak kombinuje oba vjemy obr2.
Obrácené pořadí, tj. akustické /ga/ a vizuální /ba/ však nezpůsobuje vnímání /da/, ale jakési /bga/. To může být jednoduše vysvětleno velmi dobrým vizuálním vjemem hlásky /b/ (nezaměnitelné zavření úst). Existují i další kombinace, např. jedna z nejsilnějších kombinací je /ma/ + /ka/ = /na/.
Co je vizém
Při vytváření řeči člověk vytváří věty ze slov a slova z vhodných hlásek a při tom využívá artikulačních orgánů. Obecně můžeme říci, že každá česká hláska, tak jak ji známe, je vyrobena z nějaké konfigurace artikulačních orgánů. Z definice vizuální řeči pak budeme přihlížet jen na lidským okem viditelné části artikulačních orgánů. Toto je však je podmnožina všech možných artikulačních tvarů. Z tohoto důvodu je vizuální podoba některých českých hlásek podobná a právě skupinám těchto hlásek se říká vizémy. Známe tedy vizém /p,b,m/, který využívá stejné nastavení rtů nebo vizém pro sykavky /s,z,c/ atd.
Syntéza vizuální řeči - animace tváře
Prostředek ke ztvárnění vizuální řeči může být nějaká animace lidské hlavy či alespoň tváře, nazývaná také "Mluvící hlava".
Existuje několik přístupů řešení tohoto problému. Jsou navřeny syntézy používající klasický záznam promluvy lidské hlavy, syntéza je pak provedena spojováním vhodných částí těchto záznamů podle libovolného textu. Výhodou je veliká realističnost, nevýhodou pak velmi omezené ovládání animace, jako např. otočení hlavy, přiblížení, doplňování emocí apod. Dalším přístupem jsou 3D mluvicí hlavy. Jde o pravé animace využívající nějaký model tváře, popř. model celé hlavy a očí, zubů, jazyka atd. Aby model mohl vytvářet vizuální řeč, musí být nějak řízen. Nejčastěji se setkáváme s tzv. parametrickým řízením. V tomto případě jde o to, že model je rozdělen na jednotlivé části, které podléhají určitému parametru. Hodnota tohoto parametru pak určuje míru změny (deformace) dané části. Např. můžeme uvést řízení pohybu levého koutku rtů, kdy jím můžeme posouvat ve všech třech směrech. Názor na to, jak parametrizace má vypadat však není ucelen. Existují řízení tváře velmi blízké anatomické podstatě tváře, modelování kostí, svalů a pokožky a naproti tomu více praktické parametrizace, které jsou vhodně přizpůsobené animaci řeči. I známí standard kódování videa MPEG-4, popisující obecně kompresi audio-vizuálních dat, obsahuje parametrizaci tváře.
Vizuální syntéza češtiny.
Syntéza vizuální podoby češtiny na Západočeské univerzitě má relativně krátkou historii. První zmínky nalezneme v roce 2002, kdy vznikla první verze mluvící hlavy. S tímto zrozením souviselo hodně dílčích problémů. První věcí bylo zaznamenání audio-vizuální české řeči, dále pak následovalo zpracování záznamu, 3D rekonstrukce dat, výběr řečových jednotek, jejich reprezentace a uložení, návrh animace a modelu a s tím spojená parametrizace a synchronizace s akustickým signálem až po vlastní vykreslování.
Obrázek: Historicky první model mluvicí hlavy, vpravo pak audio-vizuální záznam řeči.
Celý proces můžeme jednoduše shrnout do následujícího schéma, kde blok TTS představuje syntézu akustického signálu (to co slyšíme), blok syntéza udává změny, které provede animace tváře.
Další vývoj směřoval k doplnění dalších důležitých artikulačních částí, které první model neobsahoval. Jedná se o model jazyka a zubů. Tyto části hrají důležitou roli při vnímání a vyhodnocování hlásek, především pak hlásek /f/,/s/,/l/ apod., kde se zuby a jazyk přímo podílejí na vytváření konkrétního vizému.
Vytváření modelu tváře pro konkrétního člověka.
Jedním z cílů je také přizpůsobení modelu tváře konkrétnímu člověku. Zde v prvé řadě nutné řešit tvarové změny modelu podle dané tváře a dále pak věrně zachytit i barvu pokožky.
Můžeme zde např. popsat fotometrickou 3D rekonstrukci lidské tváře. Rekonstrukcí je myšleno získání a změření geometrické polohy trojrozměrných bodů na povrchu tváře. Tyto body pak v počítači představují povrch lidské tváře. Ke každému bodu mohou být přiřazeny informace o barvě povrchu tváře tzv. textura. V tomto případě pak získáme 3D texturovaný povrch, který realisticky zachycuje tvář snímaného člověka.
Metoda rekonstrukce
Flash Player
Video: Jako jeden z možných postupů 3D rekonstrukce je zvolen stereo-záznam tváře a pomocný paprsek (tzv. rekonstrukce 3D tvaru pomocí proužkového osvětlení). Stereo-záznam je časová sekvence snímků synchronizována s postupným posunem paprsku po povrchu tváře.
Na tvář je promítán úzký paprsek světla, který je v digitalizovaném obraze detekován a dále zpracováván.
Snímací soustava
Snímací soustava se skládala z jedné kamery, soustavy zrcadel, zdroje paprsku a kalibrační desky. Rozmístění částí soustavy vidíme na obr.8. Soustava čtyř zrcadel nám umožní pohled na tvář ze dvou stran složit do jednoho pohledu kamery.
Lineární kalibrace kamery z množiny známých bodů
Pro kalibraci je použito kalibrační desky. Desky představují dvě na sebe kolmé části rovin. Obě části jsou pokryty kalibračními body. Vzniklá síť bodů má předem zvolené měřítko. Desky byly umístěny tak, aby byly viděny oběma pohledy. Kalibrační desku zobrazenou kamerou přes soustavu zrcadel vidíme na obr.9.
Pro kalibraci je možné nalézt např. 100 kalibračních bodů v každém pohledu. Při znalosti skutečné geometrické 3D poloze těchto bodů můžeme provést kalibraci kamery pro oba pohledy. Takto kalibrovaná kamera nám umožňuje 3D rekonstrukci zmíněných proužků.
Zpracování digitalizovaného obrazu
K dosažení dobrého výsledku je potřeba nalézt v každém pohledu a v každém sekvenčním snímku pomocný paprsek. V nejjednodušším případě můžeme použít zpracování obrazu pomocí metody prahování. Na obr.10 vidíme takto zpracovaný obraz.
Epipolární geometrie
Pro 3D stereo rekonstrukci je potřeba znát sobě odpovídající body. Jde tedy o nalezení tzv. korespondencí. Zde s výhodou je využit pomocný paprsek. Tento paprsek nám jednoznačně určuje sobě navzájem korespondující body z levého a pravého pohledu. Umíme tedy sestrojit pro každý obrazový bod z levého pohledu epipolární přímku v pravém pohledu.
Nyní umíme nalézt pro každý snímek ze zaznamenané sekvence sobě korespondující obrazové body, které jsou již vhodné pro získání 3D souřadnic.
3D rekonstrukce
Pro každý snímek máme množinu korespondujících bodů získáme 3D souřadnice těchto bodů. Postupně toto provedeme pro každý snímek ze zaznamenané sekvence. Pro každou polohu paprsku získáme část 3D tváře (jakýsi plátek). Vykreslíme-li získané body z celé sekvence, vytvoří se nám 3D povrch tváře. Se znalostí souřadnic bodů v levém či pravém pohledu můžeme přiřadit každému bodu informaci o barvě textury. Takto získané body tvoří síť kopírující povrch tváře.
Obrázek: Vykreslení všech zrekonstruovaných 3D bodů z čelního a bočního pohledu. Každému bodu je přiřazena informace o barvě textury.
3D povrch se v počítačové grafice nejčastěji modeluje pomocí trojúhelníků. Pro získání povrchu je síť bodů zbytečně hustá. Výsledek vhodného výběru bodů a spočtení všech trojúhelníků můžeme uchovávat např. podle specifikace VRML (nástroj pro modelování virtuální reality na internetu). Získaný model tváře může být dále doplněn o model zubů, jazyka a očí popř. zbytku hlavy a krku a někdy i těla. To je v případě syntézy znakové řeči.
Mále-li získaný model tváře, můžeme se pokusit o jeho rozpohybování. Tato důležitá část audio-vizuální syntézy obsahuje stále spoustu problémů, jde hlavně o animaci deformací pokožky.
Animace modelu tváře či celé hlavy.
Animace využívá zvolenou parametrizaci, která zachycuje místa důležitých částí povrchu tváře. Využívá se tzv. řídících bodů. Změnou hodnot parametrů se mění poloha řídícího bodu. Změnou polohy řídícího bodu pak je ovlivňována trojúhelníková síť. Oblast působnosti je dána v našem případě deformační funkcí a 3Dspline funkcemi. Na obr14. můžeme vidět řídící body a také oblasti působnosti na povrchu tváře a jazyka.
Rozmístění řídících bodů je provedeno s podmínkou snadného změření pozic, ale také částečně respektuje podpokožkové rozmístění svalů a jejich úponů. Řídící body jsou vhodné i pro animaci jazyka jež je z podstaty pouze sval. Další vývoj také směruje na kvalitní záznam vizuální řeči. Zde je prioritním cílem získat co nejvíce přesných dat, které zachycují důležité artikulační pohyby.
Záznam vizuální řeči.
Problém záznamu vizuální řeči spočívá v přesném zachycení pohybů tváře. Nejvíce informativní je tvar rtů, dále pak pohyb tváří, brady a krku. Při řešení jsme použili metodu sledování bodů pevně spojených s tváří. Pro tento účel používáme malé půlkulovité značky o průměru 3 a 4mm. Kontura rtů je prozatím aproximována 8 body, dva body jsou na tvářích a po jednom na bradě a krku, obr.13. Úkolem záznamu je učení pozice těchto značek v každém okamžiku promluvy. Pozice je dána 3D souřadnicemi a pro každých 20 či 40ms máme jeden údaj. Proces získání 3D informace je velmi podobný postupu popsaném v odstavci Vytváření modelu tváře pro konkrétního člověka.
Oba pohledy získané soustavou zrcadel jsou podrobeny metodám zpracování digitalizovaného obrazu.
Flash Player
Video: Ze zaznamenaných značek je možné určit pozici a tvar jednotlivých vizémů v promluvě a z nich je možné určit např. výšku a šířku rtů, nafouknutí tváří apod.
Záznam pohybů jazyka není v tomto návrhu možný. Jeho tvar, tj. šířka, poloha špičky a hřbetu je určena podle pravidel a doplněna ke každému vizému. Jinou možností je však použití přesných zařízeních jako ke snímkování magnetickou resonancí (MRI) nebo pomocí elektrod palatografu apod.
Dosažené výsledky
Současným výsledkem je velmi realistická 3D animace vizuální řeči, ale i vizuálních emocí. Ohodnocení srozumitelnosti ověřují provedené studie. Současná srozumitelnost naší animace vizuální řeči je 61%. Výsledku bylo dosaženo s testováním pouze odezíráním krátkých slov a detekcí klíčových hlásek.
Aplikace audiovizuální syntézy
komunikace člověka s počítačem
Obecně jde o zařazení syntézy audio-vizuální řeči do procesu komunikace člověka s počítačem mluvenou řečí. Cílem je zlepšení porozumění řeči a to obzvláště na rušných místech jako je nádraží, letiště apod., ale i zlidštění a zpříjemnění dialogu včetně přenosu neverbální informací jako jsou např. různá emoce či gesta včetně znakové řeči. Výsledkem je systém, který poskytuje komplexní verbální i neverbální dialog. Aplikace audio-vizuální syntézy pak nacházíme především v informačních systémech, např. Mluvící hlava "August" vyvíjená ve Švédsku. Systém je umístěný v centru Stockholmu a poskytuje potřebné turistické informace.
Systémy pro nedoslýchavé a neslyšící
Systémy pro nedoslýchavé a neslyšící slouží k výuce řeči. Animace "mluvící hlavy" je použita při trénování vnímání a produkce řeči u sluchově postižených dětí a také pro rozšiřování slovní zásoby. Z praxe je již vidět, že tyto systémy mohou být prospěšnými, obr.21 vlevo. Další aplikací vizuální syntézy je v oblasti komunikace sluchově postižených. Animace tvoří vizuální podporu při používání zvukových telekomunikačních zařízeních, která je postačující pro odezírání,obr.21 vpravo.