Skip to content

Audio-visual speech synthesis

We are sorry, this page is in Czech language only at this moment. We are translating our website in these days.
Thank you for your patience

Výsledky výzkumu - Ukázky - Audiovizuální syntéza řeči

Syntéza řeči

Syntézou řeči rozumíme napodobení lidské promluvy a v tomto případě využitím počítače. Tuto problematika je obecně složena ze dvou částí: syntéza akustické řeči a syntéza vizuální řeči. Syntéza vizuální i akustické části řeči se často skrývá pod společným názvem "Mluvící hlava" nebo také ve zkratce TTAVS systém. Syntéza akustické části řeči je vytváření právě té složky řeči, kterou můžeme slyšet a vizuální syntéza je pak tedy plynulé vytváření viditelné složky řeči, tedy to co můžeme pozorovat na tváři mluvícího člověka. Obecné schéma můžeme vidět na obr.1. Vstupem tohoto systému jsou libovolná slova ve formě posloupnosti hlásek doplněná o prozodické informace. Výstupem je pak audio-vizální řeč ve formě obrazu a zvuku.

TTAVS systémObrázek: Obecné schéma systému Mluvící hlava.
(AVI (Xvid) ke stažení: virtuální dvojník)
Flash Player

Video: Po doplnění modelu hlavy, který vznikl počítačovou rekonstrukcí, dostáváme věrně vypadající animaci "virtuálního dvojníka".

HlavaObrázek: Foto reálné osoby a virtuální dvojník v počítači.

Prezentaci virtuálního dvojníka, vytvořeného týmem projektu MUSSLAP, zařadila Česká Televize i do pořadu České hlavy, který byl poprvé odvysílán 21.9.2005.

Vizuální řeč

Je dobře známo, že odezírání ze rtů je nutnou podmínkou porozumění řeči sluchově postižených lidí. Ti používají specifických tvarů tváře zejména pak rtů k získání informací o promluvě. Ale i pro normálně slyšící jedince pomáhá vizuální vjem k lepšímu porozumění. Již v roce 1935 pak Cotton uvedl, že vizuální řeč je důležitou částí vizuálního slyšení normálně slyšících i když v těchto případech je vždy dominantním akustický vjem. Proto můžeme konstatovat, že vizuální řeč je přirozenou částí verbální mezilidské komunikace.

Do vizuální řeči můžeme zahrnout všechny řečové projevy, které můžeme vnímat zrakem na tváři řečníka. Kompletní vizuální informace je zprostředkována tvarem a pohybem rtů, brady, zubů, tváří a krku. Vizuální a akustické projevy jsou z principu jejich vzniku synchronizované. Důkazem o přínosu vizuální řeči k celkovému porozumění jsou prováděné audio-vizuální studie vnímání řeči. Výsledek takové studie můžeme vidět např. na obr1. Studie ukazuje vjem audio-vizuální řeči za různých stupňů degradace akustické informace. Studie se provádí nejčastěji s plně slyšícími jedinci ve formě poslechových testů. Krajní hodnota v grafu pak ukazuje úspěšnost porozumění řeči pouze ze rtů, neboť porozumění akustické složce je díky šumu nulováno.

Studie audio-vizuálního vnímání řečiObrázek: Ukázková studie audio-vizuálního vnímání řeči.

Další důkazem toho, že každý člověk vnímá vizuální řeč je tzv. "McGurkův efekt". Pan Harry Mc Gurk jako první zpozoroval dvojí vnímání řeči na promluvě slabiky /ba/. Experiment spočíval ve spojení akustické promluvy slabiky /ba/ a vizuální promluvy slabiky /ga/. Spojení bylo samozřejmě synchronizované. Pozorovatel tedy slyšel /ba/ a na tváři řečníka viděl /ga/. Výsledkem vnímání této přirozeně nemožné řeči je slabika /da/. Toto dokazuje to, že lidský mozek nějak kombinuje oba vjemy obr2.

Multimodální vjem řečiObrázek: Multimodální vjem řeči.

Obrácené pořadí, tj. akustické /ga/ a vizuální /ba/ však nezpůsobuje vnímání /da/, ale jakési /bga/. To může být jednoduše vysvětleno velmi dobrým vizuálním vjemem hlásky /b/ (nezaměnitelné zavření úst). Existují i další kombinace, např. jedna z nejsilnějších kombinací je /ma/ + /ka/ = /na/.

Co je vizém

Při vytváření řeči člověk vytváří věty ze slov a slova z vhodných hlásek a při tom využívá artikulačních orgánů. Obecně můžeme říci, že každá česká hláska, tak jak ji známe, je vyrobena z nějaké konfigurace artikulačních orgánů. Z definice vizuální řeči pak budeme přihlížet jen na lidským okem viditelné části artikulačních orgánů. Toto je však je podmnožina všech možných artikulačních tvarů. Z tohoto důvodu je vizuální podoba některých českých hlásek podobná a právě skupinám těchto hlásek se říká vizémy. Známe tedy vizém /p,b,m/, který využívá stejné nastavení rtů nebo vizém pro sykavky /s,z,c/ atd.

Syntéza vizuální řeči - animace tváře

Prostředek ke ztvárnění vizuální řeči může být nějaká animace lidské hlavy či alespoň tváře, nazývaná také "Mluvící hlava".

Jedna z posledních verzí česky mluvící hlavy vyvíjené na Západočeské univerzitěObrázek: Jedna z posledních verzí české mluvící hlavy.

Existuje několik přístupů řešení tohoto problému. Jsou navřeny syntézy používající klasický záznam promluvy lidské hlavy, syntéza je pak provedena spojováním vhodných částí těchto záznamů podle libovolného textu. Výhodou je veliká realističnost, nevýhodou pak velmi omezené ovládání animace, jako např. otočení hlavy, přiblížení, doplňování emocí apod. Dalším přístupem jsou 3D mluvicí hlavy. Jde o pravé animace využívající nějaký model tváře, popř. model celé hlavy a očí, zubů, jazyka atd. Aby model mohl vytvářet vizuální řeč, musí být nějak řízen. Nejčastěji se setkáváme s tzv. parametrickým řízením. V tomto případě jde o to, že model je rozdělen na jednotlivé části, které podléhají určitému parametru. Hodnota tohoto parametru pak určuje míru změny (deformace) dané části. Např. můžeme uvést řízení pohybu levého koutku rtů, kdy jím můžeme posouvat ve všech třech směrech. Názor na to, jak parametrizace má vypadat však není ucelen. Existují řízení tváře velmi blízké anatomické podstatě tváře, modelování kostí, svalů a pokožky a naproti tomu více praktické parametrizace, které jsou vhodně přizpůsobené animaci řeči. I známí standard kódování videa MPEG-4, popisující obecně kompresi audio-vizuálních dat, obsahuje parametrizaci tváře.

Vizuální syntéza češtiny.

Syntéza vizuální podoby češtiny na Západočeské univerzitě má relativně krátkou historii. První zmínky nalezneme v roce 2002, kdy vznikla první verze mluvící hlavy. S tímto zrozením souviselo hodně dílčích problémů. První věcí bylo zaznamenání audio-vizuální české řeči, dále pak následovalo zpracování záznamu, 3D rekonstrukce dat, výběr řečových jednotek, jejich reprezentace a uložení, návrh animace a modelu a s tím spojená parametrizace a synchronizace s akustickým signálem až po vlastní vykreslování.

Historicky první model mluvicí hlavyAudio-vizuální záznam řeči
Obrázek: Historicky první model mluvicí hlavy, vpravo pak audio-vizuální záznam řeči.

Celý proces můžeme jednoduše shrnout do následujícího schéma, kde blok TTS představuje syntézu akustického signálu (to co slyšíme), blok syntéza udává změny, které provede animace tváře.

Schéma procesu syntézy vizuální řečiObrázek: Podrobné schéma procesu syntézy vizuální řeči.

Další vývoj směřoval k doplnění dalších důležitých artikulačních částí, které první model neobsahoval. Jedná se o model jazyka a zubů. Tyto části hrají důležitou roli při vnímání a vyhodnocování hlásek, především pak hlásek /f/,/s/,/l/ apod., kde se zuby a jazyk přímo podílejí na vytváření konkrétního vizému.

Vytváření modelu tváře pro konkrétního člověka.

Jedním z cílů je také přizpůsobení modelu tváře konkrétnímu člověku. Zde v prvé řadě nutné řešit tvarové změny modelu podle dané tváře a dále pak věrně zachytit i barvu pokožky.

Můžeme zde např. popsat fotometrickou 3D rekonstrukci lidské tváře. Rekonstrukcí je myšleno získání a změření geometrické polohy trojrozměrných bodů na povrchu tváře. Tyto body pak v počítači představují povrch lidské tváře. Ke každému bodu mohou být přiřazeny informace o barvě povrchu tváře tzv. textura. V tomto případě pak získáme 3D texturovaný povrch, který realisticky zachycuje tvář snímaného člověka.

Metoda rekonstrukce

(AVI (Xvid) ke stažení: paprsek)
Flash Player

Video: Jako jeden z možných postupů 3D rekonstrukce je zvolen stereo-záznam tváře a pomocný paprsek (tzv. rekonstrukce 3D tvaru pomocí proužkového osvětlení). Stereo-záznam je časová sekvence snímků synchronizována s postupným posunem paprsku po povrchu tváře.

Stereo záznamObrázek: Stereo-záznam. Zde vidíme dva pohledy na tvář obsažené v jednom obraze a zachycené jednou kamerou v jednom okamžiku.

Na tvář je promítán úzký paprsek světla, který je v digitalizovaném obraze detekován a dále zpracováván.

Vertikální paprsek osvětlující povrch tvářeObrázek: Vertikální paprsek osvětlující povrch tváře získaný v jednou časovém okamžiku. Tento paprsek nám pomůže při hledání korespondencí při stereo-vidění.

Snímací soustava

Snímací soustava se skládala z jedné kamery, soustavy zrcadel, zdroje paprsku a kalibrační desky. Rozmístění částí soustavy vidíme na obr.8. Soustava čtyř zrcadel nám umožní pohled na tvář ze dvou stran složit do jednoho pohledu kamery.

Schéma snímací soustavyObrázek: Schéma snímací soustavy. Kamerou C je s pomocí soustavy zrcadel SM získán levý LV a pravý RV pohled na snímaný objekt. Na snímaný objekt je zároveň promítán paprsek R ze zdroje RS.

Lineární kalibrace kamery z množiny známých bodů

Pro kalibraci je použito kalibrační desky. Desky představují dvě na sebe kolmé části rovin. Obě části jsou pokryty kalibračními body. Vzniklá síť bodů má předem zvolené měřítko. Desky byly umístěny tak, aby byly viděny oběma pohledy. Kalibrační desku zobrazenou kamerou přes soustavu zrcadel vidíme na obr.9.

Kalibrační desky a body použité pro kalibraciObrázek: Kalibrační desky a body použité pro kalibraci. Na pravém obrázku vidíme body použité pro kalibraci.

Pro kalibraci je možné nalézt např. 100 kalibračních bodů v každém pohledu. Při znalosti skutečné geometrické 3D poloze těchto bodů můžeme provést kalibraci kamery pro oba pohledy. Takto kalibrovaná kamera nám umožňuje 3D rekonstrukci zmíněných proužků.

Zpracování digitalizovaného obrazu

K dosažení dobrého výsledku je potřeba nalézt v každém pohledu a v každém sekvenčním snímku pomocný paprsek. V nejjednodušším případě můžeme použít zpracování obrazu pomocí metody prahování. Na obr.10 vidíme takto zpracovaný obraz.

Obrazová rovina zpracovaná metodou prahováníObrázek: Obrazová rovina zpracovaná metodou prahování.

Epipolární geometrie

Pro 3D stereo rekonstrukci je potřeba znát sobě odpovídající body. Jde tedy o nalezení tzv. korespondencí. Zde s výhodou je využit pomocný paprsek. Tento paprsek nám jednoznačně určuje sobě navzájem korespondující body z levého a pravého pohledu. Umíme tedy sestrojit pro každý obrazový bod z levého pohledu epipolární přímku v pravém pohledu.

Epipolární přímky pravého pohledu pro kalibrační body levého pohleduObrázek: Epipolární přímky pravého pohledu pro kalibrační body levého pohledu.

Nyní umíme nalézt pro každý snímek ze zaznamenané sekvence sobě korespondující obrazové body, které jsou již vhodné pro získání 3D souřadnic.

3D rekonstrukce

Pro každý snímek máme množinu korespondujících bodů získáme 3D souřadnice těchto bodů. Postupně toto provedeme pro každý snímek ze zaznamenané sekvence. Pro každou polohu paprsku získáme část 3D tváře (jakýsi plátek). Vykreslíme-li získané body z celé sekvence, vytvoří se nám 3D povrch tváře. Se znalostí souřadnic bodů v levém či pravém pohledu můžeme přiřadit každému bodu informaci o barvě textury. Takto získané body tvoří síť kopírující povrch tváře.

Vykreslení všech zrekonstruovaných 3D bodůKaždému bodu je přiřazena informace o barvě textury
Obrázek: Vykreslení všech zrekonstruovaných 3D bodů z čelního a bočního pohledu. Každému bodu je přiřazena informace o barvě textury.

3D povrch se v počítačové grafice nejčastěji modeluje pomocí trojúhelníků. Pro získání povrchu je síť bodů zbytečně hustá. Výsledek vhodného výběru bodů a spočtení všech trojúhelníků můžeme uchovávat např. podle specifikace VRML (nástroj pro modelování virtuální reality na internetu). Získaný model tváře může být dále doplněn o model zubů, jazyka a očí popř. zbytku hlavy a krku a někdy i těla. To je v případě syntézy znakové řeči.

Popis povrchu tvářeObrázek: Popis povrchu tváře, zubů a jazyka pomocí trojúhelníkové sítě s nanešenou texturou.

Mále-li získaný model tváře, můžeme se pokusit o jeho rozpohybování. Tato důležitá část audio-vizuální syntézy obsahuje stále spoustu problémů, jde hlavně o animaci deformací pokožky.

Animace modelu tváře či celé hlavy.

Animace využívá zvolenou parametrizaci, která zachycuje místa důležitých částí povrchu tváře. Využívá se tzv. řídících bodů. Změnou hodnot parametrů se mění poloha řídícího bodu. Změnou polohy řídícího bodu pak je ovlivňována trojúhelníková síť. Oblast působnosti je dána v našem případě deformační funkcí a 3Dspline funkcemi. Na obr14. můžeme vidět řídící body a také oblasti působnosti na povrchu tváře a jazyka.

Řídící body a hlavní oblasti působěníObrázek: Řídící body a hlavní oblasti působení, dobrá simulace pnutí pokožky.

Rozmístění řídících bodů je provedeno s podmínkou snadného změření pozic, ale také částečně respektuje podpokožkové rozmístění svalů a jejich úponů. Řídící body jsou vhodné i pro animaci jazyka jež je z podstaty pouze sval. Další vývoj také směruje na kvalitní záznam vizuální řeči. Zde je prioritním cílem získat co nejvíce přesných dat, které zachycují důležité artikulační pohyby.

Záznam vizuální řeči.

Problém záznamu vizuální řeči spočívá v přesném zachycení pohybů tváře. Nejvíce informativní je tvar rtů, dále pak pohyb tváří, brady a krku. Při řešení jsme použili metodu sledování bodů pevně spojených s tváří. Pro tento účel používáme malé půlkulovité značky o průměru 3 a 4mm. Kontura rtů je prozatím aproximována 8 body, dva body jsou na tvářích a po jednom na bradě a krku, obr.13. Úkolem záznamu je učení pozice těchto značek v každém okamžiku promluvy. Pozice je dána 3D souřadnicemi a pro každých 20 či 40ms máme jeden údaj. Proces získání 3D informace je velmi podobný postupu popsaném v odstavci Vytváření modelu tváře pro konkrétního člověka.

Záznam pohybů rtůObrázek: Záznam pohybů rtů pomocí systému sledování značek.

Oba pohledy získané soustavou zrcadel jsou podrobeny metodám zpracování digitalizovaného obrazu.

(AVI (Xvid) ke stažení: značky)
Flash Player

Video: Ze zaznamenaných značek je možné určit pozici a tvar jednotlivých vizémů v promluvě a z nich je možné určit např. výšku a šířku rtů, nafouknutí tváří apod.

Vývoj vizuální řeči v časeObrázek: Vývoj vizuální řeči v čase, červená: šířka rtů, modrá: zvednutí horního rtu, zelená: posunutí dolního rtu a vyšpulení rtů.

Záznam pohybů jazyka není v tomto návrhu možný. Jeho tvar, tj. šířka, poloha špičky a hřbetu je určena podle pravidel a doplněna ke každému vizému. Jinou možností je však použití přesných zařízeních jako ke snímkování magnetickou resonancí (MRI) nebo pomocí elektrod palatografu apod.

Dosažené výsledky

Současným výsledkem je velmi realistická 3D animace vizuální řeči, ale i vizuálních emocí. Ohodnocení srozumitelnosti ověřují provedené studie. Současná srozumitelnost naší animace vizuální řeči je 61%. Výsledku bylo dosaženo s testováním pouze odezíráním krátkých slov a detekcí klíčových hlásek.

Ukázka animace některých českých hlásekObrázek: Ukázka animace některých českých hlásek.
Animace jazykaObrázek: Animace jazyka, artikulace hřbetu, špičky a šířky.
Animace výrazů tvářeObrázek: Animace výrazů tváře: a) neutrální, b) štěstí, c) rozzlobení, d) překvapení, e) strach, f) smutek, g) znechucení a h) zamyšlenost.

Aplikace audiovizuální syntézy

komunikace člověka s počítačem

Obecně jde o zařazení syntézy audio-vizuální řeči do procesu komunikace člověka s počítačem mluvenou řečí. Cílem je zlepšení porozumění řeči a to obzvláště na rušných místech jako je nádraží, letiště apod., ale i zlidštění a zpříjemnění dialogu včetně přenosu neverbální informací jako jsou např. různá emoce či gesta včetně znakové řeči. Výsledkem je systém, který poskytuje komplexní verbální i neverbální dialog. Aplikace audio-vizuální syntézy pak nacházíme především v informačních systémech, např. Mluvící hlava "August" vyvíjená ve Švédsku. Systém je umístěný v centru Stockholmu a poskytuje potřebné turistické informace.

Aplikace české mluvicí hlavyObrázek: Aplikace české mluvicí hlavy, čtení zpráv z internetu.

Systémy pro nedoslýchavé a neslyšící

Systémy pro nedoslýchavé a neslyšící slouží k výuce řeči. Animace "mluvící hlavy" je použita při trénování vnímání a produkce řeči u sluchově postižených dětí a také pro rozšiřování slovní zásoby. Z praxe je již vidět, že tyto systémy mohou být prospěšnými, obr.21 vlevo. Další aplikací vizuální syntézy je v oblasti komunikace sluchově postižených. Animace tvoří vizuální podporu při používání zvukových telekomunikačních zařízeních, která je postačující pro odezírání,obr.21 vpravo.

Mluvící hlava jako pomocníkObrázek: Mluvící hlava jako pomocník, který pomáhá neslyšícím dětem, vpravo pak aplikace mluvící hlavy při komunikaci suchově postižených pomocí telefonu (projekt Baldi, vpravo projekt TeleFace)