Přejít na obsah

Současné granty

Granty

Využití vícemodálních Transformerů pro přirozenější hlasový dialog

Cílem projektu je výzkum přirozenějších hlasových dialogových systémů založených na Transformerech. Vzhledem k tomu, že Transformery lze použít v úlohách typu sequence-to-sequence, běžně se využívají v úlohách porozumění přirozenému jazyku a generování přirozeného jazyka. V projektu se chceme zaměřit na případy, kdy vstupem nebo výstupem neuronové sítě je řeč. K převodu řeči na sémantickou reprezentaci nebo dialogové záměry využijeme rozpoznávač řeči jako černou skříňku, ale plánujeme vyvinout metody a přístupy ke zpracování řečových mřížek v obecném Transformeru nebo rekurentních neuronových sítích. Inverzní proces generování řeči ze záměrů bude využívat předtrénované modely Transformerů pro generování jazyka a nedávné architektury syntézy řeči založené na DNN. Řízení dialogu bude využívat neurální attention mechanismy ke sledování stavu dialogu a ke generování konzistentních výstupů v neformálním nebo konverzačním stylu. Pro náročný úkol syntézy řeči v daném řečovém stylu plánujeme vytvořit vlastní korpus konverzační řeči.


Vedoucí: Doc. Ing. Matoušek Jindřich, Ph.D.
Zadavatel: GAČR GA22-27800S
Období řešení:2022 - 2024