Skip to content

Speech corpus creation

We are sorry, this page is in Czech language only at this moment. We are translating our website in these days.
Thank you for your patience

Pod pojmem řečový korpus rozumíme jakýkoli soubor řečových záznamů doplněný tzv. anotací, tj. symbolickou reprezentací řeči, kdy se označuje, jak byla zaznamenaná promluva vyslovena. To znamená, že při anotaci je třeba označit například všechna zadrhnutí v řeči, různé neřečové události (např. nádech, zakašlání, mlaskání, vzdech), a také nejrůznější šumy na pozadí (šustění papíru, skřípění židle a podobně). Přepis řeči, který takto vznikne, nazýváme transkripce.

1

Na katedře kybernetiky ZČU byla do současné doby vytvořena celá řada řečových korpusů potřebných pro vývoj systémů rozpoznávání řeči, rozpoznávání řečníka, syntézy řeči a audiovizuálního rozpoznávání řeči. Některé z těchto korpusů jsou dostupné prostřednictvím LDC (Linguistic Data Consortium), což je jeden z největších vydavatelů korpusů se sídlem na University of Pennsylvania v USA

  • Voice of America (VOA) Czech Broadcast News je korpus tvořený nahrávkami českého vysílání stanice Voice of America z období mezi 9. únorem a 28. květnem 1999. Každá nahrávka obsahuje 30 minutový zpravodajský pořad. Nahrávky byly pořizovány v Linguistic Data Consortium v USA, jejich anotace byla vytvořena na katedře kybernetiky Západočeské univerzity v Plzni. Řečové nahrávky i transkripce tohoto korpusu jsou dostupné prostřednictvím LDC.
  • Czech Broadcast News je korpus, který je tvořen nahrávkami vysílání zpravodajských relací některých českých televizních (ČT1, Prima) a rozhlasových (Radiožurnál, Praha, Vltava) stanic z období mezi 1. únorem a 22. dubnem 2000. Nahrávky i jejich anotace byly pořízeny na Katedře kybernetiky Západočeské univerzity v Plzni. Řečové nahrávky i transkripce tohoto korpusu jsou dostupné prostřednictvím LDC.
  • UWB_S01 – Czech Read Speech Corpus je korpus čtené řeči obsahující nahrávky od 100 řečníků (64 mužů, 36 žen). Každý řečník četl 150 foneticky vyvážených vět. Texty ke čtení byly vybírány z článků tří českých deníků (Lidové noviny, Mladá fronta Dnes a Právo). Nahrávky byly pořizovány v běžném kancelářském prostředí dvěma mikrofony současně: náhlavním mikrofonem, který umožnil získat velmi kvalitní nahrávky, a stolním mikrofonem, který spolu s vyslovenou promluvou zaznamenával i okolní šum. Nahrávání probíhalo na katedře kybernetiky Západočeské univerzity v Plzni, kde byla též vytvořena anotace nahrávek.
  • Czech Shoah Corpus je korpus spontánní řeči. Obsahuje nahrávky výpovědí 346 lidí (150 mužů, 196 žen), kteří přežili holocaust. Celkově jde o více než 100 hodin řeči. Anotace nahrávek byla vytvořena na katedře kybernetiky Západočeské univerzity v Plzni.