Přejít na obsah

Vyhledávání informací

Úkolem automatického vyhledávání informací (information retrieval) je předložit uživateli seznam dokumentů (seřazený podle klesající relevance), které co nejlépe uspokojí jeho informační potřebu vyjádřenou pomocí dotazu zadaného v přirozeném jazyce. V ideálním případě tedy algoritmy vyhledávání informací dokáží správně sémanticky interpretovat jak obsah všech dokumentů v dané množině, tak samozřejmě i zadaného dotazu. V praxi dosud této mety dosaženo nebylo, přesto i dílčí úspěchy na tomto poli výrazně pomáhají uživatelům najít potřebné informace. Techniky, které jsou v současné době u nás i ve světě používány, sémantický obsah dokumentu i dotazu aproximují statistickou analýzou slovních n-gramů, které se v daném dokumentu či dotazu vyskytují. Tímto způsobem dokážeme určit míru podobnosti mezi dokumenty a dotazem a tuto podobnost použít jako měřítko relevance. Mírnou modifikací těchto algoritmů řešíme i úlohy kategorizace dokumentů, sdružování podobných dokumentů a segmentace souvislého textu. Je třeba mít na zřeteli, že definice pojmu „dokument“ je pro jednotlivé úlohy rozdílná – může jít o celá literární díla, webové stránky, novinové články až po nejmenší jednotky jako odstavec a samostatná věta.

Naší specializací je vyhledávání informací v řečových datech, kdy je úloha ztížena přítomností chyb v rozpoznaném textu. Snažíme se proto co nejlépe využít toho, že máme z rozpoznávače k dispozici nejen nejlepší (nejpravděpodobnější) přepis daného zvukového záznamu, ale celou síť (mřížku, lattice) nejpravděpodobnějších hypotéz a to i s ohodnocením jejich důvěryhodnosti.

Speciální podúlohou vyhledávání informací v řeči je vyhledávání jednotlivých slov či krátkých frází. Tuto úlohu se nám již podařilo dotáhnout do fáze praktické aplikace, která umožňuje uživatelům vyhledávat a přehrávat části záznamů obsahující daná klíčová slova v česky mluvené části rozsáhlého audiovizuálního archivu svědků Holokaustu (cca 1000 hodin – více o archivu na http://dornsife.usc.edu/vhi). Vzhledem k tomu, že aplikace dokáže vyhledávat ve slovní i ve fonetické reprezentaci jednotlivých promluv, lze najít i slova neobsažená ve slovníku rozpoznávače. Tato aplikace se v současné době připravuje ke zprovoznění v Centru vizuální historie Malach (http://ufal.mff.cuni.cz/cvhm/).

Projekt Malach

Mnohé závěry výzkumů však naznačují, že zdaleka nejlepších výsledků při vyhledávání lze dosáhnout, pokud jsou data v daném archivu již předem označena klíčovými slovy vybíranými z vhodně navrženého řízeného slovníku (tzv. tezauru), často hierarchicky strukturovaného.

Tree_cs

Přípravou či výběrem vhodného tezauru spolu s návrhem metod pro asistovanou katalogizaci (přiřazení klíčových slov jednotlivým dokumentům) se v současné době zabýváme mimo jiné ve společném projektu s Českou televizí.

Špičkové techniky rozpoznávání a syntézy řeči vyvinuté na naší katedře spolu s pokročilými algoritmy zpracování přirozeného jazyka od týmu Ústavu formální a aplikované lingvistiky MFF UK byly v rámci evropského projektu COMPANIONS integrovány do dialogového systému, který je v omezené míře schopen konverzovat s uživatelem o jeho rodinných fotografiích.