Scienceworld.cz
PRO MOBIL
PRO MOBIL


KLASICKY
KLASICKY


Perspektivy počítačového rozpoznávání lidské řeči

Tento text vyšel v Computerworldu 31/2005

Přirozená řeč a její rozpoznávání fascinuje jako objekt zájmu i počítačové odborníky, a to již od šedesátých let 20. století, kdy byly položeny základy strojového rozpoznávání řeči.

Počátky technologií rozpoznávání hlasu (voice recognition) jsou ještě spojeny s analogovými počítači, ale brzy nastoupilo číslicové zpracování. Jedním z průkopníků, kteří položili základy číslicového zpracování řeči, je Frederik Jelinek, náš krajan, jenž vedl více než dvacet let výzkumný tým IBM. Na tehdy formulovaných základech pracuje dodnes většina komerčních rozpoznávačů řeči. V nejbližší době nás čeká velký rozmach těchto aplikací, vždyť jenom v jedné jeho části telefonii založené na rozpoznávání řeči se objem trhu pohybuje v řádech miliard dolarů ročně.

Nejefektivnější komunikace

Jazyk představuje nejpřirozenější způsob komunikace. Dialog je vlastní každému z nás a osvojujeme si ho od narození. Struktury našeho mozku jsou dlouhou evolucí dokonale přizpůsobeny tomu, abychom tento nástroj rozvíjeli k dokonalosti už dítě dokáže bez jakéhokoli násilí do dvou let vstřebat ohromné množství informací z jazykového systému, základní slovní obraty a jejich smysl, takže mu nebrání nic v tom, aby se prostřednictvím řeči efektivně vyjadřovalo a komunikovalo. Je pro nás mnohem jednodušší a rychlejší něco říct, než to napsat v řeči počítačů například ve formě "regular expressions", známých z operačního systému Unix. Člověk se dokáže v řeči vyjadřovat při veškeré její úspornosti i nanejvýš exaktně – zatímco věta "Najdi mi všechny e-maily, které jsem dostal do minulého týdne, a přitom ne starší než dva měsíce," vyznívá co do svého významu jednoznačně a její vyslovení nám nezabere víc než několik vteřin, zápis toho samého ve formalizovém jazyce se může stát oříškem i pro zkušeného programátora.

Současné uplatnění

Rozpoznávání řeči se v současnosti uplatňuje především ve dvou základních oblastech. Tou první je telefonie v podobě telefonních center. Ta jsou vybavována rozpoznávači a syntetizéry řeči, které komunikují s volajícím. Tak například u leteckých a dopravních společností lze díky rozpoznávání řeči objednávat lety a poskytovat informace o spojení a jízdních řádech. Klienti mohou prostřednictvím hlasového automatu zjišťovat stav svého účtu a zadávat bankovní příkazy včetně převodů peněz. Rozpoznávání řeči je tak nedílnou součástí call center.
Druhou významnou oblastí uplatnění rozpoznávaní řeči jsou přenosná zařízení. Může jít o mobilní telefony nebo o vestavěné počítače v automobilech. Systémy rozpoznávání řeči v mobilních telefonech se zatím příliš
neprosadily. V automobilovém průmyslu je situace jiná. Řidiči jsou zcela zaměstnáni řízením a každé snížení jejich pozornosti ovlivňuje bezpečnost provozu. Zde představuje ovládání řeči jednoznačný přínos a velké vylepšení: jasně to dokazují přední automobilky vybavující svoje modely stále častěji navigačním systémem nebo telefonem, které jsou ovládány hlasem.
V domácnosti se brzo setkáme s hlasem ovládanými přehrávači a televizory. Na satelitech jsou dnes stovky různých kanálů a pro diváka je velmi těžké nalézt přesně to, co právě chce sledovat. Přečíst programy všech kanálů, byť jen za jeden den, zabere hodně času. Hledání programů s řečovým vstupem nám opět může velmi usnadnit situaci. Prostě se zeptáme, na kterém programu jsou právě zprávy nebo kde vysílají hokej. Po vydání takového příkazu se na obrazovce objeví seznam stanic, které právě hokej vysílají, a my si vybereme, jaký zápas budeme chtít sledovat. Stejným způsobem lze například ovládat MP3 nebo CD přehrávač a volit si pouze prostřednictvím hlasu zpěváka či název skladby.

Hlasem k bezpečnosti

Při uplatnění hlasových systémů je kladen důraz na slůvko inteligentní. Využít nové prvky pouze z toho důvodu, že si to móda a design žádají, není cílem současného vývoje. Vědci a technici se snaží zvolit správné a spolehlivé řešení založené na hlasovém dialogu, které nebude odvádět pozornost uživatele. Na základě takového zadání není divu, že prvotním katalyzátorem uvedení prvků voice recognition do automobilů bylo vytáčení telefonních čísel prostřednictvím hlasu. Kromě toho může být řeč využívána ke kontrole základních funkcí automobilu k navigaci podle zadání cíle jízdy, k udržování teploty prostředí, k ovládání rozhlasového přijímače a CD v zásadě tedy všeho toho, co by odvádělo pozornost očí řidiče z vozovky a ruce z volantu a přitom to lze ovládat prostřednictvím hlasových pokynů.
Bezpečnost je určitě prvořadým důvodem, ale jakmile výrobci automobilů zjistili, že se jim podařilo uspokojit tyto potřeby, mohli začít spolupracovat s technologickými partnery a vývojáři nezávislého softwaru na zabudování nových aplikací, které zprostředkují nové služby a zjednoduší používání. Současné automobily umožňují aktuálně informovat řidiče a poskytovat jim asistenční služby v případě, že dojde k poruše či havárii. A to má samozřejmě dopad na spokojenost řidičů: v nedávném průzkumu společnosti JD Power & Associates hodnotícím spokojenost zákazníků s navigačními systémy byly tři z pěti aut s nejlepším umístěním od jedné značky a všechny měly zabudovány systémy pro rozpoznávání hlasu.
Automobil je příkladem prostředí, které jeho osádce dává pocit soukromého prostoru i uprostřed hektického dopravního ruchu na frekventované silnici. Právě díky svým parametrům je automobil zároveň místem, které před navrhovatele hlasových systémů a technologií staví nové problémy. Jde především o velkou hlučnost automobilu a hluky pronikající do kabiny z okolního provozu. Rozpoznávače jsou na tyto rušivé vlivy velmi citlivé. Další limitující prvek představuje výkonnost a cena počítače, na kterém rozpoznávač běží. Cenu je potřeba i pro ty nejdražší automobily udržet co nejnižší. Vyvážení kompromisů mezi náročnými požadavky hlasových technologií a kapacitou systému dostupného v automobilu musí proto být velmi komplexní. Kromě toho nelze přehlížet skutečnost, že řidiči tráví v autě dlouhé hodiny a kvalita konverzace s přístrojovou deskou je klíčová pro to, aby řidič celý systém akceptoval jako jeho uživatel. Hlas, který by ho rozptyloval, nebo opakování výzev může nakonec vyústit až v to, že se řidič dostaví do servisu s přáním, aby mu ten obtěžující hlas odpojili.

Intuitivní systémy

Co platí o automobilech, je do značné míry platné i obecně pro všechny ostatní hlasové systémy a technologie. Ty byly původně vyvinuty pro úzkou a jasně definovanou skupinu osob, která se ovšem nyní rozšiřuje. To s sebou přináší celou řadu problémů, jako je široké spektrum dialektů a akcentů s odlišnými styly mluvy (potichu, hlasitě, pomalu, rychle atd.), a to představuje velmi náročný úkol pro vývojáře i výzkumníky. Jedno z možných řešení učí systém pomocí odposlouchávání konkrétních uživatelů. Takové adaptivní systémy jsou předmětem současného výzkumu a vývoje. Velké úsilí výzkumníků je zaměřeno na vývoj dialogových aplikací. Ty dovedou s uživatelem konverzovat a vhodně volenými dotazy zjistit, co přesně potřebuje.
Uživatel se nemusí nic učit, nemusí číst žádný manuál. Hlasové systémy a technologie se tak stávají doslova intuitivními a tato schopnost osvobozuje jejich uživatele od frustrace z nutnosti opakování rigidních frází. Místo toho mohou vyjádřit jednoduše to, co chtějí. Ať už jde o dotaz na cestu k nejbližší čínské restauraci nebo o pokyn ke změně rozhlasové stanice, auto musí být s to okamžitě a přesně porozumět. Možnosti konverzační telematiky a s tím souvisejícího rozhraní (Conversational Interface for Telematics, CIT) určitě představují budoucnost celého oboru rozpoznávání řeči a dokumentují, jakou cestu urazil celý obor od prvotního a přece v čase poměrně nedávného nasazení v situacích jednoznačně definovaných kontextem (pouze rozeznávání odpovědi ano/ne) a slovníkem směrem k otevřenému a přirozenému jazyku. Díky stupňující se komplexitě databáze je přístroj schopen komunikovat s člověkem v některých situacích ne snad přímo jako partner, ale minimálně jako ochotný pomocník. Nejnovější aplikace mohou využít i znalosti hlasu "svého pána". To lze zajistit tím, že aplikace je vybavena rozpoznávačem řečníka. Aplikace pak může automaticky nastavit parametry, jako například oblíbenou rozhlasovou stanici, pozice sedadla či úhly zrcátek.

Čeština? Proč ne!

Kdy s námi naše auta, ledničky, pračky a další spotřebiče budou běžně komunikovat v češtině? Jako obvykle, odpověď na tuto otázku souvisí s komerčními záležitostmi. O češtině se uvažuje, tak jako o mnohých dalších
jazycích našeho regionu. Z hlediska výzkumného pracovníka lze říci, že problematika lokalizace těchto jazyků je vyřešena čili umíme i tyto specifické jazyky rozpoznat. Většina systémů funguje v rámci telefonních aplikací a můžete se s nimi setkat v některých komerčních provozech. Další specifické formy nasazení pokračují ve vývoji. Hledisko, jak velký trh může daná aplikace v určitém jazyce pokrýt, je prvotní. Například ve společnosti IBM je nabízíme po celém světě a samozřejmě podporujeme všechny hlavní světové jazyky, jako jsou americká a britská angličtina, němčina, španělština, italština, francouzština, japonština, čínština.

autor Jan Šedivý


 
 
Nahoru
 
Nahoru