Scienceworld.cz
PRO MOBIL
PRO MOBIL


KLASICKY
KLASICKY


Počítačové překladače zkouší vycházet z Bible

Svůj přístup vysvětlují následujícím způsobem. V první fázi je třeba systémy nakrmit velkým množstvím dat, které se získávají především z novinových článků nebo knih, odkud se pak jednak extrahují významy jednotlivých slov, jednak přímo srovnávají dva texty v různých jazycích (k tomu se třeba hodí překládané agenturní zpravodajství).

Malé jazyky, ale např. i africká jorubština s 28 miliony mluvčích, mají s těmito zdroji problémy (a to i včetně evropských jazyků: kolik novin vychází galicijsky?). Dvě sady dat tu nicméně k dispozici jsou relativně častěji: Wikipedia a Bible.

Wikipedia ovšem obsah nevytváří primárně jako překlady z větších jazyků. Něco jiného je ale Bible, ta existuje přeložena do téměř všech jazyků (uvádí se asi 1 500), a to slovo od slova – nejen zkráceniny a výtahy (běžné na Wiki). Překladu se navíc věnovala pozornost a bývá spíše konzervativní než volný, takže lze dobře párovat jednotlivá slova-výrazy. Pro vytvoření základního počítačového modelu daného jazyka pak stačí údajně už pár set stránek biblického textu; i když je otázka, zda se tak získá slovní zásoba a fráze, které budou třeba používat lidé komunikující s příslušnou mutací Siri.

Nicméně ani Wikipedii pro vytváření modelů autoři uvedeného výzkumu nezavrhují. I když texty nejsou vysloveně překlady, lze prý snadno čistě hrubou silou zjistit, že anglické glasses a německé Brille si jsou ekvivalentní (poznámka: což zrovna vypadá ale jako dost nešťastně zvolený příklad, když glass je právě současně sklo/sklenice). A podobně to funguje i pro jazyky s málo mluvčími. Logická námitka by ovšem opět mohla znít: S velštinou to pak přes Wiki asi půjde, budou ale vůbec v jorubštině (např.) existovat stejně/obdobně zpracovaná hesla?

Zdroj: ScienceDaily

Poznámka: Určitě by stálo za to rozlišit, zda cílem takových projektů je primárně nějak uchovat historické dědictví nebo prostě usnadnit život dnešním lidem. Umí dnes někdo velšsky, ale nikoliv anglicky? Z tohoto hlediska by asistentka Microsoft Cortana (by se nezmiňovala jen Apple Siri) dávala tedy zřejmě větší smysl v jorubštině.

autor Pavel Houser


 
 
Nahoru
 
Nahoru