Scienceworld | Interpunkce počítačům přidává problémy, nejen v češtině

Tento druh homonymie, i když statisticky nepříliš významný, je systematicky vytvářen historickými pravidly pravopisu všech evropských jazyků. Graﬁckými prvky interpukčního typu rozumějme např. tečku na konci věty, ale také velké písmeno na jejím začátku. Jde o to, že tyto prvky většinou mohou mít i jiné než interpunkční funkce. Na základě čeho vůbec může být rozpoznáno, zda například určité konkrétní použití velkého písmena na začátku slova slouží jen označení začátku věty, nebo zda zároveň označuje vlastní jméno?

Vezměme např. tuto českou větu (snadno představitelnou v nějakém sportovním zpravodajství):

Dohnal zvítězil.

U této věty by bylo třeba provést syntaktickou analýzu (analýzu větné skladby), aby se zjistilo, že její první slovo je jméno a ne sloveso. (Jinak by totiž věta obsahovala dva přísudky a žádný podmět. Uvědomme si, že bez těchto nebo obdobných kategorií nelze usoudit, že se jedná o člověka jménem Dohnal!) To může představovat pro automatické indexování nepříjemný problém, protože vlastní jména jsou zpravidla selekčně významná, zatímco tvary sloves často nikoli.

V některých případech může tento druh homonymie vést dokonce k tomu, že není jasné (a to ani na základě syntaktické analýzy), odkud kam sahá v textu věta. Uvědomme si, jakou poměrně složitou „logiku věcí“ bychom museli použít, abychom zdůvodnili, že řetězec slov

Plk. Dohnal předešel gen. Kvapila.

je (nejpravděpodobněji) jedna věta, obsahující dvě zkratky vojenských hodností a dvě vlastní jména, a ne tři samostatné věty!

Ve vztahu k automatickému indexování může podobná situace představovat ten problém, že nelze určit, v jak rozsáhlých jednotkách textu mají být hledána koherentní slovní spojení.

Problémem ovšem může být i samotné velké písmeno na začátku věty — bez ohledu na její hranice a strukturu. Například slovo Arab psané důsledně s velkým počátečním písmenem označuje v češtině příslušníka arabského národa, zatímco slovo arab s malým počátečním písmenem označuje arabského koně; na začátku věty pak formálně vůbec nelze tato dvě slova od sebe odlišit. Pokud by měla být automaticky odlišena, pak by to opět vyžadovalo buď určitou míru věcné analýzy nadvětného kontextu (totiž zjištění, zda text celkově hovoří o Arabech nebo o arabech), anebo logické porovnání obou možných interpretací právě zpracovávané věty s nějakou bází obecných znalostí o světě. (Například věta „Arabům se nelíbí vojenská přítomnost Izraele na západním břehu Jordánu“ může těžko vypovídat o koních z toho důvodu, že vojenská přítomnost někoho někde nepatří mezi přirozené oblasti zájmu koní.)

Systémy automatického indexování textů v dnešních přirozených jazycích zpravidla nejsou schopny řešit podobné případy formální homonymie, které jsou pro člověka obvykle de facto jednoznačné, ale to jen na základě úplného porozumění smyslu sdělení — včetně jeho vztahu k veškerým dosavadním znalostem příjemce. Nástroje automatizace se samozřejmě mohou i v tomto ohledu zdokonalovat, praktická otázka ovšem vždycky bude, za jakou cenu. Nikdo asi nebude ochotný používat proceduru automatického indexování, která potřebuje mnohonásobný čas na analýzu textů jen proto, aby zvýšila spolehlivost rozpoznání začátků a konců vět (anebo slov potenciálně homonymních, která se liší velkým či malým počátečním písmenem) o několik procent.

Zde naznačený problém by naopak mohli velmi snadno odstranit kodiﬁkátoři spisovných jazyků a jejich uživatelé, kdyby přijali některá nová, logičtější pravidla psaní, navržená s ohledem na to, že texty mají být také automaticky zpracovatelné, nejen srozumitelné svým cílovým čtenářům. (Vždyť nakonec automatická zpracovatelnost textu dnes už často rozhoduje o tom, zda se text vůbec někdy dostane ke svému cílovému čtenáři!) Přestože používání spisovných jazyků je v podstatě velmi konzervativní záležitost, není vyloučeno, že se jednou lidé dohodnou např. na novém interpunkčním znaménku, které by označovalo jen konec věty a nic jiného, nebo na novém způsobu užívání velkých písmen (případně nějakých speciálních „závorek“), který by jednoznačně odlišoval vlastní jména od všeho ostatního.

Zde naznačený problém je samozřejmě ještě vážnější v náročnějších disciplínách automatického zpracování textů v přirozených jazycích, než je automatické indexování, a týká se pak v mnohem větší míře i dalších interpunkčních znamének. Podívejme se například na skutečnou funkci jednotlivých čárek (pro větší přehlednost očíslovaných) v souvětí:

Jsme přesvědčeni,(1) že pokud nenastane opět zima,(2) jaká překvapila minulou výpravu,(3) což by však bylo mimořádně neobvyklé,(4) nehrozí nám tentokrát žádné problémy.

Čárka č. 1 otevírá najednou dvě vedlejší věty („vnější“ z nich je uvozena spojkou že, „vnitřní“ spojkou pokud). Čárka č. 2 otevírá další vnořenou vedlejší větu, čárka č. 3 tuto větu ukončuje, ale zároveň další (na stejné úrovni vnoření) otevírá. Čárka č. 4 pro změnu dvě vedlejší věty uzavírá. Zbytek souvětí za ní je konečně ta vedlejší věta, kterou „avizovala“ spojka že už za čárkou č. 1; konec této vedlejší věty představuje teprve tečka, která zároveň uzavírá celé souvětí. Správné rozpoznání těchto velmi rozličných funkcí čárek a teček může mít vliv například na správný překlad celého souvětí do jiného jazyka, nebo na jeho znalostní interpretaci v systému učícím se četbou textu. Není snad z toho zřejmé, že by bylo moudřejší místo čárkami oddělovat vedlejší věty speciálními závorkami? Navíc by taková úprava jazykových pravidel mohla mít velmi výrazný výchovný vliv na uživatele jazyka: každý by měl formulovat jen tak složitá souvětí, jaká je schopen vlastnoručně konzistentně logicky uzávorkovat!

***

Tento text je úryvkem z knihy:

Petr Strossa: Počítačové zpracování přirozeného jazyka, Oeconomia, 2011

O knize na stránkách vydavatele

Autor knihy na ScienceWorldu na téma počítačové lingvistiky viz např.

Automatická korektura textů: Počítače dokáží rozpoznat i stylistické chyby

Komunikace mezi člověkem a počítačem v přirozeném jazyce

Válka s homonymií (Archiv Computerworld)

Tato a další témata jsou v knize shrnuta.

autor