Scienceworld | Automatické opravy chyb

Automatické opravy chyb – pro a proti

Člověk | 10.05.2012

Slovních kmenů o délce větší než 16 písmen je v češtině tak málo a jsou od sebe svou podobou tak „vzdálené", že žádný z nich nelze jednou elementární úpravou transformovat na jiný.

Sdílet

Určitou statistickou analýzou konkrétního jazyka lze vždy dojít k určitému číslu L, pro které platí následující zajímavé tvrzení: vznikl-li chybný slovní tvar v textu jednou elementární chybou v kmeni slova a byl-li z něho jednou elementární úpravou vytvořen existující slovní tvar, jehož kmen má délku alespoň L písmen, pak je jisté, že v textu má být toto právě vytvořené slovo.

Existence takového L vyplývá z entropie a redundance každého přirozeného jazyka. Stručně přiblíženo: například slovních kmenů o délce větší než 16 písmen je v češtině tak málo a jsou od sebe svou podobou tak „vzdálené“, že žádný z nich nelze jednou elementární úpravou z výše vyjmenovaných transformovat na jiný. Je-li tedy v textu nalezen řetězec

podnikohospdářského

a je-li nějakou „šťastnou náhodou“ dost rychle zjištěno, že vložením „o“ mezi „. . . hosp“ a „dář. . . “ vznikne správný tvar „podnikohospodářského“,

/V tomto případě by ani jeho hledání opravdu nemuselo být tak beznadějné, jak se snad na první pohled zdá právě z délky slova: mohlo by se vyjít např. z toho, že digram „pd“, který překlepem vznikl, je v češtině mimořádně nepravděpodobný!/

lze považovat za jisté, že právě toto slovo má v textu být. (Kmen „podnikohospodářsk“ má 17 písmen.) Otázka je (pro každý jazyk zvlášť), jaké nejmenší L má uvedenou vlastnost. Pro ruštinu, která by se snad v tomto ohledu neměla příliš lišit od češtiny, vyplývá z jistého pramene hodnota 11. V češtině nicméně páry slov jako {homeomorﬁsmus, homomorﬁsmus}, {oceloplastový, celoplastový} nebo {prorektorský, protektorský} ukazují, že bude větší než 12. (Je-li v textu například napsáno „iceloplastový“, není jasné, které z výše uvedených slov získatelných jednou elementární úpravou to mělo být. Přitom jedno z nich má délku kmene 12, druhé 11 písmen.) Příliš často tedy toto pravidlo asi použitelné nebude. Navíc je třeba si ještě jednou připomenout, jak zněl celý jeho předpoklad. Opravu podle tohoto pravidla lze provést s jistotou, jen pokud chybný řetězec v textu skutečně nevznikl kumulací více než jedné elementární chyby!

/ Přitom je třeba uvážit, že pravděpodobnost kumulace více elementárních chyb přirozeně roste s délkou slova!/

Dále je třeba si uvědomit, že u sebedelšího českého slova může jeho délka zajistit výše popsanou „samoopravnost“ nanejvýš pro toto slovo jako slovníkovou jednotku, nikoli však pro jeho použitý gramatický tvar. Představme si, že je v textu nalezen pro změnu tento výraz:

podnikohospodářskéh

Protože chyba není v jeho sedmnáctipísmenném kmeni, ale v ohýbací koncovce, nabízejí se tu hned tři možnosti opravy jedinou elementární úpravou:

náhrada koncového písmena h písmenem m;

přidání o na konec;

vypuštění koncového h.

Na rozmanitost těchto možností nemá délka kmene slova žádný vliv.

V praxi tak nakonec mohou přicházet v úvahu spíše interaktivně řízené automatické opravy určitých systematických chyb, o kterých autor textu či písař ví, že se jich dopouští, a zároveň si sám ručí za to, že jejich automatickou opravou nedojde k jiným chybám. Například jestliže se jednou v textu objevil chybně napsaný řetězec „oparační“ nebo „naalýza“ a automatický korektor už jednou přišel na možnou náhradu „operační“, resp. „analýza“, bylo by asi rozumné, kdyby nabízel funkci (volbu) „PROVÉST TUTO OPRAVU V CELÉM TEXTU“ — pro případ, že si uživatel uvědomuje, že stejné chyby se mohl dopustit opakovaně. Návazným stupněm „automatizace komfortu“ by pak mohla být funkce (volba) zařazení právě objevené záměny do seznamu záměn prováděných editorem automaticky hned při psaní.

***

Tento text je úryvkem z knihy:

Petr Strossa: Počítačové zpracování přirozeného jazyka, Oeconomia, 2011

O knize na stránkách vydavatele

Autor knihy na ScienceWorldu na téma počítačové lingvistiky viz např.

Automatická korektura textů: Počítače dokáží rozpoznat i stylistické chyby

Komunikace mezi člověkem a počítačem v přirozeném jazyce

Válka s homonymií (Archiv Computerworld)

Tato a další témata jsou v knize shrnuta.

autor