Kontrolor české gramatiky v Microsoft Office

Člověk |

Microsoft představil nový jazykový nástroj s názvem Kontrola české gramatiky. Uživatelé tak mohou v rámci Microsoft Office poprvé využívat funkci, která kromě pravopisu hlídá dodržování gramatických pravidel v kontextu celých vět, jako jsou například psaní měkkého nebo tvrdého I/Y u shody podmětu s přísudkem, psaní čárek ve větě apod. Vývoj trval více než 5 let a pro společnost Microsoft nástroj vyvinul Ústav pro jazyk český Akademie věd ČR ve spolupráci s odborníky z Univerzity Karlovy.




Na úvod několik poznámek z tiskové konference:
– čeština je v pořadí 18. jazykem, pro který je v rámci produktů Microsoftu k dispozici kontrola gramatiky
– co se týče slovanských jazyků, již existuje kontrolor gramatiky (od Microsoftu) pro ruštinu a polštinu. Kontrolor češtiny je však údajně sofistikovanější. (vývoj také trval asi 5 let, první potenciální partner nedokázal splnit požadavky Microsoftu)
– při vývoji se za klíčový pokládal poměr správných upozornění na chyby versus nesprávné hlášky. Kontrolor je konzervativní v tom smyslu, že spíše chyby nechává, než aby indikoval problémy tam, kde nejsou. (pak by si uživatelé takový nástroj spíše vypínali)
– kontrolor také navrhuje řešení problému. Na tiskové konference bylo o této funkci docela diskutováno. (není to marnění času/práce, pokud věta často může být chybná více způsoby? jak poznat, co je špatně ve větě "psy honili ženy"?)
– jedná se primárně o kontrolu gramatiky, nikoliv stylu (tj. neexistují zde nástroje, které by uživateli poskytly zpětnou vazbu ve smyslu "slovo XY je na pokraji slangu a nehodí se do obchodního dopisu".). Nicméně i v oblasti stylu má nástroj určité pomůcky nabízet (upozornění na příliš dlouhé věty atd.).
– na rozdíl od Kontroly pravopisu jsou gramatické chyby podtrhávány zeleně.
– slovenská verze se bezprostředně nechystá.
– Česká kontrola gramatiky je dostupná pro MS Word a Outlook s vestavěných Wordem
– v češtině oproti dalším jazykovým mutacím nejsou v MS Office nyní k dispozici už pouze automatická shrnutí (což však zákazníci údajně nepožadují)
– nástroj samozřejmě není náhradou příslušného školního vzdělání, upozorňuje spíše na opomenutí

Karel Oliva, ředitel Ústavu pro jazyk český AV ČR, ve svém příspěvku hovořil o tom, jak vývoj nástroje probíhal a na jaké problémy lingvisté naráželi. Aplikace pracuje v následujících krocích:
Segmentace textu na věty
Analýza správnosti věty
Vyhledávání a ohlášení chyby
Návrh na opravu

Při vývoji systému se vycházelo od minimálních chybových konfigurací ("psi štěkaly") a poté byly rozšiřovány na reálné věty (pozor: "stejně jako psi štěkaly na Měsíc hyeny" je náhle správně). Přitom je samozřejmě třeba pracovat s řadou úrovní homonymie atd. Z vystoupení každopádně vyplynul zajímavý pohled: obecně se učíme, jaké věty jsou správné, nyní bylo třeba tuto optiku otočit a naopak pracovat s kategoriemi "vždy nesprávných vět" apod. Obecně bylo třeba vypracovat nějakou lingvistickou teorii nesprávných vět ("ne-gramatika češtiny"). Nástroj pracuje bez sémantiky, nesnaží rozumět smyslu věty, nejde o aplikaci z oblasti umělé inteligence. (viz výše příklad věty "psy honili ženy.")

Související články:

Rozpoznávání stylistických chyb
http://www.scienceworld.cz/sw.nsf/ID/C4B7D271FB30D20DC1256F43005B8F6D

Válka s homonymií
http://www.scienceworld.cz/sw.nsf/ID/ACA63C959D51C577C1256E970048C668

***

Následuje tisková zpráva společnosti Microsoft

Microsoft uvedl Kontrolu české gramatiky pro Office 2003

Praha, 30. června 2005:
Nový jazykový nástroj umožňuje kontrolovat gramatickou správnost věty jako celku.

Microsoft dnes se svými lokálními partnery představil nový jazykový nástroj pro Microsoft Office s názvem Kontrola české gramatiky. Uživatelé tak mohou v rámci Microsoft Office poprvé využívat funkci, která kromě pravopisu hlídá dodržování gramatických pravidel v kontextu celých vět, jako jsou například psaní měkkého nebo tvrdého I/Y u shody podmětu s přísudkem, psaní čárek ve větě apod.

Vývoj Kontroly české gramatiky trval více než 5 let a pro společnost Microsoft nástroj vyvinul Ústav pro jazyk český Akademie věd České republiky ve spolupráci s odborníky z Univerzity Karlovy. Programové dokončení, zejména integraci s aplikací Microsoft Word a operačním systémem Microsoft Windows, zajišťovala maďarská společnost MorphoLogic. Vývoj a testování pak koordinovalo Evropské vývojové centrum společnosti Microsoft v Irsku.

„Vývoj Kontroly české gramatiky byl tvrdým oříškem jak pro programátory, tak pro jazykové odborníky. Po více než pěti letech vývoje přinášíme uživatelům finální produkt, který v otázce spolehlivosti dokonce převyšuje požadavky na začlenění do produktu Microsoft Office,“ uvedl Petr Bobek, produktový a marketingový manažer skupiny Information Worker společnosti Microsoft.

Microsoft dnes Kontrolu české gramatiky uvolnil jako první veřejnou verzi určenou pro Microsoft Office 2003. Uživatelé si tak mohou produkt zdarma stáhnout a využívat. Jejich případné komentáře a připomínky budou do nástroje dále zapracovávány a nová verze Microsoft Office plánovaná na podzim 2006 již bude Kontrolu české gramatiky obsahovat standardně.

První verzi Kontroly české gramatiky si mohou uživatelé Microsoft Office 2003 stáhnout ze stránek Centra stažení softwaru společnosti Microsoft nebo na stránkách věnovaných české verzi Microsoft Office http://www.microsoft.com/cze/office/downloads. Zde bude také uvedena e-mailová adresa, na kterou mohou uživatelé zasílat své náměty k dalšímu vylepšení nástroje.

Rozdíl mezi současně využívaným nástrojem v Microsoft Office, který se nazývá Kontrola českého pravopisu, a nově uváděným nástrojem Kontrola české gramatiky spočívá v rozsahu jejich účinnosti. Kontrola českého pravopisu opravuje pouze překlepy, tj. chyby, které lze zachytit na úrovni jediného slova. Kontrola české gramatiky kontroluje dodržování gramatických pravidel v kontextu celých vět díky propracovanému systému lingvistické teorie pro gramatickou korekci. Chyby pravopisné se označují červenou vlnovkou pod chybným slovem, chyby gramatické se označují zelenou vlnovkou pod částmi věty, ve kterých se vyskytuje chyba.

„Vývoj Kontroly české gramatiky ukázal, jak lze úspěšně a užitečně aplikovat výsledky dlouhodobého vyhledávacího výzkumu v oblasti naší mateřštiny. V průběhu práce na speciální podkladové jazykovědné teorii jsme si také rozšířili zcela novým směrem naše znalosti o české syntaxi,“ říká ke spolupráci s firmou Microsoft Karel Oliva, ředitel Ústavu pro jazyk český Akademie věd České republiky.

Jazykové nástroje jsou součástí Microsoft Office a zahrnují softwarové nástroje pro práci s jazykem. Mezi jazykové nástroje patří kontrola pravopisu, kontrola gramatiky a stylu, slovník synonym Tezaurus, slovník pro pravopisné dělení slov, seznam automatických oprav a překladové slovníky. V nové verzi Microsoft Office již bude integrován také nástroj Kontrola české gramatiky, který je nyní dostupný volně ke stažení.

Více informací o novém jazykovém nástroji Kontrola české gramatiky naleznete na internetových stránkách společnosti Microsoft http://www.microsoft.com/cze/office/downloads.








Související články




Komentáře

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.