Důležitá slova jsou vedle sebe, nedůležitá v celém dokumentu

Lingvistika | 10.04.2009

Důležitá slova se shlukují dohromady, zatímco ostatní jsou v dokumentu rozmístěna rovnoměrně/náhodně. Nakonec je to i logické: když autor pojednává o určitém tématu, příslušná odborná terminologie se bude opakovat, v dalším textu už naopak být vůbec nemusí.

Sdílet

Pedro Carpena, fyzik z univerzity ve španělské Malaze, přišel s novou myšlenkou na vyhledávání informací v dokumentech. Příslušná matematická metoda se původně používala v kvantové fyzice, to nás však nemusí na tomto místě zajímat. Půjde nám o to, co technika dokáže říct o obsahu textových dokumentů.

Základní přístup k posouzení, zda je dokument relevantní k určitým hledaným slovům, je následující: uděláte si statistiku výskytu slov v „jazyce jako celku“. Čím vyšší je pak frekvence výskytu slova v dokumentu oproti frekvenci průměrné, tím více je dokument zaměřen právě na toto téma. Samozřejmě, že Google kromě toho při řazení výsledků používá celou řadu dalších metod, například PageRank, který zohledňuje, kdo na dokument odkazuje (podrobnosti viz článek Matematika za Google PageRankem není tajná).

Carpenova metoda ale jeden krok vlastně vynechává. Není při ní třeba porovnávat frekvence slov v dokumentu s frekvencemi v jazyce jako celku. Klíčová slova charakterizující dokument se získají ani ne tak podle frekvence, ale spíše z toho, jak jsou řazena vedle sebe. Důležitá slova se shlukují dohromady, zatímco ostatní jsou v dokumentu rozmístěna rovnoměrně/náhodně. Nakonec je to i logické: když autor pojednává o určitém tématu, příslušná odborná terminologie se bude opakovat, v dalším textu už naopak být vůbec nemusí. Zato nevýznamná slova budou v textu rozházeny (jasné to je pro zájmena a spojky, ty bychom však za klíčová slova stejně nepovažovali; nicméně má to platit i pro podstatná jména).

Carpena zkusil svou metodou analyzovat knihu Alberta Einsteina o relativitě a jako relevantní mu takto opravdu vyšla slova jako gravitace, vesmír, energie, pole apod… Zajímavé výsledky dala metoda údajně i při odstranění mezer z textu a extrakci klíčových „slov“ tak, že se postupně text rozdělí na shluky o určitém počtu písmen (od 2 do 35).

V této podobě by se metoda podle Carpeny mohla uplatnit i při zkoumání genomu a pokusu extrahovat ze sekvencí DNA důležité informace. Obdobné hrátky se s DNA provádějí, např. když se takhle zjišťuje, zda frekvence „slov“ v DNA splňují Zipfův zákon, který platí pro lidské jazyky.

Na druhé straně, jak prohledávání dokumentů, tak i výzkum genomu přitahuje pozornost velkého množství vědců. Je hezké, že tato technika vybrala smysluplná klíčové slova z Einsteinovy knihy, dosáhlo se však přitom lepších výsledků než nějakou z mnoha metod konkurenčních?

Zdroj: New Scientist

autor Pavel Houser