Budúca podoba internetu: Svet ontológií a agentov

Člověk | 09.06.2004

Ontológie sú predmetom skúmania umelej inteligencie za účelom reprezentácie, zdieľania a opakovateľného použitia znalostí. Vyhľadávacie agenty by mali byť schopné smer prehľadávania webu aktívne usmerňovať, rozpoznávať hierarchie pojmov, identifikovať synonymá a rozlišovať rôzne použitia toho istého pojmu

Sdílet

Počas dlhých rokov svojej existencie prešiel internet mnohými zmenami. Od poskytovania čisto textových informácií protokolom gopher, cez rýchly nástup kombinácie textu a obrázkov, až po súčasné dynamické či adaptívne weby alebo webové aplikácie. Aké sú ďalšie perspektívy? Jednu, ale nie jedinú, možnosť predstavuje sémantický web. Svet autonómnych agentov môže však na seba vziať mnoho rôznych podôb.
Objem informácií na súčasnom webe je obrovský; vyhľadávacia služba Google indexuje viac ako 3,3 miliardy webových stránok. Toto množstvo je však len časťou všetkého on-line prístupného obsahu. Mnohé stránky nie sú z rôznych dôvodov prehľadávacím službám prístupné (na požiadanie dynamicky generované stránky, stránky s prístupom pomocou autentifikácie používateľa, explicitný zákaz indexácie prehľadávacími službami a pod.) a mnohé dokumenty na webe sú uložené v rôznych ojedinelých formátoch.
Prehľadávanie takéhoto heterogénneho obsahu obrovskej kvantity sa stáva čoraz ťažšie. I keď sa vyhľadávacie služby neustále zdokonaľujú, stále horšie sa dosahuje dobrá presnosť vyhľadávania, t.j. pomer medzi nájdenými dokumentmi, ktoré sú pre používateľa vyhľadávacej služby skutočne relevantné, a všetkými dokumentmi nájdenými vyhľadávacou službou.

Problémy HTML
Problémom automatického vyhľadávania informácií je to, že najpoužívanejší formát na prezentáciu údajov na súčastnom webe, hypertextový značkovací jazyk (HTML, hypertext markup language) nepopisuje štruktúru údajov, ale iba ich spôsob zobrazenia na obrazovke počítača. Napríklad na rozčlenenie stránky sa v drvivej väčšine prípadov používajú tabuľky napriek tomu, že ich obsah je v drvivej väčšine prípadov "netabuľkový".
Takmer akokoľvek komplikovaná webová stránka je pre človeka na prvý pohľad pochopiteľná, ale počítač má pri jej "pochopení" veľké problémy. Môže maximálne zistiť, čo je názov stránky, vyselektovať dôležité pojmy na základe toho, že sú vyznačené tučným písmom a podobne, ale neexistuje spôsob, ako by mohol stroj "pochopiť" súvislosti medzi jednotlivými pojmami alebo časťami stránok.
I autor súčastnej podoby webu – Tim Berners Lee – je sklamaný. Predstavoval si svoj nápad zrealizovaný značne odlišne: ako jeden obrovský rezervoár informácií, alebo ešte lepšie znalostí, ktorý by všetci používatelia nielen pasívne využívali, ale by do neho aj aktívne prispievali. To mal Lee na mysli, keď hovoril o webe ako o interaktívnom. Bol sklamaný, keď médiá začali web označovať ako interaktívny iba preto, "lebo sa na ňom dá klikať". Začal preto v súvislosti so svojou predstavou webu hovoriť nie o interaktivite, ale o interkreativite.

Prechod k sémantike
Spojiť heterogénne údaje z rôznych zdrojov je veľmi ťažká úloha a v súčastnej podobe webu realizovaného jazykom HTML je jej realizácia nemožná. Okrem toho, že sa tie isté pojmy používajú na označenie rozličných vecí (tzv. polysémický problém) a že sa na označovanie tých istých vecí používajú rôzne pojmy (tzv. synonymický problém), na súčasnom webe nie sú nijakým spôsobom zachytené významy jednotlivých pojmov ani vzťahy medzi nimi.
Riešením nastoleného problému môže byť vytvorenie sémantického webu, t.j. webu, ktorý by nereprezentoval iba text ako reťazce znakov a obrázky ako matice farebných bodov, ale web, ktorý by definoval pojmy a vzťahy medzi nimi (úvod do problematiky sémantického webu viď CW XY/2003). A keďže – ako bolo uvedené vyššie – v súčasnosti používané vyjadrovacie prostriedky webu v podobe jazyka HTML na tento účel nepostačujú, je potrebné uvedený problém riešiť od základov.
Vyjadrovací prostriedok na popis údajov je XML (extensible markup language), čo je metajazyk, umožňujúci definovať nové značkovacie jazyky, presne podľa potrieb konkrétnych aplikácií. Snahou je definovať také značkovacie jazyky, ktoré nebudú popisovať, ako majú údaje vyzerať, ale čo znamenajú. Samotné formátovanie, ktoré bolo dominantnou črtou jazyka HTML, sa odsúva mimo definície údajov do tzv. štýlov. Okrem spomínaného oddelenia významu údajov od ich konkrétnej reprezentácie sa týmto spôsobom dosahuje aj veľmi pozitívny bočný efekt, a to, že jedny a tie isté údaje možno z toho istého zdroja reprezentovať rôzne, aplikovaním štýlu podľa potreby. Ako príklad možno uviesť údaje s firemnej databázy: tie isté údaje sa budú formátovať inak pre potreby automatického systému riadiaceho výrobnú linku a inak pre potreby manažéra kontrolujúceho efektivitu prevádzky.

Nielen XML
XML je ale nástroj na veľmi nízkej úrovni, má teda aj patričné silné a slabé stránky. Jeho silnou stránkou je vlastnosť všetkých nízkoúrovňových nástrojov: dokáže sa vysporiadať s akýmkoľvek problémov, t.j. XML dokáže popísať akékoľvek údaje a vzťahy medzi nimi. Tento popis je však technicky veľmi náročný, ale hlavne neexistuje žiadny všeobecne prijatý štandard popisu údajov pomocou čistého XML.
Ak si teda chcú dve strany – napríklad zákazník a obchodník – vymieňať informácie – napríklad cenníky – vo formáte XML, musia vopred formálne definovať typy údajov, ktoré si budú vymieňať, a spôsob, akým budú tieto údaje popisovať. Toto sa deje pomocou dokumentov DTD (document type definiton).
XML ale dáva veľmi dobrý základ na budovanie nástrojov na popis údajov a vzťahov na vyššej úrovni. Za ďalší stupeň vyjadrovacích možností možno považovať RDF (resource definition framework). Kým XML popisuje iba štruktúru údajov, RDF umožňuje popisovať tvrdenia platiace o údajoch, t.j. "údaje o údajoch", tzv. metaúdaje. Nadstavbou nad RDF sú tzv. RDF schémy (RDFS), ktoré umožňujú vytvárať RDF štruktúry. Pomocou RDF schém je možné vytvárať hierarchie pojmov, čo je ďalší veľmi dôležitý krok k dobrej reprezentácii významu – t.j. k sémantike – informácií.
RDF a RDFS už poskytujú dosť dobré prostriedky na reprezentáciu informácií pre účely sémantického webu. Sú však stále jednoduché a na nízkej úrovni, aby mohli byť aplikovateľné na popis státisícov pojmov a státisícov vzťahov medzi nimi. Na popis nejakého výseku reálneho sveta, tzv. konceptualizácie, sa preto používajú formálne, explicitné špecifikácie, nazývané ontológie. To, že tieto sú formálne a explicitné, zaručuje ich strojovú spracovateľnosť.

Typy ontológií
Ontológie boli a sú predmetom skúmania umelej inteligencie za účelom reprezentácie, zdieľania a opakovateľného použitia znalostí. A o to ide aj v prípade sémantického webu: Umožniť znalosti konzistentne reprezentovať, efektívne zdieľať a dovoliť ich široké použitie bez väčšej námahy. Je nutné poznamenať, že na rozdiel od XML či RDF nie sú ontológie len prostriedkom na popis pojmov a vzťahov medzi nimi, ale sú už výsledkom, konkrétnym popisom nejakej doménovej oblasti, "výrezu reálneho sveta".
Aj ontológie existujú rôzne, podľa toho, čo popisujú. Ontológie popisujúce všeobecné, v širokom meradle platiace pojmy, vzťahy a zákonitosti, sa nazývajú generické ontológie alebo ontológie vyššieho rádu. Najčastejším typom sú ale tzv. doménové ontológie, popisujúce nejakú konkrétnu problémovú oblasť (môže to byť napr. medicína, architektúra, hutnícky priemysel a pod.). Ešte špecifickejšie sú úlohové ontológie, ktoré sa zameriavajú na popis úloh a metódy ich riešení. Na rozdiel od predtým spomínaných typov, ktoré sa zameriavajú prevažne na reprezentáciu znalostí o svete, úlohové ontológie skôr popisujú procesy. Nakoniec najšpecifickejšie sú aplikačné ontológie, prispôsobené na konkrétne úlohy v konkrétnej doménovej oblasti.

Svet agentov
Prvým cieľom, ku ktorému smeruje myšlienka sémantického webu, je to, aby sa na ňom rovnako dobre ako ľudia dokázali pohybovať stroje, autonómne programové agenty. Tieto agenty by mali v prvom rade slúžiť na vyhľadávanie informácií. Toto vyhľadávanie by malo byť odlišné od toho, ktoré poznáme teraz. Súčastné vyhľadávače pracujú s textom iba ako s reťazcami znakov bez toho, aby im rozumeli. Dokonca sa im ani nesnažia rozumieť. Dnešné vyhľadávače teda poskytujú iba nízkoúrovňový nástroj pre spracovanie informácií na vyššej úrovni.
Vyhľadávacie agenty by mali byť schopné smer prehľadávania webu aktívne usmerňovať, rozpoznávať hierarchie pojmov, identifikovať synonymá a rozlišovať rôzne použitia toho istého pojmu (viď synonymický a polysémický problém vyhľadávania spomínaný vyššie). Tieto vlastnosti bude možné dosiahnuť práve na základe toho, že agenty budú rozumieť príslušným ontológiám, ktoré im povedia, aké sú synonymá určitého pojmu, v akých rôznych súvislostiach sa daný pojem používa, čo je jeho zovšeobecnením, aké pojmy sú jeho špeciálnym prípadom a k akým iným pojmom sa viaže.
Ďalším cieľom, pravdepodobne vzdialenejším – predpokladá totiž úspešné dosiahnutie prvého cieľa – je, aby spomínané agenty nielen informácie z webu získavali, ale aby boli schopné ich aj do webu pridávať. Malo by sa tak diať na základe komunikácie s používateľmi, keď by agent žiadal od používateľa buď spresnenie požiadavky na vyhľadávanie, alebo pomoc v situácii, keď už agent nebude schopný pokračovať v prehľadávaní webu a odvodzovaní nových informácií.

Web ako mozog
Zaujímavý pohľad na web načrtáva prof. Sarnovský vo svojej knihe Kybernetický svet (Elfa, Košice, 1999); tento pohľad môže byť o to zaujímavejší, že je aplikovateľný už na web v súčastnej podobe, i keď sa v ňom vyskytujú prvky Leeovskej interkreativity. Sarnovský pripodobňuje web ľudskému mozgu, hypertext asociatívnej pamäti. Linky medzi dokumentami prirovnáva k asociáciám medzi konceptami uloženými v mozgu. Túto analógiu rozvíja na procesy učenia a myslenia.
V mozgu aj na webe považuje získanie informácie za proces "šírenia a aktivácie". Vrcholy (koncepty alebo dokumenty), blízke hľadanej informácii sú aktivované a táto aktivácia sa šíri cez spojenia (synapsie alebo hyperlinky) na susedné vrcholy. Od budúcnosti webu Sarnovský očakáva, že bude na ňom možné ľahšie nájsť aj odpovede na zle alebo neúplne položené otázky a požiadavky. Web si v takom prípade predstavuje ako externú pamäť uchovávajúcu obrovské množstvo informácií, čo používateľovi umožní sústrediť sa na vyššie formy činnosti vedomia.

Budúci vývoj
World wide web sa dynamicky menil za celú dobu svojej existencie. Je jasné, že sa bude meniť aj ďalej. Či to bude smerom k sémantickému webu či akémusi superbrainu je otázne. Možno vývoj narazí na neochotu zverejňovať informácie pre iných a rozvinú sa spôsoby obchodu s informáciami. Možno pôjde vývoj úplne iným smerom a myšlienky sémantického webu upadnú do zabudnutia, odkiaľ ich opäť niekto sčasu-načas vyberie a opráši. Isté je len jedno – súčasný web sa bude určite ďalej vyvíjať a všetko nasvedčuje tomu, že tento vývoj bude rýchly.

autor Jozef Babjak