Scienceworld.cz
PRO MOBIL
PRO MOBIL


KLASICKY
KLASICKY


Google pozná text v obrázcích, otevírá cestu k temnému webu

Google nabízí standardně vyhledávání obrázků, nyní v nich však jeho robot dokáže nově rozpoznat i text. Google zařadí text v obrázcích do výsledků svého standardního vyhledávání. Zpřístupní se tak zřejmě značná dosud neviditelná část webu zajímavá pro každého, kdo se zajímá o vědu.

Neviditelné části webu se někdy říká Deep Web, někdy Dark Web. Patří do ní v první řadě stránky, na něž nevede žádný odkaz, izolované „kapsy“, a s tím samozřejmě vyhledávač prostě nepohne. Totéž platí pro stránky, jejichž vlastníci si indexování sami nepřejí.

Viz také:
Internet: chování uzlů, kapsy a mocninné sítě

Pak je zde obsah v podobě obrázků či videa, který šel prozatím prohledávat jen pomocí tagů, různých metainformací (název souboru) a doprovodného textu. A nakonec je tu i obsah nepřístupný přes klasické hyperlinky, ale navigací s různými rozbalovacími menu a zaškrtávajícími políčky. Tímto směrem se Google sice již vydal, ale těžko říct, zda to mělo nějaký větší dopad (zdálo by se, že téměř všechno, co je přístupné přes rozbalovací menu, bude přístupné i nějakými klasickými hypertextovými odkazy).
Podpora pro rozpoznávání textu je ale zřejmě mnohem důležitější. Nejde zdaleka jen o klasické obrázky vložené do webových stránek, ale především o starší dokumenty, které na webu sice jsou, ale třeba jen v naskenované podobě – a to nejen jako klasické obrázky, ale i jako obrázky vložené do PDF (text v pdf Google samozřejmě už prohledává dávno). Mnohdy je PDF výsledkem skenování, aniž přitom bylo použito OCR (rozpoznávání textu), takže formát PDF je vlastně jen obálkou pro grafiku. Tohle může být případ celé řady oskenovaných knih a vědeckých článků, které až dosud byly pro uživatele více méně neviditelné. Teď můžeme hledat třeba i v popiscích vložených do grafů…
Přístup Googlu je vzpruhou i pro univerzity a další vědecké instituce, které by rády daly nějaký obsah na internet nejen pro formu, ale i v dohledatelné podobě: nyní je to podstatně jednodušší, protože převod do textu zařídí někdo jiný.
Samozřejmě zde jsou i určité nevýhody. Tak třeba e-mailové adresy skryté před spammery do podoby obrázků o tuto ochranu nejspíš přijdou. Definitivní soumrak zřejmě zažívá ochrana webových formulářů před roboty pomocí technologie Captcha (uživatel musí opsat text z obrázku).

Viz také:
Captcha: vyhledávače se budou učit od hráčů on-line her

Po uzavření zřejmě přelomové dohody Googlu se zástupci amerických autorských svazů a vydavatelů tak bude obsah internetu pro zájemce o vědu zase o něco bohatší.

Viz také:
Google se dohodl s autory i vydavateli

Můžeme se těšit na pohodlný přístup k reprintům děl předcházejících třeba ještě rozšíření počítačů. Samozřejmě je ještě otázka, jak bude celá technologie úspěšná/účinná v praxi….

autor Pavel Houser


 
 
Nahoru
 
Nahoru