Data si hledají místo v gridu

Člověk |

Výpočetní grid umožňuje uživatelům vzít výpočetní zdroje v distribuovaném a heterogenním prostředí a spravovat je jako jeden celek. Jako jeden celek je rovněž mohou využít pro řešení svých výpočetních problémů. Datový grid funguje podobně. Využívá middlewarové vrstvy a metadat k tomu, aby uživatelům poskytl centralizovaný pohled na distribuovaná data, aniž by tato data bylo nutno fyzicky centralizovat.




Pokud bychom měli soudit pouze podle pozornosti médií, pak datový grid hraje v porovnání s výpočetním gridem druhé housle. Firmy a veřejné instituce, jež hledají lepší způsoby sdílení a správy velkého množství dat, si ale datových gridů všímají stále více.
Výpočetní grid umožňuje uživatelům vzít výpočetní zdroje v distribuovaném a heterogenním prostředí a spravovat je jako jeden celek. Jako jeden celek je rovněž mohou využít pro řešení svých výpočetních problémů.
Datový grid funguje podobně. Využívá middlewarové vrstvy a metadat k tomu, aby uživatelům poskytl centralizovaný pohled na distribuovaná data, aniž by tato data bylo nutno fyzicky centralizovat.
Data mohou být umístěna na systémech s různými operačními systémy, například Windows, Unix nebo Linux. Mohou být strukturovaná či nestrukturovaná, mohou být uložena na různých typech médií. Z hlediska uživatele jsou všechny tyto skutečnosti do značné míry transparentní.
Datový a výpočetní grid mohou navzájem spolupracovat –- koneckonců jejich principy jsou stejné. Existují zde však pochopitelně jisté hranice možností. Datový grid například nenabízí prostředky pro vyhledávání a kategorizaci nestrukturovaných dat.

Pomalu kupředu

Technologie datových gridů se nachází ve stadiu raného přijetí a již delší dobu přitahuje hlavně pozornost výzkumných institucí, které disponují rozsáhlými a rozptýlenými úložišti dat. Jde například o organizace jako Pfizer Global Research & Development, CASS (Center for Advanced Spatial Studies) při Arkansaské univerzitě nebo výzkumná konsorcia typu DataGrid, což je projekt Evropské unie, vedený výzkumným centrem pro fyziku elementárních částic CERN.
Datové gridy najdou podle analytiků a uživatelů širší uplatnění spolu s tím, jak budou dospívat standardy, a poté, co budou vyřešeny některé palčivé problémy. K těm patří například správa bezpečnosti v distribuovaných prostředích. „Považuji přísliby gridů za velmi vzrušující,“ říká Paul Lewis, ředitel pro výzkum informační architektury firmy Pfizer. „Nicméně je před námi ještě množství další práce,“ dodává vzápětí.

Hledání podpory

Na trhu se již objevují první produkty, které podporují práci s daty v gridových prostředích. Kupříkladu již zmíněná firma Pfizer využívá software pro datové gridy od společnosti Avaki. CASS zase využívá výhod gridových funkcí vlajkové lodi firmy Oracle, databáze Oracle 10g.
Samotná koncepce gridů však vyžaduje propojenost nesourodých aplikací a zdrojů dat. Dokud tedy výrobci nenabídnou v rámci vlastních produktů standardizované gridové funkce, rozhraní a procesy, bude přijímání datových gridů omezené.
„Výrobci musejí říci: ‘My budeme v našich produktech gridy podporovat,‘ konstatuje Lewis a dodává: „Pokud takovou podporu nabídne více výrobců, usnadní nám to práci, jelikož budeme moci v případě potřeby zvýšené kapacity využít většího počtu počítačů.“
Vznikající produkty pro datové gridy, jako je ten od firmy Avaki, jsou i přes zmíněné problémy již využívány v praxi. Nicméně přední vizionáři, kteří stojí za úsilím týkajícím se datových gridů, chtějí více než jen nasazení gridů v jednotlivých firmách. Představují si vývoj systémů, které budou propojovat velký počet firem nebo celé dodavatelské řetězce či základny zákazníků.
„Ekvivalent internetového protokolu pro vzdálený přístup k datům se teprve vyvíjí,“ upozorňuje Ian Foster, vedoucí vědecký pracovník a ředitel Distributed Systems Lab při ANL. Foster je současně spoluředitelem projektu Globus Alliance pro standardizaci gridů. „Jistě, máme některá velmi dobrá řešení pro data pevně umístěná v souborech a začínáme řešit relační a XML databáze, ale to neznamená, že bychom už byli na konci své cesty,“ konstatuje.

Gridy podstupují zkoušku

Mezi průkopníky velkých datových gridů se řadí projekt DataGrid, který během uplynulých dvou let věnoval 10 milionů eur na vývoj testovací základny propojující nejvýznamnější evropské výzkumné instituce. Ty by měly společně využívat desítek tisíc výpočetních zdrojů.
Projekt DataGrid řešil jednotný přístup k těmto zdrojům, bezpečnost a replikaci dat tak, aby se data umístěná na jiném systému jevila uživateli jako lokální. „Gridový middleware je stále křehký a bezpečnost rozhodně nelze označit za dokonalou,“ popisuje situaci Fabrizio Gigliardi, který celému projektu šéfuje. Nicméně pokroky byly podle něj natolik průkazné, že EU schválila projektu více než 30milionovou dotaci pro další dva roky. Ta by měla sloužit k financování většího subprojektu s názvem Enabling Grids for E-science in Europe (EGEE).
Současné datové gridy firmy Avaki umožňují výzkumným pracovníkům společnosti Pfizer sdílení dat o genetickém výzkumu. Dříve byla publikována a zpřístupňována dalším vědcům prostřednictvím FTP. „To není efektivní způsob využití naší sítě, a navíc bylo třeba sdílení realizovat manuálně,“ vysvětluje Lewis. „Při přenosu přes FTP také může docházet k chybám.“
Nyní jsou data publikována pomocí gridu a přístup k nim má kdokoliv s příslušnými oprávněními. „Díky využití mechanismů vyrovnávací paměti se data uživatelům skutečně jeví jako lokální,“ vysvětluje Lewis.

Přínosy gridu

Jedním z klíčových přínosů gridového přístupu je možnost optimálně využít kombinace nabídek různých výrobců. „To znamená potenciální snížení nákladů na hardware,“ pochvaluje si Fred Limp, ředitel CASS při Arkansaské univerzitě.
„Využívání Oracle 10g nám dává flexibilitu,“ říká Limp. „Grid snižuje náklady a zlepšuje schopnosti našeho centra při zpracování dat. Mám pro vlastní aplikace k dispozici libovolný zdroj v rámci gridu podle potřeby,“ dodává.
Phillip Russom, analytik Forrester Research, tvrdí, že produkty firem Oracle a Avaki představují špičku v oblasti gridových produktů, nicméně očekává, že se brzy připojí i další výrobci. Primárními firemními uživateli přitom podle něj pravděpodobně budou finanční instituce, pojišťovny a další společnosti s vysokými požadavky na data. „Gridový přístup pro ně může znamenat způsob integrace stávajících datových skladů či integraci integrací,“ uzavírá Russom.

Typická prostředí datových gridů

– vědecké aplikace
– aplikace náročné na výpočetní výkon
– rozsáhlé soubory dat a archivů
– projekty a firmy zahrnující rozptýlené uživatele a zdroje
– projekty a firmy vyžadující velký rozsah funkcí a zdrojů
Zdroj: Globus Alliance

Tento článek je překladem z amerického Computerworldu. Plná verze českého překladu vyšla v CW 23/2004.








Související články




Komentáře

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.