Algoritmy pro biotechnologie: Od farmakogenetiky po sekvenování

Biologie | 24.09.2004

Bioinformatika motivuje dodavatele hardwaru i softwaru k vývoji stále výkonnějších počítačů i chytřejších algoritmů. Jaká je ale podstata oněch výpočetně náročných úloh, od kterých se současně tolik očekává např. ve farmaceutickém průmyslu? V následujícím článku si představíme několik z nich - od farmakogenetiky, přes sekvenování, studium proteinů až po kladistické analýzy.

Sdílet

Začít můžeme např. vyhodnocováním klinických a dalších testů, které jsou součástí cyklu vývoje léků. V podstatě se jedná o obyčejnou statistiku. Zajímavou však úlohu činí skutečnost, že neexistují pouze látky účinné a neúčinné, ale také léky působící pouze za určitých podmínek nebo u určitých skupin obyvatelstva. Informatika pak musí dodat nástroje, které dokáží v ohromných souborech dat vyhmátnout na první pohled unikající souvislosti.

Léky šité na míru

Příkladem je třeba kauza léku BiDil, který je určen na srdeční choroby (podrobněji referoval např. server Osel.cz, viz http://www.osel.cz/index.php?obsah=6&clanek=843).
V 80. letech byl tento preparát testován, avšak jeho účinnost na obecnou populaci se nepodařilo prokázat a k výrobě léku nedošlo. Teprve díky nové analýze tehdy dat "po jednotlivých skupinách", kterou provedli informatici americké firmy Nitro Med, se ukázalo, že látka dává nadějné výsledky u Afroameričanů, prakticky neúčinná je však u bílých. Následné klinické testy tento rozdíl potvrdily a výsledkem je tak první lék určený pro konkrétní populaci. BiDil se nyní nachází ve fázi schvalování.
Lék pro konkrétní populaci je samozřejmě jen prvním krokem, protože se stále jedná o hodně hrubé měřítko. V budoucnu se ale předpokládá medicína ušitá na míru přímo konkrétním jedincům v závislosti na analýze jejich genetické informace. Už nyní dává medicína dělící se podle jednotlivých populací šanci různým izolovaným skupinám a menšinám, které se od "obecného vzorku" značně odlišují a často trpí specifickými chorobami. Kromě velkých, plošně působících farmaceutických koncernů se předpokládá také vznik malých biotechnologických firem zaměřených právě na vývoj léků pro takové konkrétní skupiny/populace. Podobný scénář alespoň zazněl na jarním setkání First Tuesday, které bylo věnováno právě biotechnologiím.
(podrobnosti http://www.scienceworld.cz/sw.nsf/ID/9DA53EA026ECDF20C1256EA70037B88B?OpenDocument&cast=1)
Většina výše popsaných problémů patří z informatického hlediska do kategorie získávání znalostí z dat.

„Tato koncepce se označuje jako farmakogenomika a věští se jí světlá budoucnost. Vývoj nového léku je bohužel náročný a drahý a farmaceutické firmy nejsou dobročinné organizace. Musejí vydělávat a to znamená, že se jim nemalé investice musejí vrátit. To značně omezuje vývoj léků, které by působily jen na malé skupiny lidí – Afroameričané jsou v tomto směru populace dosti početná a relativně movitá. Potenciální trh s lékem pro opravdovou menšinu by byl příliš malý. Prozatím se dá proto počítat spíše s tím, že lékaři budou na základě výsledků výzkumu ve farmakogenomice volit ze stávajících preparátů ty, u kterých bude pro danou skupinu obyvatel menší riziko nežádoucích vedlejších účinků,“ uvádí k tomu Prof. Ing. Jaroslav Petr, DrSc., který pracuje ve Výzkumném ústavu živočišné výroby v pražské Uhříněvsi a přednáší biotechnologie na České zemědělské univerzitě.

Ještě jeden názor na farmakogenetiku

Michael Storek,
biochemik firmy Compound Therapeutics,
storek@post.harvard.edu
"Mnohé začínající biotechnologické společnosti se před několika lety začaly zabývat farmakogenomikou. Myšlenka je poměrně prostá, stačí přečíst variace genetické informace (tedy DNA) pacienta a na jejím základě určit, zda daný lék pacientovi pomůže či zda mu hrozí vedlejší účinky. Tyto jednoduché principy se ale zatím nepodařilo přeměnit do komerčně úspěšných technologií. První problém představuje cena přečtení DNA. Ačkoli se technologie DNA sekvenování stále vylepšuje, přesto se cena čtení genů odpovídajících za účinek daného léku pohybuje ve stovkách dolarů. Velké farmaceutické firmy také nikdy nebyly farmakogenomice příliš nakloněny, neboť menší skupina pacientů by pro ně znamenala nižší tržby. Menší biotechnologické společnosti marně spoléhaly na spolupráci s farmaceutickými giganty a buď zkrachovaly, nebo rychle změnily obor podnikání.
Co bude s farmakogenomikou dále? Velká část výzkumu léků šitých na míru se nyní přesunula na univerzity. Farmaceutické firmy užívají farmakogenomiku ke “vzkříšení” léků, které během klinických zkoušek vykazovaly účinnost jen u části pacientů. Nezbývá než věřit, že klesající cena DNA sekvenování dovolí přečíst celý genetický kód pacienta a ten pak bude součástí jeho zdravotní karty – podobně jako je tomu dnes s informací o očkování."

Sekvence DNA

Již téměř klasickou úlohu z oblasti bioinformatiky představuje sekvenování, tedy "čtení" DNA písmenko po písmenku. Nejznámějším případem je samozřejmě projekt lidského genomu.
Bioinformatika pomohla především následujícím způsobem: Namísto čtení DNA písmenko po písmenku se nyní postupuje v zásadě tak, že dojde k namnožení molekul DNA, jejich následnému náhodnému sestříhání a pak k softwarové analýze překryvů, z níž má být stanovena původní sekvence (Ve skutečnosti je to trochu složitější, uplatní se také schopnost DNA přepisovat se do RNA – zřejmě nejpoužívanější je v tomto případě metoda tzv. estů, se kterou přišel bývalý ředitel firmy Celera Craig Venter, zřejmě nejznámější postava z celého projektu lidského genomu. Princip však zůstává stejný. – podrobnosti viz např.
http://www.scienceworld.cz/sw.nsf/ID/7B352C62F13B62D4C1256E970048FADD?OpenDocument&cast=1
http://www.scienceworld.cz/sw.nsf/ID/E237DD7AF94ADBDDC1256E970048FAD5?OpenDocument&cast=1).

Popsaná úloha vypadá triviálně, je však třeba si uvědomit, že před sebou máme řetězce dlouhé miliardy písmenek. Samozřejmě, že úlohu můžeme "řešit" prostě tak, že veškeré existující rozstříhané sekvence složíme lineárně za sebe. Takový výsledek bude vyhovovat zadání v tom smyslu, že uplatníme všechny sekvence – my jsme ale DNA stříhali a potřebujeme samozřejmě najít překryvy. V úloze jde vlastně o to, že hledáme nejkratší řetězec vyhovující všem podmínkám, minimum v obrovském stavovém prostoru. Po stránce algoritmu má úloha blízko ke známému problému obchodního cestujícího.
Kopírování DNA navíc neprobíhá se 100% účinností, dochází při něm k chybám. Úkolem algoritmu je proto najít nejspíše nejpravděpodobnější sekvenci. A zbývá dodat (což platí v bioinformatice velmi často), že aby se na problému mohly podílet výzkumné týmy z celého světa, je třeba jej efektivně paralelizovat.
„Bez pokroku v počítačové technice by pokrok v genomice rozhodně nenabral takové tempo, jakého jsme svědky," vysvětluje Jaroslav Petr. "Čtením sekvencí DNA ale úloha počítačů v genomice nekončí. Počítače nám pomáhají pochopit, co je v genomu vlastně zapsáno. Zcela samostatný problém představuje hledání genů. Ty tvoří jen zlomek z celého genomu – u člověka asi 1,5 %. Dnes máme k dispozici algoritmy, které umějí geny ze záplavy písmen genetického kódu vyhmátnout. Dejme tomu, že takhle najdeme v lidském geonomu gen a chceme vědět, k čemu je dobrý. Jedna z možností, jak najít odpověď na tuhle otázku, je najít pomocí speciálního softwaru v rozsáhlých databázích obdobný gen u jiného živočicha, např. u myši. Myš pak můžeme podrobit experimentu, při kterém je vybraný gen vyřazen z funkce a vědci sledují, co takto postižené myši chybí. Odtud je už jen krůček k identifikaci příčiny dědičných chorob a hledání léku proti nim. Přiznejme si ale, že stávající algoritmy umějí dobře hledat pouze "typické" geny. Vůči genům, které by se vymykaly tomu, co o genech zatím víme – a které by proto byly nejspíš úžasně zajímavé – mohou být současné algoritmy slepé.“

Proteiny

Klíčovou proceduru, která by mohla výrazně zefektivnit vývoj léků, představuje počítačové modelování 3D struktury proteinů. Právě 3D struktura má přitom těsný vztah i k biologické funkci.
Připravit protein laboratorně a pak zkoumat jeho účinky je nákladné a časově náročné – mnohem účinnější je použít modelování "in silico". Jako vstup máme pouhou sekvenci proteinu (tedy pořadí aminokyselin), z níž bychom se měli postupně naučit odhadovat prostorovou strukturu i biologickou funkci. Vlastní laboratorní testování by pak probíhalo pouze na molekulách, které už byly počítačově předvybrány.
Celý problém je přitom komplikován tím, že tvar a funkce proteinu závisejí na "písmenkách" různých aminokyselin v různé míře – někdy stačí záměna jediné aminokyseliny k tomu, že vznikne nefunkční protein, jindy změny nemají nijak zřetelný dopad a kód vykazuje značnou redundanci. Funkčně odpovídající protein můžeme také často sestavit ze zcela odlišných řetězců aminokyselin.
Spíše než analýza sekvence proteinu písmenko po písmenku se proto uplatňuje rozpoznávání obecnějších struktur, tzv. vzorů. Do kategorie rozpoznává vzorů, tedy na samé pomezí umělé inteligence, patří přitom i řada úloh v oblasti genomiky (více např. článek DNA bojuje proti spamu
http://www.scienceworld.cz/sw.nsf/pocitace/352C372DF858F4FFC1256EF600533709?OpenDocument&cast=1).
V této souvislosti může být zajímavé, že pro rozpoznávání vzorů byl již navržen také efektivní kvantový algoritmus (podrobnosti článek Kvantové rozpoznávání obrazů
http://www.scienceworld.cz/sw.nsf/ID/C27175EFCA2B2CFBC1256E970048FF68?OpenDocument&cast=1).
Dejme opět slovo Jaroslavu Petrovi: „Vědní disciplína zvaná proteomika – tedy věda o bílkovinách v organismu – prožívá v současné době boom. Velmi zajímavé jsou případy, kdy protein mění své trojrozměrné uspořádání bez toho, že by se měnilo jeho aminokyselinové složení. S novým tvarem získá protein i nové vlastnosti. To je případ tzv. prionů čili proteinových infekčních částic, jež vyvolávají smutně proslulé choroby, jako je BSE u skotu nebo Creutzfeldt-Jakobopva choroba lidí. Tyto choroby vznikají vlastně „zašmodrcháním“ bílkoviny, která je nám vlastní a ve svém původním tvaru nám nijak neškodí. Studium takových prostorových přesmyků se zdá být důležité nejen pro studium chorob, ale i pro pochopení normálních funkcí našeho těla. Velmi podobné „šmodrchání“ jiné bílkoviny se v našem mozku významně účastní ukládání informací do paměti."

model struktury prionu

Kladistika

Kladistické analýzy bývají využívány především v evoluční biologii. Zhruba řečeno v nich vycházíme z toho, že jednotlivé druhy se od sebe postupně oddělovaly známým "stromečkem". Jak ale určit konkrétní průběh onoho větvení?
Představte si, že máme např. člověka, sysla a slona. Jak stanovit stromeček? Jaký z těchto druhů se od společného předka odštěpil jako první? (Jinak řečeno: Má např. člověk blíže k syslu nebo ke slonovi nebo je od obou vzdálen stejně? Poslední verze by platila, pokud by se nejdříve oddělil předek člověka a až potom předek sysla od předka slona.)
Kladistika funguje tak, že vybere nějaké znaky (vcelku lhostejno, zda jde přitom o sekvence DNA nebo třeba o stavbu očí) a organismy podle nich srovnává. Výsledkem je pak např. mnohorozměrný prostor plný nul a jedniček – to za předpokladu, že u každého testovaného organismu rozlišujeme pouze to, zda daný znak má nebo nemá.
Úloha má v principu opět nekonečně řešení (mutace vznikají náhodně), my však opět hledáme nejúspornější cestu grafem – minimum stavového prostoru. Ptáme se prostě, jakým nejmenším počtem větvení a kroků-mutací se můžeme dostat k existující diverzitě.
Jakmile pro nějaký (obvykle hodně velký) soubor znaků stanovíme vývojový stromeček, vybereme si znaky jiné a provedeme srovnání znovu. To, co nás především zajímá, je především stabilita jednou utvořeného stromu. Pokud nám pro jiné znaky vyjde stejný strom, pak jsme evoluční události zřejmě zaregistrovali správně.
Kladistika vede k závěrům, které příliš neladí s tradiční biologickou taxonomií, jak se učí na základních a středních školách. Vyjde nám totiž například to, že latimerie (ryba stojící blízko předkům obojživelníků) je vlastně příbuznější člověku než kaprovi, takže celá skupina "ryby" nemá z evolučního hlediska žádný smysl. (Na vysvětlenou: Stromeček v tomto případě probíhal tak, že nejprve došlo k oddělení předka kapra a až později se oddělil předek člověka a předek latimerie.) Zájemce o podrobnější popis kladistických metod lze odkázat např. na knihu Jak se dělá evoluce (Jan Zrzavý, David Storch, Stanislav Mihulka: Jak se dělá evoluce, Paseka, Praha, 2004, úryvky z knihy můžete dohledat i na Science Worldu).
V kladistice ovšem nejde pouze o tvorbu teoretických konstrukcí a vývojových stromečků. Je důležité např. vědět, jak blízko mají jednotlivé organismy k člověku a identifikovat podobnosti i odlišnosti metabolických procesů – třeba v případě testování nových léků na zvířatech nebo při pokusech používat zvířata pro pěstování transplantátů určených lidským pacientům.
Profesor Jaroslav Petr uvádí v této souvislosti následující zajímavost: „Podobnými metodami bývá hledán i obraz hypotetického prapředka všech stávajících organismů na Zemi (LUCA –last universal common ancestor). Je to zapeklitá práce, protože všechny procesy, kterými tento dávný prapředek všech dnešních živých tvorů vznikl, jsou zastřeny nespočtem následných změn dědičné informace každého z jeho potomků. Navíc se zdá, že jednoduché mikroorganismy si mezi sebou handlovaly geny tak čile, že pro ně představa stromu, který se větví, ale už nikdy nesplétá, prostě neplatí."
Podrobnosti viz článek Hledá se první buňka
http://www.scienceworld.cz/sw.nsf/ID/5EAF67184C501F09C1256EAF004BB31D?OpenDocument&cast=1

Jazykové stromečky

Následující aplikace je od vlastní bioinformatiky poněkud odlehlá, nicméně dobře ukazuje, že některé jednou vzniklé algoritmy mají mnohem obecnější uplatnění.
Podobně jako dochází k větvení druhů, větvily se v minulosti také jednotlivé jazyky. Situace je v tomto případě samozřejmě složitější o to, že jednou vzniklé jazyky nejsou oddělené úplně pevně, mísí se a dochází mezi nimi nadále k přebírání slov i gramatických pravidel. Podobné výpůjčky nebyly ovšem především v minulosti nijak časté, a proto i v případě jazyků umíme na základě kladistických analýz konstruovat naše oblíbené stromečky. Opět platí, že výstupem z programu může být např. určitý konkrétní strom. Posléze změníme kritéria/vstupní data a analyzujeme stabilitu získaného stromu. Pokud dostaneme stejný strom např. po srovnání osobních zájmen jmen rodinných příslušníků, naše výsledky to činí výrazně věrohodnější.
Kladistické analýzy byly prozatím použity především pro hledání geneze indoevropských jazyků. Výsledek podobných pokusů je zajímavý nejenom pro lingvisty, ale hodně také vypovídá o průběhu pravěkých migrací (poskytuje nám informace nejenom o tom, jak určité události probíhaly, ale také kdy k nim došlo). Nasnadě je kombinace takto získaných poznatků s historickým a archeologickým bádáním.
Podrobnosti např. v článku Evoluce jazyků a pravěké migrace
http://www.scienceworld.cz/sw.nsf/ID/D741AB35B059C852C1256E970049223D?OpenDocument&cast=1

DNA jako počítač

Speciální kapitolou bioinformatiky jsou pak také tzv. DNA počítače a DNA čipy, kterým jsme se věnovali na Science Worldu již opakovaně, naposled v článku DNA počítače odhalí nádorové buňky.
http://www.scienceworld.cz/sw.nsf/ID/2132140648ADD43DC1256E9700492310?OpenDocument&cast=1

autor Pavel Houser