Bio-informatica: Hoe algoritmen tot leven brengen



Dovnload 1.44 Mb.
Pagina1/10
Datum10.10.2018
Grootte1.44 Mb.
  1   2   3   4   5   6   7   8   9   10

Bio-informatica:Hoe algoritmen tot leven brengen?
Bart De Moor
ESAT-SCD Katholieke Universiteit Leuven
Kasteelpark Arenberg 10 B-3001 Leuven Belgium

T: +32-(0)16321709   M: +32-(0)475 28 70 52   F: +32-(0)16321970 


E: bart.demoor@esat.kuleuven.ac.be

W-persoonlijk: http://www.esat.kuleuven.ac.be/~demoor 


W-KUL-nederlands: http://www.kuleuven.ac.be/cv/u0008904.htm 
W-KUL-engels: http://www.kuleuven.ac.be/cv/u0008904e.htm
Korte samenvatting:

De tweede helft van de 20ste eeuw werd gekenmerkt door grote wetenschappelijke doorbraken op het gebied van informatietechnologie (computers, software en databanken, het internet, numerieke algoritmen) en biologie (de structuur van DNA en de ontrafeling van het menselijk genoom). In de 21ste eeuw leiden al deze ingrediënten tot nieuwe multi-disciplinaire onderzoeksdomeinen, zoals bio-informatica, proteomics en systeembiologie. Bio(techno)logie is geëvolueerd tot een informatieverwerkende wetenschap, waarbij computers, het internet en wiskundige algoritmen een essentiële rol spelen.
Belangrijkste bio-bibliografische gegevens:

Bart De Moor studeerde aan het Sint-Jan-Berchmanscollege in Brussel en het departement Elektrotechniek van de K.U.Leuven, waar hij in 1988 doctoreerde. Na een verblijf aan de Stanford Universiteit (KUL) werd hij Gewoon Hoogleraar aan de K.U.Leuven. Zijn onderzoek situeert zich op het gebied van systeemtheorie en regeltechniek, numerieke lineaire algebra en bioinformatica en werd bekroond met verschillende wetenschappelijke prijzen. Het resulteerde ook in 3 spin-off bedrijven. Van 1991 tot 1999 was hij kabinetsadviseur en –chef Wetenschaps- en Technologiebeleid van verschillende federale en Vlaamse ministers. Op http://www.esat.kuleuven.ac.be/~sistawww/cgi-bin/pub.pl kan men een exhaustieve publikatielijst vinden. Op http://www.esat.kuleuven.ac.be/~demoor vindt men een uitgebreid CV.

Dankbetuiging


Deze les is mede tot stand gekomen door de inzet van onze ‘postdocs’ (Dr. Ir. Stein Aerts, Dr. Ir. Dr.med. Frank De Smet, Dr. Patrick Glenisson, Dr. Ir. Kathleen Marchal, Dr. Ir. Janick Mathys, Dr. Ir. Yves Moreau, Dr. Ir. Gert Thijs), onze doctorandi (Joke Allemeersch, Bert Coessens, Steffen Durinck, Kristof Engelen, Olivier Gevaert, Karen Lemmens, Pieter Monsieurs, Nathalie Pochet, Qizheng Sheng, Wouter Van Delm, Tim Van den Bulcke, Raf Van de Plas, Ruth Van Hellemont, Tom Van Herpe, Peter Van Loo, Steven Van Vooren) en de verschillende medewerkers en collegae van onze onderzoeksgroep ESAT-SCD. Hen wens ik allen van harte te bedanken !

1. Inleiding


In een beroemd artikel van slechts één pagina, dat verscheen in het bekende tijdschrift Nature in 1953 [Watson, 1953], beschreven Francis Crick en James Watson voor het eerste de chemische structuur van het DNA1. Sinds die ontdekking is het wetenschappelijk onderzoek in de moleculaire biologie en biotechnologie werkelijk geëxplodeerd. We weten steeds meer over de genetische en biochemische processen die zich in de cel afspelen. Verwacht wordt dat de impact van toepassingen op mens, dier en plant enorm zal zijn.

Een gelijkaardige exponentiële evolutie van toepassingen maken we heden ten dage mee in de informatietechnologie. Deze is gegroeid uit het fundamenteel onderzoek van de eerste helft van de 20ste eeuw. Wat we vandaag hardware noemen, is ontstaan uit de electro-magnetische wetten van Maxwell (electriciteit en draadloze transmissies). Het onderzoek in de quantummechanica door Einstein, Bohr, Schrödinger, Heisenberg en vele anderen heeft uiteindelijk geleid tot de eerste transistor in 1948. Wat we omschrijven als software is gebaseerd op de vele wiskundige ontdekkingen en ontwikkelingen tussen 1850 en 1950, de formulering van de informatietheorie door Shannon en het onderzoek in de computerwetenschappen sinds de jaren 50. ‘Software’ omvat numerieke algoritmes, databases, transmissieprotocols, computertalen enz... De spectaculaire groei van de informatietechnologie wordt soms gekarakteriseerd door de Wet Van Moore2, waarvan de manifestaties zeer goed te zien zijn in ons dagelijkse leven: Denken we maar aan computers en lap tops, DVD spelers, mobiele telefoons en iPODs, het internet en het WereldWijde Web. Het zijn stuk voor stuk technologieën en realisaties die tien jaar geleden nog niet bestonden.
Deze bijdrage gaat echter niet alleen maar over moleculaire biologie of enkel over informatietechnologie, maar wel over de synergie tussen deze op het eerste gezicht totaal verschillende wetenschappen. Deze symbiose wordt de bio-informatica genoemd. De manier waarop vandaag moleculair biologisch onderzoek wordt verricht, is door de informatietechnologie ingrijpend veranderd. ‘Biology has become an information science’, zegt Leroy Hood van het Institute for Systems Biology in Seattle (zie http://www.systemsbiology.org/).
In wat volgt zullen we de belangrijkste ingrediënten van de bioinformatica toelichten, zonder exhaustiviteit na te streven.

2. Wat is bio-informatica ?

Bioinformatica ontstaat op de samenvloeiing van twee wetenschapsdomeinen, namelijk dat van de informatietechnologie en dat van de moderne biologie. Vooraleer we ons buigen over enkele illustratieve voorbeelden van toepassingen in de bioinformatica, is het nodig om dieper in te gaan op de verschillende doorbraken in de biologie, de technologie en de wiskunde.




2.1. Doorbraken in de biologie




It has not escaped our notice that the specific pairing we have postulated

immediately suggests a possible copying mechanism for the genetic material.

Laatste zin uit het Crick & Watson artikel in Nature, 1953


Van alle wetenschappen is de biologie misschien wel deze die het vlugst is geëvolueerd gedurende de afgelopen vijftig jaar. In deze discipline zijn er dan ook geweldig veel wetenschappelijke ontdekkingen gedaan, teveel om hier op te noemen, met elk een diepe impact op onze kennis over virussen, bacteriën, planten, dieren en mensen. Van het hiernavolgend bondig overzicht maken we ook gebruik om de lezer in het kort vertrouwd te maken met de vereiste biologische basiskennis3.

2.1.1. DNA en genomen

Het menselijk lichaam bestaan uit ettelijke miljarden cellen. In de kern van elke cel vinden we de chromosomen. Deze chromosomen kunnen beschouwd worden als hoofdstukken van een boek, dat geschreven is in het alfabet van het DNA. DNA4 staat voor ‘DeoxyriboNucleic Acid’. Elk DNA molecule is een lineaire aaneenrijging van vier genetische basiscomponenten (nucleotide basen, ook gewoon nucleotides genoemd), die aangeduid worden met de letters A (Adenine), C (Cytosine), T (Thymine) en G (Guanine). Wat Watson en Crick beschreven in hun artikel in Nature van 1953, was de moleculair geometrische structuur van een DNA molecule – de befaamde dubbele helix. Deze ziet er uit als een wenteltrap, waarbij de treden bestaan uit paren van A-T en G-C moleculen. De dubbele spiraal waartussen deze treden gevormd wordt, bestaat uit twee ketens van fosfaat-deoxyribose suiker polymeren. Het geheel noemt men dan ‘dubbelstrengig DNA’. Het feit dat A hier altijd samen voorkomt met een T, en een G altijd met een C, noemt men de complementariteit van het DNA. Deze complementariteit is het fundamentele principe waarmee DNA bij celdelingen wordt gecopieerd. Op één of andere manier splitsen de treden van de trap in het midden, waarbij elke A van de overeenkomstige T wordt gescheiden, en elke G van de overeenkomstige C. Vervolgens worden de twee gescheiden strengen van het DNA elk opnieuw ‘gecomplementeerd’ met ‘complementaire strengen’, doordat aan elke A (of T) een nieuw molecule T (of A) wordt ‘gebreid’ (idem dito met C (of G) en G (of C)). De realiteit is natuurlijk wel heel wat ingewikkelder dan hier beschreven, maar dit is een goed begin ! De complementariteit van het DNA laat dus toe om de genetische informatie als het ware te ‘ontdubbelen’ en vervolgens te copiëren. Zoals we verderop zullen zien, is de complementariteit ook de basis van de nieuwe technologie van microroosters.


Een andere grote doorbraak is de beschikbaarheid vandaag de dag, van de volledige DNA sequentie – het genoom - van een toenemend aantal organismen. Zeer recent werd dat van de mens volledig ontrafeld en gepubliceerd in twee belangrijke artikels met bijbehorende websites5 [Lander, 2001] [Venter, 2001]6. Naast het menselijk genoom, dat ongeveer drie miljard tekens lang is, heeft men de laatste tien jaar ook heel wat andere genomen van organismen gesequenceerd, zoals dat van verschillende virussen7, ééncellige organismen zoals bacteriën8 (e.g. Haemophilus influenzae), organismen zoals gist (Saccharomyces cerevisae), planten zoals Arabidopsis thaliana (Nature, 14 december 2000), rijst9, of de kiezelalg10, de nematode worm Caenorhabditis elegans11, het fruitvliegje Drosophila melanogaster (Science, 24 maart 2000) en de muis Mus musculus (zie Nature, 420, 5 december 2002).

2.1.2. Genen, aminozuren en eiwitten, en ook nog junk DNA

Zoals we gezien hebben bestaat het genoom van elk organisme in essentie uit een lineaire aaneenschakeling van nucleotides. In dit genoom bevinden zich bepaalde functionele stukken. Hiervan zijn de genen de meest bekende. Een gen kan biologisch gedefinieerd worden12, maar hier geven we een vereenvoudigde informatie-theoretische beschrijving. Een gen bestaat eigenlijk uit een aaneenrijging van ‘codons’, waarbij elk codon bestaat uit drie opeenvolgende nucleotides. Elk van deze drie letters staat voor een bepaald aminozuur. In de natuur zijn er 20 verschillende aminozuren. Het begin van een gen wordt aangeduid door een start-codon (meestal ATG) en het einde ervan door een stop-codon (meestal TAA, TAG of TGA)13. Men moet zich nu inbeelden dat een gen door een welbepaald leesmechanisme wordt afgelezen van bij het start-codon, waarbij elke opeenvolgende drie letters chemisch vertaald wordt in een aminozuur. De opeenvolgende aminozuren worden dan aan mekaar geregen tot een eiwit (proteïne). Het zijn deze proteïnes die zowat de werkpaarden zijn in alle mogelijke biologische processen. Het traject van de functionele entiteiten – de genen – in het DNA, via codons en aminozuren, naar proteïnes wordt het centraal dogma van de biologie genoemd. Recent echter zijn hierop ook belangwekkende uitzonderingen ontdekt en is men eigenlijk niet langer zeker of dit ‘dogma’ wel zo universeel is.

Omdat een codon drie letters bevat, die kunnen gekozen worden uit een alfabet van vier letters (A, C, T, G), bestaan er 64 verschillende combinaties (nl. 4 tot de 3de macht). In de natuur komen echter slechts 20 verschillende aminozuren voor. Het is dan ook zo dat sommige aminozuren gekenmerkt worden door verschillende groepjes van drie letters. Dit is geen ‘fout’ van de natuur, maar eerder één van haar sterktes: Op die manier mag er af en toe, bijvoorbeeld door een toevallige mutatie, een letter in het DNA veranderen zonder dat dit een merkbaar effect heeft op het geproduceerde aminozuur. Maar af en toe gebeurt het ook dat één kleine puntmutatie in het DNA zeer erge gevolgen heeft. Dit is het geval bij sommige monogenetische ziekten, waarbij de afwijking in één enkel gen soms catastrofaal is.
Niettegenstaande het aantal aminozuren beperkt is, is het aantal mogelijke proteïnen astronomisch groot. Immers, voor proteïnen die bestaan uit L aaneengeregen aminozuren, is het aantal mogelijke combinaties ’20-tot-de-L-de-macht’.

Proteïnen, die dus eigenlijk lineaire ketens zijn van aminozuren, zijn meestal opgerold volgens ingewikkelde driedimensionale geometrische configuraties. De geometrische structuur van elk proteïne is zeer determinerend voor zijn preciese interactie met andere proteïnen en moleculen, zoals bindingseigenschappen en –affiniteiten, enzymatische catalyse, signaaltransductie, cel-cel communicatie en vele andere functies en processen in de cel: Het zijn de eiwitten die cellen aan mekaar klitten tot weefsels, die die weefsels tot organen organiseren en van daaruit een levend wezen scheppen. Eiwitten regelen de celdeling, herstellen kapot erfelijk materiaal, leveren belangrijke stoffen aan het natuurlijke afweersysteem, helpen bij de zuurstofvoorziening enz.... 14. Wanneer er met de eiwitproductie iets misgaat (bvb. productie van teveel of te weinig van bepaalde eiwitten) omdat er iets misloopt in één van de stroomopwaartse stappen (een fout in het DNA, problemen bij transcriptie en translatie 15, enz...), dan wordt dat snel duidelijk op het niveau van de weefsels, de organen en uiteindelijk het algemeen welvoelen van de patiënt. Zo bijvoorbeeld weet men dat bij het ontstaan van prostaatkanker, vier eiwitten, een belangrijke rol spelen (nl. (te weinig) PPAP2B en GSTP1, (teveel) PIM1 en HPN,). Er wordt dan ook veel onderzoek verricht naar methodes die de preciese geometrische vorm van een proteïne kunnen voorspellen, vertrekkende van de DNA sequentie die er voor codeert (het zgn. ‘protein-folding’ probleem).


De hierjuist beschreven genetische code, vertrekkende van DNA sequenties, over codons/aminozuren naar proteïnen, is quasi universeel voor alle organismen op onze planeet, wat natuurlijk op termijn heel wat perspectieven opent om stukjes DNA sequentie uit te wisselen tussen organismen om daarbij bepaalde ‘verbeteringen’ te realizeren. Naarmate men de genomen van steeds meer organismen opgelijnd krijgt, kan men ook steeds meer preciezere schattingen maken van het aantal genen dat aanwezig is in elk organisme. Enkele voorbeelden zijn Bacteriophage lambda (grootte genoom 5.0E+04 base paren16, 60 genen), Escherichia coli (4.6E+06 bp, 4290 genen), Gist (12.0E+06 bp, 6144 genen), de fruitvlieg Drosophila melanogaster (1.0E+08 bp, 13338 genen), het wormpje Caenorhabditis elegans (1.0E+08 bp, 18266 genen), de ‘zandraket’ Arabidopsis thaliana (2.3E+08 bp, 27000 genen) en de mens Homo sapiens (3.0E+09 bp, ‘slechts’ 25 000 genen)17.
In het genoom van mensen, zoogdieren en planten zitten ook sequenties van DNA die niet coderen voor eiwitten. Deze worden aangeduid als UTR (UnTranslated Regions). Het zijn de intergenetische stukken DNA die tussen de genen liggen (exonen) of soms ook in de genen zelf (intronen). Tot voor kort werden deze stukken omschreven als ‘junk DNA’. De laatste jaren komt men terug van die wat oneerbiedige naam. Immers, in deze niet-coderende gebieden liggen tal van andere functionele entiteiten, zoals regulatorische elementen en motieven, waarop we hierna verder zullen ingaan. Dit zijn ‘schakelaars’, die een gen aan of af kunnen zetten, en die ook kunnen ageren als ‘dimmers’ (d.w.z. een gen meer of minder aktief maken, m.a.w. de hoeveelheid geproduceerd mRNA regelen) en ‘timers’ (d.w.z. de activiteit van een gen aansturen als functie van de tijd, bvb. bij bioritmes en –cycli). Er zijn ook ‘pseudo-genen’, d.w.z. genen die lange tijd geleden, ergens in de evolutie wel een functie hebben gehad, maar die nu niet langer worden aangeschakeld. En er is tenslotte ook - zoals blijkt uit recente experimenten18echt junk DNA dat klaarblijkelijk geen precieze functie heeft. Vandaag de dag gebeurt zeer veel onderzoek over de ontrafeling van alle mogelijke interacties tussen regulatorische elementen, genen of groepjes van genen. Men noemt dergelijke interacties ‘genetische netwerken’.
Al deze biochemische reacties spelen zich af op gigantisch kleine schalen. Zo bijvoorbeeld zijn virussen slechts zijn enkele honderden nanometer groot (een nanometer is een miljoenste van een millimiter, dus 0.000000001 m). Maar de tijdschalen waarop biologische systemen actief zijn, kunnen een enorme variatie vertonen. De bacterie E. Coli kan zich in ideale omstandigheden delen in 20 minuten. Dit betekent dat na 8 uur 1 bacterie aan de basis kan liggen van een populatie van 2-tot-de-24-ste macht aantallen bacteriën. Een verdubbeling dus om de 20 minuten. Anderzijds zijn er bijvoorbeeld de genetische systemen die verantwoordelijk zijn voor bioritmes. Deze hebben een periodiciteit van 24 uren of zelfs langer.




Deel met je vrienden:
  1   2   3   4   5   6   7   8   9   10


De database wordt beschermd door het auteursrecht ©tand.info 2017
stuur bericht

    Hoofdpagina