L'analyse des génomes complets

Qu’est ce que la génomique ?

Les projets de séquençage

Quelques perspectives ouvertes par la génomique

La paillasse après l’analyse in silico


L’analyse des génomes complets

Qu’est ce que la génomique ?

La disponibilité d'une grande quantité d’information sur les séquences d’ADN et en particulier sur les génomes complets de plus de 20 espèces bactériennes a ouvert le "troisième âge" de la microbiologie moléculaire (Tang 1997). Les recherches sur les lois de l'hérédité ont inauguré le "premier âge", celui de l'analyse de mutants aléatoires aux phénotypes intéressants. L’objectif de beaucoup de ces études était la découverte des bases moléculaires ou fonctionnelles de ces phénotypes. À la suite de la révolution moléculaire des années 50 et 60, nous sommes rentrés dans le "deuxième âge". Celui-ci a été dominé par l’application de la technologie de l’ADN recombinant à la construction de mutations dirigées sur des gènes dont on spéculait un certain phénotype. Aujourd’hui, grâce à la quantité et à l'exhaustivité des descriptions génétiques, les hypothèses sur les fonctions et rôles des gènes seront de plus en plus issues de recherches in silico, suivies par des tests au laboratoire. Si le premier âge était basé sur la connaissance du génotype par observation de différents phénotypes et si le deuxième se basait sur des changements précis des génotypes pour observer les phénotypes correspondants, on essaye maintenant de déduire des phénotypes en partant de l’information sur le génotype (Figure 2.1) (Hinton 1997).

Ainsi, nous sommes devant un changement vraiment qualitatif de la façon de rechercher en microbiologie. Ce n’est pas seulement que nous avons beaucoup plus de données, c’est aussi que nous avons la possibilité de nous poser des questions qui, il y a très peu de temps encore, ne pouvait être que des spéculations.

En provoquant une rupture de paradigme en termes de recherche en microbiologie, la contribution de la génomique n’est pas de jeter aux oubliettes les résultats et méthodes de tout ce qu’a été faite jusqu’à présent. Au contraire, une fois acquise l’information sur l’ensemble de gènes que constitue le génome, il faut bien essayer de comprendre son rôle. Ceci est l'objectif primordial des programmes d'analyse fonctionnelle en cours chez plusieurs organismes modèles tels que Bacillus subtilis (Ehrlich et al. 1999) ou Saccharomyces cerevisiae (Dujon 1996).

Figure 2.1 - Schéma représentatif des changements produits dans la microbiologie moléculaire à la suite de la révolution moléculaire et de la génomique.

La génomique ne vaut pas simplement par ce qu’elle donne à connaître, mais aussi par ce qu’elle dévoile de notre ignorance sur le fonctionnement des bactéries. La constatation du fait qu'entre un tiers et la moitié des gènes présents dans les génomes bactériens a une fonction inconnue est d’importance fondamentale pour comprendre ce qu’il reste encore à découvrir. C’est cette découverte, issue de l’analyse in silico, qui est à l’origine de l’analyse exploratoire des génomes.

La rupture épistémologique créée par la génomique est profonde, puisqu’elle représente aussi la remise en question de l’approche hypothético-déductive classique en biologie expérimentale (Goodman 1999). Dans ce modèle classique de recherche, il y a une définition préalable de l’hypothèse à tester, suivie de la définition d’une expérience ayant comme objective sa confirmation ou sa négation. Les raisonnements sous-jacents à cette approche semblent assez raisonnables. Non seulement elle permet une définition objective des hypothèses, mais elle conduit généralement aussi à un bon rapport résultats/coût pour le résultat attendu. Et pourtant, c’est justement ce bon rapport qui est remis en question par la génomique. La collection de génomes complets est probablement la plus grande collection "libre d’hypothèses préalables" de l’histoire de la biologie (Goodman 1999). De plus, elle est moins coûteuse que l’approche de séquençage gène par gène (i.e. sujet par sujet) (Dujon 1996). Une fois obtenue, l’information sur le génome peut être examinée par la communauté scientifique de plusieurs façons et perspectives (Clayton et al. 1998). De plus, cette "recherche dirigée par les données" n’est pas seulement une alternative, c’est aussi une nécessité quand il n’y a pas de connaissances préalables suffisantes pour définir des hypothèses objectives et précises.

Devant un nouveau génome, le chercheur est un peu comme les explorateurs du XIVième siècle devant un nouvel océan : si on ne connaît rien, comment savoir où aller ? En fait, les hypothèses définies aujourd’hui par les chercheurs sont fondées sur une énorme masse de données acquises dans le passé. Cette situation ressemble beaucoup au travail des naturalistes du XVIIIième et XIXième siècles qui recueillaient des spécimens partout dans le monde en quête de règles et de formalisations. Dans ces deux cas, l’exploration est la seule voie. Pour les biologistes du XIXième siècle, ceci a abouti à une énorme masse de données qui, même sans d'hypothèse préalable, a été à la base des théories de l'évolution des espèces (Depew & Weber 1995).

Cependant, l’approche exploratoire a ses limites et ses dangers. Puisqu’elle est plus générale, il est plus difficile de décomposer les effets dans le tout. Il est également plus difficile de sortir du domaine de la simple description vers celui des théories et modèles.

Finalement, nous revenons à notre question d’origine : qu’est ce que la génomique ? En l’absence d'une définition dans le dictionnaire, nous pouvons la définir comme ce qui concerne l’analyse des génomes, pris comme un tout. C’est une définition assez générale, et vague en conséquence, qui a été créée en 1986 par Thomas Roderick (Hieter & Boguski 1997) pour décrire la discipline scientifique consacrée à cartographier, à séquencer et à analyser les génomes (et qui par ailleurs a été utilisée la première fois pour baptiser un journal scientifique).

Aujourd'hui la génomique est en train de se déplacer rapidement d’une vision centrée sur le séquençage vers celle de l’analyse des fonctions. Certains appellent "génomique fonctionnelle" cette seconde phase (Hieter & Boguski 1997), puisqu’on se focalise sur la fonction des gènes. En fait, il n’y a pas que la fonction des gènes qui est importante, il faut y ajouter l’évolution et l’organisation de l’information génétique. Ce n’est qu’avec ces deux autres composantes, malheureusement fréquemment oubliées dans l’exaltation de la génomique, que le tableau se complète.

Nous décrirons de façon brève, dans les prochains paragraphes, les principaux projets de séquençage de bactéries et ce qu’ils nous ont appris.

Les projets de séquençage

Le premier génome à ADN entièrement séquencé a été celui du bactériophage FX174 (5386 pb) en 1978 (Sanger et al. 1978). Les 17 années suivantes ont vu apparaître plusieurs autres génomes de virus, de mitochondries et de chloroplastes. Contrairement à l’attente générale Escherichia coli, le plus important des modèles bactériens, n'a pas été séquencé le premier, mais une autre protéobactérie : Haemophilus influenzae (Fleischmann et al. 1995) l’a devancé. C’était en 1995 et cette date marque le début de l’âge de la génomique bactérienne.

Les prem iers génomes

L’originalité du projet de séquençage de Haemophilus influenzae réside dans la stratégie utilisée : tout le génome a été fragmenté aléatoirement, tous les morceaux séquencés et finalement assemblés. Ce projet a démontré qu’il n'était pas nécessaire de connaître la carte physique d'un génome pour le séquencer entièrement. Cette méthode avait déjà été utilisée précédemment, mais pour des génomes beaucoup plus petits, comme le phage Lambda (Sanger et al. 1982). Au-delà de la prouesse technique, il n’y aurait pas eu de génome complet sans un fort investissement dans la création de logiciels d’assemblage des fragments. C’est en effet un problème très difficile du point de vue de l'informatique (Galant et al. 1980), qui limite encore la taille des génomes séquencés selon cette approche.

Tableau 1 - Génomes bactériens complets en décembre 1999.

Espèce bactérienne

longueur

(pb)

G+C (%)

gènes (#)

codant (%)

ARNr

ARNt

%gènes

précoce

Aeropyrum pernix

1669695

56.31

2694

1.15

5

47

-

Aquifex aeolicus

1551335

43.48

1522

0.94

6

44

-

Archaeoglobus fulgidus

2178400

48.58

2407

0.94

3

46

-

Bacillus subtilis

4214814

43.52

4098

0.87

30

88

75

Borrelia burgdorferi

910724

28.59

850

0.94

5

34

65

Campylobacter jejuni

1641480

30.5

1731

0.95

9

43

-

Chlamydia pneumoniae

1230230

40.58

1052

0.90

3

38

 
Chlamydia trachomatis

1042519

41.31

894

0.90

6

37

55

Escherichia coli

4639221

50.79

4289

0.88

22

86

55

Haemophilus influenzae

1830138

38.15

1709

0.88

18

18

56

Helicobacter pylori

1667867

38.87

1566

0.91

7

36

58

Helicobacter pylori J99

1643831

39.19

1491

0.91

-

-

58

Methanococcus jannaschii

1664970

31.43

1715

0.88

6

37

53

Methanobacterium thermoautotrophicum

1751377

49.54

1869

0.90

6

39

56

Mycoplasma genitalium

580074

31.69

480

0.91

3

36

80

Mycoplasma pneumoniae

816394

40.01

677

0.88

3

33

78

Mycobacterium tuberculosis

4411529

65.61

3909

0.91

3

45

59

Pyrococcus abyssi

1765118

44.71

1763

0.91

5

46

-

Pyrococcus horikoshii

1738505

41.88

2058

0.99

3

46

-

Rickettsia prowazekii

1111523

29.00

834

0.77

3

33

61

Synechocystis spp C125

3573470

47.72

3163

0.87

6

43

-

Thermotoga maritima

1860725

46.25

1846

0.96

3

46

-

Treponema pallidum

1138011

52.77

1031

0.94

6

45

65

Pourtant les résultats ont confirmé les analyses des premiers chromosomes complets de S. cerevisiae (Dujon 1996) et des longs contigs de Escherichia coli (Blattner et al. 1993). En effet, la séquence de Haemophilus influenzae (1.83 Mb) contient environ 1743 gènes putatifs, parmi lesquels 40 % n’ont pas de fonction connue. La moitié de ces gènes n'ont pas d’homologues dans les bases de données, alors que l’autre moitié possède des homologues dont on ignore également la fonction (Fleischmann et al. 1995). Cette observation s’est répétée à chaque publication d’un nouveau génome, même si les chiffres précis varient suivant l’organisme et les méthodes utilisées (Tableau 1). Une actualisation des annotations de Haemophilus influenzae a permis d’assigner une fonction à 15 % de ces "gènes orphelins" qui, parfois, résultaient d'erreurs de séquençage (Clayton et al. 1998). Ce résultat démontre que l’obtention de génomes complets doit être suivie d’efforts d’actualisation des annotations et de la séquence elle-même (Moszer 1998).

Jusqu’à la parution du génome complet de Haemophilus influenzae, le séquençage de génomes bactériens ne constituait une priorité ni pour la plupart des chercheurs ni pour les agences de financement (Danchin 1995) (Tang 1997). Après sa publication, tout le domaine a été bouleversé et le séquençage de bactéries a connu un essor qui se prolonge jusqu’à nos jours. Peu après Haemophilus influenzae est paru le génome de Mycoplasma genitalium, la bactérie possédant le plus petit génome connu à l’époque (Fraser et al. 1995). La stratégie utilisée pour séquencer le génome de Mycoplasma genitalium fut identique à celle employée dans le cas de Haemophilus influenzae, mais fut facilitée par l’existence de cartes physiques et génétiques et d'études préalables de séquençage aléatoire (Peterson et al. 1993). Les 470 régions codantes prédites couvrent 88 % du génome, de manière similaire au cas de Haemophilus influenzae. Contrairement à la plupart des autres génomes, chez Mycoplasma genitalium le nombre de "gènes orphelins" n’est que de 20 %, ce qui est probablement dû à la très petite taille du génome (580 Kb) (Fraser et al. 1995) (Himmelreich et al. 1997).

La troisième bactérie entièrement séquencée a été Methanococcus jannaschii, une bactérie avec un chromosome circulaire de 1 664 kb et deux plasmides de 58 Kb et 16 Kb (Bult et al. 1996). Cette bactérie est intéressante pour plusieurs raisons : 1) c’est une archaea ; 2) elle vit dans des conditions extrêmes (94ºC et 200 atmosphères) ; 3) elle est autotrophe ; 4) elle est anaérobie stricte et 5) elle est méthanogène. Sur les 1 738 gènes prédits, seuls 38 % ont pu se voir attribuer une fonction précise, ce qui illustre de façon saisissante notre ignorance du domaine des archaea (Edgell & Doolittle 1997b).

Figure 2.2 - Les gènes de fonction connue, hypothétique et de fonction inconnue (en haut) des différents génomes bactériens (d’après la base de données MIPS (http://www.mips.biochem.mpg.de)).

Finalement, peu après le génome de Methanococcus jannaschii, sont sortis les derniers chromosomes de S. cerevisiae (Dujon 1996), ce qui a permis d’ajouter un eucaryote à la collection de génomes complètement séquencés. Ce génome est remarquablement compact pour un génome eucaryote, puisqu'il possède 16 chromosomes totalisant environ 12 Mb, et environ 72 % de régions codantes. S. cerevisiae possède environ 6 200 gènes putatifs, parmi lesquels 30 à 35 % n’avaient pas d’homologues dans les banques de données (Dujon 1996). Au-delà du fait que la levure est un modèle très important parmi les eucaryotes, la comparaison de ce génome avec les génomes bactériens connus à l’époque a permis l’analyse phylogénétique de génomes complets et l’approfondissement de l’étude sur l’origine des archaea (Tekaia et al. 1999). Cette séquence a également permis d’esquisser les premières études comparatives sur les différents mécanismes dans les eubactéries, les archaea et les eucaryotes (Edgell & Doolittle 1997a).

Les génomes des bactéries modèles

Le problème des génomes énumérés ci-dessus est qu’on ignore beaucoup de leur biochimie et de leur génétique. De plus, Mycoplasma genitalium et Methanococcus jannaschii poussent très difficilement en laboratoire. Il a fallu attendre jusqu’à la deuxième moitié de 1997 pour avoir enfin accès aux génomes complets des deux principaux modèles bactériens : Escherichia coli pour les protéobactéries et Bacillus subtilis pour les firmicutes (ou Gram positives).

Le génome d’Escherichia coli

L’importance de l’entérobactérie Escherichia coli provient du très grand nombre d’études génétiques, biochimiques et épidémiologiques auxquelles elle a donné lieu. Près de 500 protéines de Escherichia coli ont des structures 3D connues soit par analyse directe (rayons X ou RMN) soit par homologie. On dispose de plusieurs bases de données spécialisées sur son métabolisme, comme EcoCyc (Karp 1996) et KEGG (Kanehisa 1997). L’expressivité de ses gènes a aussi été analysée en détail et cette information est compilée dans un catalogue de gels 2D (VanBogelen et al. 1999). De plus, la famille des entérobactéries contient plusieurs des plus virulentes bactéries chez l’homme, notamment celles qui sont responsables du choléra, du typhus et de la dysenterie. La littérature sur Escherichia coli est tellement vaste qu'une recherche dans la base de données bibliographiques Medline, indique l'existence d’environ 170 000 articles citant cette espèce dans le titre ou dans le résumé. Le papier qui présente la séquence complète de cette bactérie indique l’existence de 4288 gènes putatifs (Blattner et al. 1997). En dépit de tous les travaux publiés sur cet organisme 40 % des gènes n’ont pas de fonction connue ou même putative. Les analyses du génome ont par ailleurs révélé une organisation significative, puisque les gènes fortement exprimés se trouvent plutôt au voisinage de l’origine de réplication et sur le brin précoce (Sharp et al. 1989) (Blattner et al. 1997). On observe également des biais associés à la réplication (Lobry 1996a) et l'existence d'une forte structuration en opérons, révélé par l’existence de nombreux terminateurs rho-indépendants (Carafa et al. 1990). Enfin, Ce génome contient aussi de nombreuses séquences d’insertion, de vestiges de phages et d'éléments transférés horizontalement (Médigue et al. 1991) (Lawrence & Ochman 1998).

Le génome de Bacillus subtilis

Bacillus subtilis est le mieux caractérisé des firmicutes. Son génome, d’environ 4,2 Mb, contient environ 4100 gènes, parmi lesquels 42 % n’ont pas pu être classés sur la base de l’homologie de séquence (Kunst et al. 1997). La classification de ces 4100 gènes en familles fonctionnelles, a révélé qu’environ 53 % des familles contiennent un seul gène, alors que certaines familles sont très nombreuses, la famille des ATP-transporteurs étant la plus nombreuse avec 77 gènes (Kunst et al. 1997). Au contraire de la plupart des bactéries séquencées, Bacillus subtilis n’est ni un agent infectieux ni un extrêmophile. En conséquence son génome peut apporter des informations précieuses sur les bactéries mésophiles et en particulier sur celles qui habitent le sol. Il faut préciser que le sol est le plus grand réservoir de bactéries sur la planète, il contient entre 4 et 5 ordres de grandeur de fois plus de bactéries que tous les animaux réunis (Whitman et al. 1998). L’analyse du génome de Bacillus subtilis a révélé qu’une partie importante de son information génétique intervient dans l’utilisation de différentes sources de carbone et, en particulier, des sources d'origine végétale.

Le génome de Bacillus subtilis a un contenu G+C de 43 %, de distribution hétérogène, puisqu’il présente des îlots de fort contenu A+T. Ces îlots sont associés à des prophages insérées dans le chromosome comme SPb et PBSX, à des éléments mobiles, à des régulateurs de la sporulation, comme skin, et à des régions transférées horizontalement (Kunst et al. 1997). De plus, le contenu en guanine et en cytosine est différent entre les deux brins de réplication, avec un plus grand pourcentage de guanine dans le brin précoce et de cytosine dans le brin tardif (Lobry 1996a) (Kunst et al. 1997). Cet effet provoque une très importante inversion du rapport (G-C)/(G+C) à l’origine et au terminus de la réplication.

Publication I- Kunst F. et al. 1997, The complete genome of the Gram+ bacterium Bacillus subtilis, Nature

Les (presque) doublons

En fin de 1999 presque tous les taxons bactériens sont représentés dans la banque des génomes complets, ce qui permet l’analyse des différences entre eux. Néanmoins, les microbiologistes sont souvent plus intéressés par les petites différences entre des organismes proches, voire des souches d'un même organisme. Un cas typique est celui de la virulence chez les bactéries pathogènes. Différentes souches d’un même organisme peuvent varier très significativement en termes de virulence, comme est le cas des souches de Escherichia coli O157:H7 et K12 (Plunkett et al. 1999). Fréquemment ces différences s’expliquent par l’introduction dans les génomes de cassettes de virulence (e.g. chez Salmonella tiphymurium (Groisman & Ochman 1997)) ou de plasmides porteurs de gènes de virulence (e.g. chez Shigella flexneri (Dorman & Porter 1998)). Ainsi le séquençage de génomes complets d’espèces assez proches (voire de souches d'une même espèce) a été envisagé très tôt. Aujourd’hui on possède déjà quelques cas de ces (presque) doublons.

Mycoplasma genitalium et Mycoplasma pneumoniae sont des firmicutes tellement proches que tous les gènes de Mycoplasma genitalium (le plus petit) ont un homologue chez Mycoplasma pneumoniae (Himmelreich et al. 1997). Cependant, ces génomes ont des tailles et des contenus G+C très différents, 580 kb et 32 % pour Mycoplasma genitalium (Fraser et al. 1995) et 816 kb et 40% pour Mycoplasma pneumoniae (Himmelreich et al. 1996). Les deux organismes sont pathogènes chez l’homme et dépendent de l’hôte pour l’acquisition des nutriments essentiels (Dybvig & Voelker 1996). Mycoplasma pneumoniae est souvent rencontré dans les voies respiratoires alors que Mycoplasma genitalium s’installe dans la région urogenitale (Razin et al. 1998). L’analyse comparative de ces deux génomes a permis leur subdivision en 6 segments où l’ordre des orthologues est maintenu, même si les 6 segments sont disposés différemment dans les deux génomes, probablement en raison de translocations par recombinaison homologue (Himmelreich et al. 1997). Plusieurs gènes de ces bactéries présentent des répétitions qui sont utilisées pour échapper au système immunitaire de l'hôte (Himmelreich et al. 1997) (Razin et al. 1998). On reparlera de ces répétitions au chapitre 7.

Deux autres paires d’organismes, entièrement séquencés, ont fait l'objet d'analyses comparatives : la paire Chlamydia pneumoniae et Chlamydia trachomatis (Kalman et al. 1999) et la paire Borrelia burgdorferi et Treponema pallidum (Fraser et al. 1998). Ces quatre organismes sont pathogènes chez l’homme, mais les absences de données métaboliques et d’outils génétiques rendent les comparaisons génomiques moins fructueuses. Les Chlamydiae sont des eubactéries intracellulaires obligatoires bien séparées du point de vue phylogénétique des autres groupes. Les deux Chlamydiae séquencées sont des pathogènes humains responsables de la pneumonie, la bronchite (C. pneumoniae), le trachome et plusieurs maladies sexuellement transmissibles (C. trachomatis). Le premier de ces génomes mesure 1,23 Mb et possède 1073 gènes putatifs alors que le second mesure 1,04 Mb et possède 894 gènes putatifs. Les 214 gènes qui se trouvent chez C. pneumoniae, mais pas chez C. trachomatis, ont, pour la plupart, des fonctions inconnues et manquent d’homologues dans les bases de données. On trouve dans ce groupe de gènes une famille composée de 21 variantes de protéines de la membrane extérieure (Kalman et al. 1999), soulignant une fois de plus le rôle fondamental de ces protéines dans la pathogénicité.

Les deux Spirochètes actuellement séquencés sont également des organismes pathogènes responsables de maladies assez graves : la syphilis pour Treponema pallidum et la maladie de Lyme pour Borrelia burgdorferi. La distance évolutive important entre ces deux espèces fait que bien qu'ayant des génomes de taille similaire (1,14 Mb pour T. pallidum et 911 kb pour Borrelia burgdorferi) la comparaison n'ait abouti qu'à très peu de résultats concrets (Fraser et al. 1998).

Jusqu’à présent Helicobacter pylori a été la seule espèce pour laquelle deux souches différentes ont été entièrement séquencées et publiées, la souche 26695 (1,667 Mb) (Tomb et al. 1997) et la souche J99 (1,644 Mb) (Alm et al. 1999). La petite différence entre les tailles est bien représentative de la similarité générale des deux chromosomes. L’organisation génomique, l’ordre des gènes et les protéines prédites pour les deux génomes sont très similaires, à l’exception de 6 % à 7 % des gènes qui semblent spécifiques de chaque souche (Alm et al. 1999). La moitié de ces gènes sont agrégés dans une région très variable. La comparaison des deux souches révèle aussi quelques inversions et translocations de régions associées à la recombinaison entre paralogues qui codent pour des protéines membranaires.

Quelques perspectives ouvertes par la génomique

L’arbre de la vie

On s’attendait à ce que les données issues des projets de séquençage n’aient qu'une faible influence sur notre connaissance de l’arbre du vivant. Sauf peut-être au niveau des détails, on s’attendait à voir confirmer l’arbre construit avec un nombre considérable de sous-unités 16S des ribosomes par Carl Woese et collègues (Woese et al. 1990). La comparaison des séquences d'ARNr suggérait que l’évolution à partir du dernier ancêtre commun ait d'abord créé deux branches : d’un côté les eubactéries, de l’autre côté les archaea et les eucaryotes. Ensuite, cette seconde branche aurait divergé séparant les archaea et les eucaryotes. Mais finalement l’analyse des génomes semble révéler un scénario plus complexe.

Ces analyses ont permis l’établissement d’arbres phylogénétiques pour un grand nombre de gènes. Fréquemment ces arbres ne sont pas concordants (Harvey et al. 1996). La raison sous-jacente à beaucoup de ces incongruités réside peut être dans l’utilisation abusive des méthodes de reconstruction (Philippe & Laurent 1999) ou dans le remplacement fonctionnel de paralogues par d’autres gènes (Forterre 1999). Cependant le grand nombre de cas trouvés récemment suggèrent également qu’une bonne partie de l’évolution des procaryotes se soit faite par l’acquisition horizontale de gènes. La fréquence de transfert de ces gènes semble fortement liée à leur fonction. Ainsi, sont plus fréquemment transmis tous les gènes qui peuvent donner des avantages immédiats à la bactérie comme les gènes de résistance aux antibiotiques ou les facteurs de virulence (Syvanen 1994). Par ailleurs, les gènes liés à la traduction, la transcription et la réplication (gènes d’information) sont beaucoup plus rarement transmis que les gènes liés aux fonctions métaboliques (gènes de ménage) (Rivera et al. 1998). La raison de ceci tient très probablement aux grands complexes formés par les gènes d’information et à la multitude d’interactions directes entre ces protéines (Jain et al. 1999). Ceci contraint significativement la gamme de variantes susceptible de remplacer le gène résident. A l'inverse, les protéines de "ménage" agissent typiquement seules ou en petits complexes (Jain et al. 1999). Finalement, les exemples de transfert massif de gènes entre organismes lointains comme Thermotoga maritima et plusieurs archaebactéries sont probablement dus à leur coexistence dans des environnements très hostiles (Logsdon & Faguy 1999). Si les chiffres de 24 % de gènes transférés des archaea vers cette bactérie se confirment (par rapport aux 52 % d’origine eubactérienne), on peut se demander alors quel est le sens d’un arbre phylogénétique dans ce contexte (Figure 2.3) (Nelson et al. 1999).

Figure 2.3 - Gènes de Thermotoga maritima dont le meilleur homologue est dans une eubactérie ou une archaea (d’après (Nelson et al. 1999)).

Le deuxième type d’études qui a bouleversé notre vision de l’arbre du vivant est basé sur l’analyse comparative des protéomes. L’observation à la base du problème est que les archaea se groupent à côté des eubactéries en ce qui concerne le métabolisme, mais à côté des eucaryotes si l’on considère les gènes liés à la transcription et à la traduction (Doolittle & Logdson 1998). Ces différences reflètent des problèmes de classification dus au transfert horizontal et aux vitesses différentes de substitution des nucléotides, mais elles reflètent également le fait que l’on esquisse une histoire des gènes et pas vraiment celle des organismes (Tekaia et al. 1999). Ce type de classification présente un aspect simpliste puisqu’il ne prend pas en compte le fait que les génomes ne soient pas des "sacs de gènes" (Huynen & Bork 1998). Les études dédiées à ces questions ne font que débuter, mais il est probable qu’elles changeront profondément notre vision de l’évolution bactérienne dans l’avenir.

Figure 2.4 - L’arbre phylogénétique des organismes procaryotes et le nombre d'espèces séquencées par taxon.

La dynamique du génome

Par définition le séquençage ne fait que prendre un instantané de l’état du génome. De ce point de vue, il n’est pas étonnant de constater que la plupart des résultats récemment publiés sur la dynamique des génomes sont issues d’études d'électrophorèse et non du séquençage de génomes complets (Kolsto 1997). Néanmoins, la publication de séquences complètes de génomes très proches commence aussi à apporter d’importantes informations dans ce domaine. La structure des génomes bactériens peut être analysée à des niveaux très divers, en incluant la fréquence des oligonucléotides, le contenu G+C, les biais de brin de réplication, l’organisation des gènes, les structures d’opérons, la longueur, le nombre et la géométrie des réplicons, la présence ou l'absence de séquences d’insertion, etc. Comme une bonne partie de cette thèse porte sur ces sujets, nous nous contenterons, pour l’instant, de résumer l’état des connaissances sur ces questions.

La taille des génomes bactériens peut varier considérablement, des 580 kb de Mycoplasma genitalium, jusqu’aux 9.2 Mb de Myxococcus xanthus (Casjens 1998). Cet intervalle de valeurs chevauche celui des plus grands virus (le bacteriophage G mesure 670 kb) et celui des plus petits eucaryotes (les Microsporidiae mesurant moins de 3 Mb). La taille moyenne des gènes des génomes séquencés se situe entre 900 pb et 1 kb, et les gènes occupent environ 90 % du génome. L’exception la plus importante est Rickettsia prowazekii qui présente seulement 74 % de codant (Andersson et al. 1998). La taille du génome est très corrélée au mode de vie des bactéries. Ainsi, les bactéries à plus petit génome sont "spécialistes", typiquement parasites obligatoires, qui ne poussent que dans les hôtes ou dans conditions très spécifiques (Razin et al. 1998) (Andersson & Kurland 1998). Par contre les bactéries à grand génome sont "généralistes", parfois avec des formes élémentaires de différentiation comme la sporulation (Frandsen et al. 1999), la compétence (Lorenz & Wackernagel 1994) ou la formation de micelles (Velicer et al. 1998).

La taille des génomes varie significativement dans un même groupe phylogénétique, par exemple les Spirochaetes varient entre 910 kb et 4.6 Mb et les protéobactéries entre 1.2 Mb et 9.4 Mb (Casjens 1998). De plus, on retrouve dans la même espèce des tailles de génomes très différents. Chez Bacillus cereus, par exemple, la taille du chromosome varie entre 2.4 Mb et 6.3 Mb (Carlson & Kolsto 1994). Chez Escherichia coli on a trouvé des génomes avec des tailles différant de plus de 1 Mb (Bergthorsson & Ochman 1995), l’augmentation correspondant surtout à du transfert horizontal de matériel génétique (Bergthorsson & Ochman 1998).

La découverte que Borrelia burgdorferi avait un chromosome linéaire (Baril et al. 1989), a bouleversé un vieux paradigme de la génétique bactérienne voulant que ces chromosomes soient toujours circulaires (Kolsto 1997). On connaissait déjà des plasmides linéaires chez les Streptomyces et le séquençage de Borrelia burgdorferi a révélé une grande quantité de plasmides linéaires et circulaires (Fraser et al. 1997). La structure des télomères de ces réplicons linéaires suit deux modèles différents. Chez Borrelia, les terminaisons du chromosome sont liées de façon covalente par une épingle à cheveux. Par contre, les télomères des Streptomyces sont ouverts et contiennent des motifs répétés, à l'image des télomères des eucaryotes (Volff & Altenbuchner 1998).

La plupart des bactéries ont un chromosome unique, éventuellement complété par d’autres éléments génétiques comme les plasmides. Néanmoins, on a récemment mis en évidence des familles bactériennes avec plusieurs réplicons de plus de 100 kb (Casjens 1998). Par exemple, six espèces de Brucella ont deux chromosomes de tailles respectives 2.1 Mb et 1.2Mb, les deux portant des gènes essentiels (Michaux et al. 1993). De plus les bactéries ne sont pas strictement haploïdes. Non seulement dans une cellule en croissance exponentielle coexistent plusieurs copies à des étapes différentes de réplication, mais on trouve aussi des bactéries où la polyploïdie est la règle (Casjens 1998). Deinococcus radiodurans possède 4 ou 5 copies de son chromosome qui lui permettent de reconstruire son chromosome après une exposition prolongée à un rayonnement radioactif ou à des périodes de sécheresse extrême (Daly & Minton 1995) (Battista et al. 1999).

Analyse des réseaux métaboliques

Récemment sont apparues des bases de données dédiées à la représentation des connaissances métaboliques et destinées à assister le processus d’annotation (Karp & Riley 1993). Il y a actuellement trois principaux projets de reconstruction semi-automatique de voies métaboliques par l’analyse des génomes, KEGG au Japon (Kanehisa 1997), WIT (Gaasterland & Selkov 1995) et Metacyc (Karp 1996) aux Etats-Unis. Puisque ces projets sont basés sur des concepts similaires, quoique légèrement différents dans le détail et l'implémentation, nous ne décrirons ici que KEGG. Le projet KEGG, qui est l’acronyme de Kyoto Encyclopaedia of Genes and Genomes, a pour but l’informatisation de la connaissance actuelle des voies métaboliques et régulatrices. Ces voies sont considérées comme des diagrammes représentant les liaisons entre les gènes, entre les protéines et entre les protéines et les gènes (Kanehisa 1997). KEGG incorpore la carte métabolique de Boehringer et une représentation graphique de plus de 100 voies métaboliques, dessinées manuellement. Tous les gènes d’enzymes sont identifiés par un numéro de code standardisé (EC number). Les voies métaboliques de l’organisme sont générées automatiquement par la mise en correspondance des numéros EC de la banque génomique avec ceux de la banque métabolique (Bono et al. 1998). Ces voies sont construites par l'utilisation comparative du catalogue génomique et des voies de référence. Quand une voie est complète, cette approche renforce les résultats de l’analyse de similarité.

Néanmoins, c’est quand la connaissance est incomplète que la méthode devient vraiment intéressante. Ceci peut arriver quand l'identification fonctionnelle des gènes est erronée. Une autre possibilité est que notre connaissance sur la voie soit insuffisante, ce qui suggère la recherche d’enzymes alternatives qui pourraient réaliser la réaction en question (Bono et al. 1998) (Tomii & Kanehisa 1998). Ainsi, ces outils permettent simultanément la représentation des voies métaboliques, la confirmation des fonctions annotées et la découverte de fonctions ou voies alternatives.

Plusieurs problèmes doivent encore être résolus avant que ces projets n’atteignent leurs buts ultimes qui seraient la modélisation complète du métabolisme, de la régulation génétique et de son évolution. En particulier, il subsiste encore de nombreux trous dans notre connaissance du métabolisme (ce que reflète le grand nombre d’ORFs de fonction inconnue), ainsi que de sa régulation.

Génomique structurale

L’ensemble des protéines codées sur le génome peut être considéré comme une collection de repliements 3D suffisants pour assurer les principales fonctions cellulaires, comme le métabolisme, la réplication ou la gestion de l’information (Frishman & Mewes 1999). Le terme "génomique structurale" a donc été utilisé pour désigner les études de l’ensemble de protéines des génomes, i.e. l’étude du protéome du point de vue de la structure tridimensionnelle. Même si ce thème de recherche a de fortes ressemblances avec l’analyse fonctionnelle in silico, il est rendu beaucoup plus ardu par la difficulté de prédiction de structures tertiaires des protéines. La classification des repliements existants se heurte ainsi à des difficultés diverses, dont, en particulier, l’inexistence d’un consensus sur les archétypes de repliements (Orengo et al. 1994) (Holm & Sander 1996). De plus, sauf dans des cas très particuliers comme les protéines membranaires, la liaison entre les classes de repliement et la fonction de la protéine n'est pas toujours évidente.

La méthode de référence en génomique structurale est le threading. Cette technique est basée sur le fait que les structures tertiaires des protéines sont plus conservées que les structures primaires (Chothia & Lesk 1986). Le threading consiste à essayer de déterminer si une séquence donnée est compatible avec un des repliements connus. Pour comparer une structure linéaire avec une structure tridimensionnelle, il faut que cette dernière soit représentée en termes de la probabilité qu’un aminoacide donné soit présent dans une certaine position du repliement (Bowie et al. 1991). On enfile (to thread) la séquence sur la structure 3D en cherchant à minimiser l'énergie d'interaction de l'ensemble des résidus. Cette énergie d'interaction est le plus souvent calculée par des potentiels statistiques dépendant des distances entre toutes les paires d'acide aminées de la séquence positionnées sur la structure 3D (Sippl & Flockner 1996). En utilisant le threading, Fisher et Eisenberg (Fisher & Eisenberg 1997) ont augmenté de 6 % le nombre de protéines caractérisées structurellement dans le génome complet de Mycoplasma genitalium. Ils ont aussi estimé qu’une augmentation d'un facteur 3 du nombre de protéines de structure 3D connue, permettrait la caractérisation de toutes les protéines solubles de ce génome. Une étude plus récente a conduit à des résultats similaires (Rychlewski et al. 1998). Enfin, une autre étude utilisant la méthode PSI-Blast est arrivée à détecter pour 37 % des protéines de Mycoplasma genitalium au moins un domaine de repliement commun avec une protéine de structure connue (Huynen et al. 1998).

La paillasse après l’analyse in silico

Après l’obtention des génomes et leur analyse préliminaire, il reste encore beaucoup à apprendre sur leurs composants génétiques et surtout sur le fonctionnement général de l’organisme. Deux approches permettent de combler partiellement ces trous dans la connaissance des systèmes génétiques : l’analyse de l’expression génique et la protéomique. Ces deux approches sont complémentaires puisque l'une analyse la partie qui correspond à la transcription et l’autre la partie qui correspond à la traduction (Figure 2.5). Les deux sont des approches qui se veulent à "haut débit", puisqu’il s’agit d’analyser des génomes entiers dans un délai court.

Figure 2.5 - Les différents niveaux d'étude de la génomique post-séquençage.

Analyse de l’expression génique à grande échelle

L'analyse quantitative à grande échelle de l’expression génique connaît actuellement un grand bouleversement provoqué par l’arrivée de méthodes capables de détecter simultanément l'expression de dizaines de milliers de gènes différents (Gerhold et al. 1999). L’approche générale est basée sur l’utilisation de matrices d'ADN comme cibles d’hybridation d’une sonde préparée à partir de l'ARNm cellulaire (Figure 2.6). La sonde est produite par transcription reverse de l'ARNm et étiquetage radioactif ou fluorescent. En théorie la technique est quantitative, l'intensité du signal étant une fonction croissante de la quantité d'ARNm présent dans la cellule. La technique permet ainsi la mesure simultanée de l’abondance de chaque espèce présente sur la matrice et en conséquence des niveaux d’expression des gènes correspondants (Granjeaud et al. 1999). En pratique, néanmoins, la quantification soulève de nombreux problèmes.

Figure 2.6 – Schéma de l'analyse du transcriptome par moyen des techniques d'hybridation.

Il faut que l’hybridation soit réalisée en conditions de grand excès de cible et la mesure de l'information doit être faite en phase initiale d’hybridation. Dans ces conditions la cinétique est approximativement linéaire et autorise la quantification (Nguyen et al. 1995). Pendant l’expérience, seule une petite partie des sondes s'hybride à une cible donnée. Le taux de couverture d'une cible à la fin d'une expérience typique est de l’ordre de 1 % (Granjeaud et al. 1999). En conséquence, les intensités de signal sont assez faibles, ce qui implique l'utilisation de détecteurs très sensibles. Simultanément plusieurs artefacts doivent être éliminés, par exemple l'hybridation non spécifique due à des répétitions ou à des séquences de poly-A (Nguyen et al. 1995).

Il y a actuellement quatre systèmes différents de matrices, qui diffèrent au niveau du matériel, de la sensibilité, de la densité de cibles et du coût. Dans les membranes à haute densité, des colonies d'ADNc sont régulièrement espacées de 1 à 2 mm. La détection est réalisée au moyen de sondes radioactives. Les microarrays de nylon constituent un développement plus récent des membranes à haute densité. En raison de leur petite taille, ils permettent des mesures plus sensibles. Ces deux systèmes sont relativement peu coûteux, mais leur limite de détection est relativement modeste (Granjeaud et al. 1999). Les microarrays de verre constituent probablement le système le plus connu. Dans ce cas, les spots d'ADNc sont déposés sur une lame de verre et hybridés avec des sondes étiquetées par fluorescence (Graves 1999). La haute résolution de la détection optique permet un espacement réduit entre spots (300 mm ou moins). On est ainsi arrivé à placer 5000 gènes/cm2 (Granjeaud et al. 1999), ce qui permet l’analyse d’un grand nombre de gènes en une seule expérience. Les chips d'oligonucléotides contiennent des milliers d'oligonucléotides différents sur un petit chip de verre ou silicium. Les oligonucléotides sont synthétisés in situ par des réactions photochimiques et suivant une technologie de masquage similaire à celle utilisée dans la manufacture des microprocesseurs (Granjeaud et al. 1999). La limite de détection de cette technique est trois fois meilleure que celle des microarrays de verre, cependant elle exige des échantillons et des volumes d’hybridation plus importants.

La protéomique

La protéomique est l’étude de l'ensemble des protéines exprimées dans une cellule à un instant donnée dans le dessein d'obtenir une vision globale des processus cellulaires. Cette thématique est de très grande importance pour déterminer les fonctions des protéines codées par le génome, leurs interactions, et comment leur concentration varie en fonction des conditions environnementales et de développement. Puisque par similarité des séquences, il y a trop de gènes auxquels nous ne savons pas attribuer de fonction, la protéomique complète l'approche in silico. De plus, les relations entre protéines et les phénotypes sont encore trop mal comprises pour être traités exclusivement par l’analyse informatique (Blackstock & Weir 1999).

La protéomique est basée sur l’analyse de gels d’électrophorèse 2D (Figure 2.7), qui constitue la façon la plus performante de séparer des mélanges complexes de protéines. Cette technique est aujourd’hui très reproductible et l’utilisation de colorants fluorescents permet la visualisation et la quantification de milliers de protéines simultanément (Blackstock & Weir 1999). Néanmoins, il reste encore des problèmes importants à résoudre. Les protéines insolubles (comme les protéines membranaires) ne sont pas facilement analysables par cette méthode. En raison du chevauchement des spots, les protéines très exprimées cachent parfois d’autres protéines plus faiblement exprimées. Ainsi, la technique donne encore des résultats modestes pour les protéines présentes à moins de 1000 copies par cellule (Rabilloud et al. 1997). Il a également été suggéré que près d'un quart de tous les spots d’un gel correspondent à des modifications des mêmes protéines, ce qui complique sérieusement l'analyse (Cellis & al 1995). Les logiciels existants sont aussi limitants puisqu’ils demandent de 1 à 8 heures d’édition manuelle par gel (Blackstock & Weir 1999).

Mais le principal problème réside dans l’identification des spots à l’aide des banques d'EST et de la spectrométrie de masse. Le poids moléculaire de la protéine est en soi insuffisant pour permettre l'identification univoque des spots. En conséquence, la plupart des méthodes utilisent une protéolyse préalable et identifient les divers peptides à l’aide d’une analyse simultanée des banques de données et des spectres de masse (Courchesne et al. 1998). C’est probablement dans la liaison entre la spectrométrie de masse et la recherche dans les banques que se feront les plus grandes avancées de cette méthode (Blackstock & Weir 1999).

Figure 2.7- Démarche de la protéomique.

La protéomique peut être divisée en deux domaines principaux : l’analyse de l’expression des protéines et l’identification de complexes protéiques. L’analyse de l’expression est l’étude des changements globaux d’expression de protéines dans les tissus ou organismes. Joignant le gel 2D et l’analyse d’image cette approche présente l’avantage de déterminer de manière directe l’abondance de la protéine et la détection de modifications post-traductionnelles (Blackstock & Weir 1999). Comme il a été suggéré que la corrélation entre la concentration en ARNm et celle de la protéine associée est en réalité faible (Anderson & Seilhamer 1997), il est souvent préférable de travailler au niveau des protéines, même si l’automatisation des tâches n’est pas aussi avancée que dans le domaine des chips. Par ailleurs, l’identification des interactions ou de la co-localisation cellulaire de protéines associées peut aider significativement à la découverte de la fonction d'une protéine. C’est le but principal de la deuxième thématique de la protéomique, où des techniques comme celle du double hybride joueront probablement un rôle important (Blackstock & Weir 1999).