Le rôle évolutif des répétitions dans les génomes bactériens

Le concept de génome minimal

Les remaniements chromosomiques et les répétitions

La recombinaison homologue

À la recherche des répétitions

Conclusion


Le rôle évolutif des répétitions dans les génomes bactériens

Le concept de génome minimal

La quête du "génome minimal" constitue pour beaucoup un des saint Graal de la biologie moléculaire. Cependant l'information minimale requise pour le fonctionnement d’un organisme est une notion très contingente. Premièrement elle est relative à ce que nous entendons par organisme. L’organisme minimal dont on parle est un organisme autonome avec son métabolisme propre. En conséquence, les plasmides conjugatifs et les virus sont automatiquement exclus de cette définition.

Qu’est ce donc qu’un organisme minimal, fonctionnel et autonome ? On suppose qu’il doit : i) fonctionner (métabolisme), ii) être capable de se répliquer (reproduction), et iii) coder l’information génétique sur un support digital, tout cela de façon autonome. On écarte donc tous les organismes parasitaires obligatoires. En revanche, les bactéries de plus petite taille physique et génomique, les Mycoplasmes, obéissent à toutes ces conditions. En effet, même si les Mycoplasmes ont du mal à pousser hors de leurs hôtes, ceci est néanmoins possible dans certaines conditions (Dybvig & Voelker 1996). Les Mycoplasmes sont divisés en plusieurs groupes taxonomiques et, dans la plupart de ces groupes, on observe une tendance vers la réduction de la taille des génomes. Bien que ceux-ci ne soient jamais inférieurs a 500 kb, dans la plupart des groupes se trouvent des espèces dont les génomes dépassent à peine les 600 kb (Razin et al. 1998). Naturellement les Mycoplasmes ont été considérés comme les candidats idéaux pour rechercher un hypothétique génome minimal, dont la taille serait donc inférieure à 600 kb (Fraser et al. 1995).

Plusieurs études ont ainsi été consacrées aux Mycoplasmes et, en particulier, à Mycoplasma genitalium, le plus petit de tous et le premier à avoir été publié. Ces études, sont basées sur l'analyse des gènes qui présentent des homologues dans la plupart des bactéries avec l'idée que les gènes essentiels ne peuvent pas impunément disparaître du génome. Ces études concluent généralement à des tailles d’environ 250 gènes pour le génome minimal (Mushegian & Koonin 1996) (Mushegian 1999). Cependant la substitution fonctionnelle par des gènes qui ne sont pas des homologues peut compliquer ce raisonnement (Forterre 1999), et 250 serait donc une sous-estimation du nombre réel. A partir du comptage du nombre de loci nécessaires à la survie de la bactérie après mutagenèse aléatoire, Itaya est arrivé à une estimation de la taille minimale située entre 318 kb et 562 kb, i.e. entre 300 et 600 gènes (Itaya 1995). Ce chiffre est en accord avec les valeurs effectivement observées dans les Mycoplasmes et a l’avantage d’être plus réaliste du point de vue biologique.

Si l’évolution procède par bricolage d’éléments pris parmi ceux qui existent déjà (Jacob 1977), qu’est ce que l’optimalité ? Le bricolage place l’évolution très loin du concept d’optimisation familier aux ingénieurs et ne peut que très difficilement aboutir à un génome véritablement minimal (Maniloff 1996). Par ailleurs, le concept de génome minimal est très contingent aux caractéristiques de l’environnement et de la niche écologique de l’organisme. Puisque par définition le génome minimal n’a d'autres avantages compétitifs que celui d’être minimal, il sera nécessairement très peu adapté. Cette absence de viabilité écologique met clairement en question l'intérêt biologique de la démarche.

La question du génome minimal a souvent conduit à affirmer que les génomes bactériens devraient éviter fortement les séquences répétées. C'est cette perspective sur la question qui a attiré notre intérêt sur l'étude des répétitions dans les génomes bactériens. Notre conclusion est que, même si l’ADN est plus "cher" pour les bactéries que pour les eucaryotes, cela n’implique pas nécessairement l'absence de répétitions. De plus, dans certains contextes les répétitions peuvent même être très fortement sélectionnées. Ironiquement c'est dans les Mycoplasmes que nous trouvons les plus grandes densités de répétitions.

Les remaniements chromosomiques et les répétitions

Certains éléments répétés dans les génomes bactériens sont connus depuis longtemps. Les opérons ribosomiques sont souvent présents chez les bactéries en copies multiples (7 copies chez Escherichia coli et 10 copies chez Bacillus subtilis) (Schmidt 1998). Ces éléments sont nécessaires à la survie de la cellule, même si certains travaux indiquent que la réduction du nombre de copies n’implique pas la perte de viabilité (Condon et al. 1993). Les opérons des ARNr ont environ 5 kb de long et constituent une cible préférentielle pour la recombinaison intra-chromosomique. Ainsi plusieurs réarrangements chez Escherichia coli et Bacillus subtilis ont lieu par recombinaison entre ces éléments (Hill & Harnish 1981) (Gürtler 1999). Les ARNt sont aussi fréquemment la cible de processus de recombinaison, soit intra-chromosomique soit avec des éléments extérieurs, facilitant ainsi le transfert génétique horizontal (Hou 1999).

Parfois les remaniements chromosomiques sont programmés par rapport à un état physiologique de l’organisme. Chez Bacillus subtilis les répétitions qui flanquent l’élément skin sont cruciales lors de la sporulation. En effet, la recombinaison entre les deux répétitions provoque la délétion de l’élément skin au moment de la division asymétrique de la cellule mère (Stragier et al. 1989). Cette délétion provoque la restauration du gène qui déclenche l’étape finale de la sporulation.

Des répétitions liées à des structures secondaires d'ARN intergéniques ont été trouvées chez plusieurs eubactéries. La plupart d’entre elles ont une fonction inconnue, même si leur conservation en séquence suggère une forte pression fonctionnelle (Blaisdell et al. 1993) (Bachellier et al. 1996). Plusieurs de ces éléments sont groupés en familles apparentées par la séquence ou par la structure secondaire, comme les BIMES (Bachellier et al. 1994), les IRU (Sharples & Lloyd 1990), les ERIC (Versalovic & Lupski 1998), etc. La similarité entre les diverses copies de ces éléments fournit également une cible pour la recombinaison homologue (Lloyd & Low 1996). En conséquence, ces éléments sont souvent responsables de remaniements chromosomiques, de délétions ou de multiplications de régions du génome (Roth et al. 1996) (Bachellier et al. 1997) (Tomano 1999). De plus, les régions à forte structure secondaire sont souvent instables et sujettes à des délétions fréquentes (Sharp & Leach 1996). Par exemple, la présence de palindromes de taille supérieure à 150-200 pb entraîne la non-viabilité de Escherichia coli (Leach 1994).

Les éléments transposables constituent un type fortement répandu d'éléments répétés dans les génomes (Mahillon & Chandler 1998). De fait ces éléments sont très fréquemment présents dans régions transférées horizontalement comme les îlots de virulence ou près de gènes de résistance aux antibiotiques (Groisman & Ochman 1997) (Mazel et al. 1998) (Syvanen 1998). Cependant, il est difficile de justifier la sélection positive de ces éléments par leur utilité (Doolittle & Sapienza 1980). Les séquences d’insertion par leur existence en copies multiples et par leur caractère multiplicatif induisent fréquemment des inversions, des délétions et des interruptions de gènes (Deonier 1996). La plupart de ces changements sont nécessairement délétères dans une population bien adaptée (Orr 1998). En conséquence, ces éléments sont souvent considérés comme des éléments égoïstes ou parasitaires qui se reproduisent dans le génome (Dawkins 1976) (Doolittle & Sapienza 1980) (Orgel & Crick 1980) et sont parfois fixés dans la population par d'éventuelles mutations bénéfiques (Syvanen 1994). C'est probablement cette raison qui justifie leur association fréquente aux îlots de virulence.

D'autres éléments répétés ont été identifiés dans les génomes : les terminateurs rho-indépendants (Carafa et al. 1990), les signaux uptake chez Haemophilus influenzae et N. gonorrhoeae (Smith et al. 1995) (Kroll et al. 1998) et les recombinational hotspot sequences chez plusieurs enterobactéries (Wang et al. 1998) (Hill 1998).

La recombinaison homologue

Tous les organismes dépendent de la recombinaison pour le maintien de la stabilité de leur génome ainsi que pour la production de la variabilité génétique. Le terme recombinaison a été utilisé pour la première fois par Bateson, en 1905, pour décrire une exception à la loi de ségrégation indépendante des caractères (Depew & Weber 1995). La recombinaison homologue résulte d'une série d’interactions entre deux séquences d’ADN homologues, présentes sur une ou deux molécules d’ADN, et produit une séquence mixte dérivée des séquences parentales (Smith 1988). Les échanges de séquences entre les deux molécules d’ADN parentales n’introduisent presque jamais de gain ou de perte d’information génétique (Matic 1995). Ceci est dû à la précision de l’appariement des deux molécules d’ADN parentales pour former une région hétéroduplex au point d’échange. En réalité la recombinaison est un processus très complexe qui implique plus d’une trentaine de gènes chez Escherichia coli (Lloyd & Low 1996). Nous n'en ferons qu'un bref résumé dans le paragraphe suivant (pour des revues plus complètes voir (Smith 1988) (Dubnau 1993) (Matic 1995) (Lloyd & Low 1996)).

Plusieurs modèles ont été proposés pour décrire la recombinaison homologue. Tous ont en commun l’invasion de la terminaison 3’-OH d’une séquence d’ADN simple brin par un deuxième ADN double brin (Smith 1988). L’appariement initial peut se produire à n’importe quelle position de la région homologue. La réaction d’échange entre brins commence quand les deux molécules sont alignées et que l’extrémité de l’ADN est libre. La protéine RecA contrôle la fidélité de la recombinaison seulement au début de la recombinaison.

La recombinaison lors de la conjugaison entre S. typhimurium et Escherichia coli est similaire à la recombinaison intraspécifique (Matic et al. 1995). La barrière génétique qui sépare ces deux espèces est principalement une barrière à la recombinaison interspécifique basée sur la divergence entre les deux séquences (et donc l'absence de gènes suffisamment similaires). Le système de réparation des mésappariements est la composante majeure de cette barrière génétique. En effet, l’inactivation du gène mutS ou mutL (codant les protéines qui se lient aux mésappariements) augmente la fréquence de recombinaison interspécifique d'un facteur 1 000 (Rayssiguier et al. 1989). L’étude de l’influence sur la recombinaison de la divergence entre des séquences longues de 400 pb chez Escherichia coli, a démontré que la fréquence de recombinaison est diminuée de 240 fois lorsque la similarité entre les séquences décroît de 10 %, alors que cette fréquence n’est affectée que d’un facteur 9 dans une souche mutS déficient (Shen & Huang 1989). Un concept très important pour ce qui suit est celui du nombre minimal d'appariements exacts pour démarrer la recombinaison par RecA. Ce nombre est d’environ 24 pb chez Bacillus subtilis (Roberts & Cohan 1993) et 20 pb chez Escherichia coli (Watt et al. 1985). Cependant la fréquence de recombinaison croît de façon exponentielle entre 20 et 74 bases et devient linéaire pour des valeurs supérieures (Watt et al. 1985). Ainsi, un nombre réduit de mésappariements entre deux séquences homologues peut avoir des conséquences dramatiques sur la fréquence de la recombinaison. Chez Escherichia coli la divergence entre les séquences provoque l'isolement sexuel en raison de la probabilité de trouver un segment minimal d’homologie stricte et non pas en raison de la faible stabilité de l’héteroduplex (Vulic et al. 1997).

À la recherche des répétitions

Au premier abord le concept de génome minimal, les remaniements chromosomiques et les mécanismes de recombinaison homologue sont des sujets assez différents. Nous les avons introduits ensemble ici pour établir les bases nécessaires à la discussion de l'article suivant. En effet, la recherche de répétitions dans les génomes procaryotes est au carrefour de ces trois problématiques. Le premier objectif de notre travail était d’établir de façon quantitative l’évitement possible des répétitions qui repose sur l'idée que l’ADN "coûte cher" aux bactéries. Une fois les répétitions identifiées il a fallu identifier les contraintes sélectives ou structurelles qui pouvaient expliquer leur présence. Il est intéressant à remarquer que la taille minimale utilisée dans notre recherche des répétitions dans les génomes procaryotes est supérieure à la taille nécessaire pour démarrer la recombinaison.

Les méthodes statistiques et algorithmiques utilisées dans ce travail seront détaillées dans le chapitre 11.

Publication VII - Rocha EPC et al. 1999, Analysis of long repeats in bacterial genomes reveals alternative evolutionary mechanisms in Bacillus subtilis and other competent prokaryote, Molecular Biology and Evolution

 

Conclusion

Au moyen de la statistique développée par Karlin et Ost (Karlin & Ost 1985) et d’un algorithme efficace de recherche de répétitions (Karp et al. 1972) (Soldano et al. 1995), nous avons analysé de façon exhaustive les répétitions présentes dans huit génomes bactériens (Rocha et al. 1999a). Après avoir enlevé les copies multiples d'ARNr et d'ARNt, tous les génomes analysés s'avèrent posséder un grand nombre de répétitions, depuis un minimum de 139 chez Mycoplasma genitalium à un maximum de 552 chez Mycoplasma pneumoniae. Néanmoins, quand les différentes tailles des génomes sont prises en compte, nous observons que les plus grands génomes (d'organismes non pathogènes) possèdent la plus petite densité de répétitions (40 /Mb chez Bacillus subtilis et 86 /Mb chez Escherichia coli), alors que les plus petits génomes possèdent les plus grandes densités (676 /Mb chez Mycoplasma pneumoniae et 240 /Mb chez Mycoplasma genitalium). L’abondance relative des répétitions chez les Mycoplasmes est à la base des stratégies de variation antigénique chez ces bactéries.

La Figure 7.1 présente une actualisation de ces données par rapport à la publication précédente (voir aussi la Publication 9). Nous avions postulé que les stratégies liées à la virulence devraient induire l’existence d’un grand nombre de répétitions dans ces génomes. (Rocha et al. 1999a). Cependant ceci ne paraît pas être une règle générale, puisque Chlamydia trachomatis (agent de diverses infections humaines) et Rickettsia prowazekii (l’agent du typhus) présentent un nombre très réduit de répétitions. Il convient néanmoins de noter que ces deux organismes sont des parasites intracellulaires obligatoires (Stephens et al. 1998) (Andersson et al. 1998). C. trachomatis possède un plasmide cryptique, qui contient 22 répétitions en tandem et peut être utilisé pour la régulation de la virulence (Thomas et al. 1997). Curieusement, la bactérie apparentée C. pneumoniae présente un nombre beaucoup plus important de répétitions chromosomiques. R. prowazekii est la seule bactérie séquencée qui présente une grande partie de génome non codant (24%). C'est probablement une conséquence de la réduction du génome qui a lieu dans cet organisme (Andersson et al. 1998). Il n’est pas encore clair de savoir si ces observations sont liées ou pas à différentes stratégies évolutives associées à la virulence.

Le cas de Borrelia burgdorferi (l’agent de la maladie de Lyme) est particulièrement intéressant, malgré le nombre réduit de répétitions dans le chromosome. Les 600 kb de matériel génétique contenu dans ses plasmides (à comparer aux 912 kb du chromosome) contiennent en fait un grand nombre de répétitions. Ces plasmides possèdent une relativement faible densité de régions codantes (environ 70 %) (Fraser et al. 1997) dont la majorité codent des protéines de surface. Ces copies multiples servent à créer, par recombinaison homologue, de nouvelles versions des protéines afin d'échapper au système immunitaire de l’hôte. L’accumulation de matériel génétique recombinant dans les plasmides permet ainsi l'évitement d’instabilités génétiques dans le chromosome. Cette stabilité peut être importante pour ce chromosome qui, rappelons-le, est linéaire. On observe par ailleurs que le génome de Borrelia burgdorferi est significativement polarisé (65 % des gènes sur le brin précoce), et les gènes des deux brins montrent un usage très contrasté des codons (voir chapitre 5). Toutes ces données indiquent une grande stabilité du chromosome.

Figure 7.1 - Relation entre la densité de répétitions et la taille du génome. Les noms soulignés indiquent les génomes contenant des séquences d’insertion et les ellipses indiquent les organismes pathogènes. La flèche représente l’augmentation de la densité de répétitions du génome de Borrelia burgdorferi quand les plasmides sont pris en compte. Abréviations : A. aeolicus (aqae), A. fulgidus (arfu), A. pernix (aepe), Bacillus subtilis (basu), Borrelia burgdorferi (bobu), C. pneumoniae (chpn), C. trachomatis (chtr), Escherichia coli (esco), Haemophilus influenzae (hain), H. pylori (hepy), Methanococcus jannaschii (meja), M. thermoautotrophicum (meth), Mycoplasma genitalium (myge), Mycoplasma pneumoniae (mypn), M. tuberculosis (mytu), P. horikoshii (pyho), R. prowazekii (ripr), Synechocystis sp (sysp), T. pallidum (trpa).

Nous avons observé que les distributions spatiales des deux occurrences de chaque répétition sont très hétérogènes entre les différents génomes. Chez Escherichia coli et Methanococcus jannaschii les deux occurrences de chaque répétition sont à une distance quelconque l'une par rapport à l’autre. En revanche, dans les deux organismes compétents non spécifiques, Bacillus subtilis et M. thermoautotrophicum, la plupart des copies sont séparées par moins de 50 kb. Les occurrences à une distance supérieure à 10 % du génome constituent ainsi moins de 5 % du total dans ces deux génomes.

En raison du transfert horizontal, les génomes des isolats naturels d’entérobactéries fluctuent jusqu'à 1 Mb de leur taille de base (Bergthorsson & Ochman 1995). Les séquences d’insertion aident au transfert horizontal et à la duplication de gènes, mais elles jouent aussi un rôle important dans la délétion de matériel génétique par recombinaison entre deux copies. Ces deux effets contraires justifient probablement l’absence de corrélation entre l’abondance de séquences d’insertion et la taille du chromosome (Bergthorsson & Ochman 1998). Ainsi, les séquences d’insertion ne contribuent pas à l’augmentation de la taille du génome, mais plutôt à sa dynamique. L’absence de séquences d’insertion chez Bacillus subtilis est surprenante à plusieurs titres. Premièrement Bacillus subtilis est compétent, donc vulnérable aux invasions de ces éléments. Deuxièmement, des organismes proches de Bacillus subtilis, tel que B. cereus, possèdent des séquences d’insertion (Leonard et al. 1997).

Au chapitre 5 nous avons analysé les biais associés à la réplication chez les bactéries au moyen de l'analyse discriminante. La variable utilisée pour mesurer l’intensité de ce biais était la précision (accuracy), i.e. la fraction de prédictions correctes de la méthode sur un ensemble de test. La précision est proche de 1 pour les génomes très biaisés et proche de 0.5 pour les génomes sans biais. La Figure 7.2 montre la relation entre la densité de répétitions et la précision. Les génomes à plus faible densité de répétitions présentent les valeurs de précision les plus élevées. Nous pensons que ceci est lié à la plus grande stabilité des génomes sans répétitions. En particulier, les chromosomes avec très peu de répétitions comme Chlamydia trachomatis et les spirochètes ont un fort biais de réplication, alors que les génomes riches en répétitions, tels que ceux de Methanococcus jannaschii et Mycoplasma pneumoniae, ont peu ou pas de biais. Par ailleurs, cette tendance est partiellement indépendante de la présence de séquences d’insertion dans les génomes (les Mycoplasmes et M. thermoautotrophicum n'ont pas de tels éléments).

Figure 7.2 - Relation entre la précision de la discrimination de brin de réplication et la densité de répétitions dans le génome. Les noms soulignés indiquent les génomes contenant des séquences d’insertion. Voir la légende précédente pour les abréviations.

Par contraste avec la grande diversité observée de tailles de chromosomes dans les souches de Escherichia coli, plusieurs études ont révélé des cartes physiques très similaires entre différentes souches de Bacillus subtilis (Itaya 1997). Itaya et collègues ont introduit deux longues répétitions séparées de 300 kb dans le génome de Bacillus subtilis, avec une origine de réplication plasmidique situé au milieu (Itaya & Tanaka 1997). Ceci a entraîné la division du génome en deux sous-génomes stables et capables de se répliquer. Néanmoins le plus petit des sous-génomes est instable, facilement perdu et conduit à un taux de croissance réduit (Itaya & Tanaka 1997) (Itaya & Tanaka 1999). Cette expérience montre que les occurrences lointaines de répétitions introduisent une instabilité significative dans le génome et suggère que le génome de Bacillus subtilis serait très stable en raison de l'absence de répétitions longues et distantes.

Il semble surprenant que les deux bactéries compétentes généralistes (Bacillus subtilis et M. thermoautotrophicum) ne possèdent pas de séquences d’insertion. Puisque ces bactéries sont capables d'insérer de l'ADN de n’importe quel organisme, elles devraient être souvent contaminées par ces éléments parasitaires. On pourrait imaginer que l’instabilité due aux occurrences lointaines des répétitions puisse créer cet évitement en obligeant les séquences d’insertion à rester en copies simples. Cependant l’analyse des génomes a montré que les séquences d’insertion sont souvent trouvées en copie simple ou en tandem (Mahillon & Chandler 1998). De plus les opérons des ARNr sont maintenus de façon stable chez Bacillus subtilis, malgré leur répétition à longue distance (Kunst et al. 1997).

Toutes ces observations suggèrent une hypothèse. On peut en effet se demander si Bacillus subtilis ne posséderait pas un mécanisme spécifique d’élimination des séquences d’insertion. Des mécanismes de ce genre existent chez plusieurs eucaryotes (Sherman & Pillus 1997) (Colot & Rossignol 1999). Les séquences d’insertion permettent aux bactéries de s’adapter rapidement, en facilitant le transfert horizontal ou la duplication de gènes. Cependant si Bacillus subtilis a trouvé un mécanisme évolutif qui rend les séquences d’insertion inutiles, alors leurs hypothétiques avantages évolutifs sont perdus.

Ces observations rendent l’analyse de B. cereus encore plus intéressante. Cet organisme possède des séquences d’insertions et la taille de son génome varie de façon très significative (entre 2.4 Mb et 6.3 Mb) (Carlson & Kolsto 1994). La comparaison de ces Bacillus permettra l’analyse détaillée de la propagation des séquences d’insertion et de leur influence sur la stabilité des génomes chez les bactéries Gram positives.