Le rôle évolutif des répétitions dans les génomes bactériens
Les remaniements chromosomiques et les répétitions
À la recherche des répétitions
Le rôle évolutif des répétitions dans les génomes bactériens
La quête du "génome minimal" constitue pour beaucoup un des saint Graal de la biologie moléculaire. Cependant l'information minimale requise pour le fonctionnement dun organisme est une notion très contingente. Premièrement elle est relative à ce que nous entendons par organisme. Lorganisme minimal dont on parle est un organisme autonome avec son métabolisme propre. En conséquence, les plasmides conjugatifs et les virus sont automatiquement exclus de cette définition.
Quest ce donc quun organisme minimal, fonctionnel et autonome ? On suppose quil doit : i) fonctionner (métabolisme), ii) être capable de se répliquer (reproduction), et iii) coder linformation génétique sur un support digital, tout cela de façon autonome. On écarte donc tous les organismes parasitaires obligatoires. En revanche, les bactéries de plus petite taille physique et génomique, les Mycoplasmes, obéissent à toutes ces conditions. En effet, même si les Mycoplasmes ont du mal à pousser hors de leurs hôtes, ceci est néanmoins possible dans certaines conditions (Dybvig & Voelker 1996). Les Mycoplasmes sont divisés en plusieurs groupes taxonomiques et, dans la plupart de ces groupes, on observe une tendance vers la réduction de la taille des génomes. Bien que ceux-ci ne soient jamais inférieurs a 500 kb, dans la plupart des groupes se trouvent des espèces dont les génomes dépassent à peine les 600 kb (Razin et al. 1998). Naturellement les Mycoplasmes ont été considérés comme les candidats idéaux pour rechercher un hypothétique génome minimal, dont la taille serait donc inférieure à 600 kb (Fraser et al. 1995).
Plusieurs études ont ainsi été consacrées aux Mycoplasmes et, en particulier, à Mycoplasma genitalium, le plus petit de tous et le premier à avoir été publié. Ces études, sont basées sur l'analyse des gènes qui présentent des homologues dans la plupart des bactéries avec l'idée que les gènes essentiels ne peuvent pas impunément disparaître du génome. Ces études concluent généralement à des tailles denviron 250 gènes pour le génome minimal (Mushegian & Koonin 1996) (Mushegian 1999). Cependant la substitution fonctionnelle par des gènes qui ne sont pas des homologues peut compliquer ce raisonnement (Forterre 1999), et 250 serait donc une sous-estimation du nombre réel. A partir du comptage du nombre de loci nécessaires à la survie de la bactérie après mutagenèse aléatoire, Itaya est arrivé à une estimation de la taille minimale située entre 318 kb et 562 kb, i.e. entre 300 et 600 gènes (Itaya 1995). Ce chiffre est en accord avec les valeurs effectivement observées dans les Mycoplasmes et a lavantage dêtre plus réaliste du point de vue biologique.
Si lévolution procède par bricolage déléments pris parmi ceux qui existent déjà (Jacob 1977), quest ce que loptimalité ? Le bricolage place lévolution très loin du concept doptimisation familier aux ingénieurs et ne peut que très difficilement aboutir à un génome véritablement minimal (Maniloff 1996). Par ailleurs, le concept de génome minimal est très contingent aux caractéristiques de lenvironnement et de la niche écologique de lorganisme. Puisque par définition le génome minimal na d'autres avantages compétitifs que celui dêtre minimal, il sera nécessairement très peu adapté. Cette absence de viabilité écologique met clairement en question l'intérêt biologique de la démarche.
La question du génome minimal a souvent conduit à affirmer que les génomes bactériens devraient éviter fortement les séquences répétées. C'est cette perspective sur la question qui a attiré notre intérêt sur l'étude des répétitions dans les génomes bactériens. Notre conclusion est que, même si lADN est plus "cher" pour les bactéries que pour les eucaryotes, cela nimplique pas nécessairement l'absence de répétitions. De plus, dans certains contextes les répétitions peuvent même être très fortement sélectionnées. Ironiquement c'est dans les Mycoplasmes que nous trouvons les plus grandes densités de répétitions.
Les remaniements chromosomiques et les répétitions
Certains éléments répétés dans les génomes bactériens sont connus depuis longtemps. Les opérons ribosomiques sont souvent présents chez les bactéries en copies multiples (7 copies chez Escherichia coli et 10 copies chez Bacillus subtilis) (Schmidt 1998). Ces éléments sont nécessaires à la survie de la cellule, même si certains travaux indiquent que la réduction du nombre de copies nimplique pas la perte de viabilité (Condon et al. 1993). Les opérons des ARNr ont environ 5 kb de long et constituent une cible préférentielle pour la recombinaison intra-chromosomique. Ainsi plusieurs réarrangements chez Escherichia coli et Bacillus subtilis ont lieu par recombinaison entre ces éléments (Hill & Harnish 1981) (Gürtler 1999). Les ARNt sont aussi fréquemment la cible de processus de recombinaison, soit intra-chromosomique soit avec des éléments extérieurs, facilitant ainsi le transfert génétique horizontal (Hou 1999).
Parfois les remaniements chromosomiques sont programmés par rapport à un état physiologique de lorganisme. Chez Bacillus subtilis les répétitions qui flanquent lélément skin sont cruciales lors de la sporulation. En effet, la recombinaison entre les deux répétitions provoque la délétion de lélément skin au moment de la division asymétrique de la cellule mère (Stragier et al. 1989). Cette délétion provoque la restauration du gène qui déclenche létape finale de la sporulation.
Des répétitions liées à des structures secondaires d'ARN intergéniques ont été trouvées chez plusieurs eubactéries. La plupart dentre elles ont une fonction inconnue, même si leur conservation en séquence suggère une forte pression fonctionnelle (Blaisdell et al. 1993) (Bachellier et al. 1996). Plusieurs de ces éléments sont groupés en familles apparentées par la séquence ou par la structure secondaire, comme les BIMES (Bachellier et al. 1994), les IRU (Sharples & Lloyd 1990), les ERIC (Versalovic & Lupski 1998), etc. La similarité entre les diverses copies de ces éléments fournit également une cible pour la recombinaison homologue (Lloyd & Low 1996). En conséquence, ces éléments sont souvent responsables de remaniements chromosomiques, de délétions ou de multiplications de régions du génome (Roth et al. 1996) (Bachellier et al. 1997) (Tomano 1999). De plus, les régions à forte structure secondaire sont souvent instables et sujettes à des délétions fréquentes (Sharp & Leach 1996). Par exemple, la présence de palindromes de taille supérieure à 150-200 pb entraîne la non-viabilité de Escherichia coli (Leach 1994).
Les éléments transposables constituent un type fortement répandu d'éléments répétés dans les génomes (Mahillon & Chandler 1998). De fait ces éléments sont très fréquemment présents dans régions transférées horizontalement comme les îlots de virulence ou près de gènes de résistance aux antibiotiques (Groisman & Ochman 1997) (Mazel et al. 1998) (Syvanen 1998). Cependant, il est difficile de justifier la sélection positive de ces éléments par leur utilité (Doolittle & Sapienza 1980). Les séquences dinsertion par leur existence en copies multiples et par leur caractère multiplicatif induisent fréquemment des inversions, des délétions et des interruptions de gènes (Deonier 1996). La plupart de ces changements sont nécessairement délétères dans une population bien adaptée (Orr 1998). En conséquence, ces éléments sont souvent considérés comme des éléments égoïstes ou parasitaires qui se reproduisent dans le génome (Dawkins 1976) (Doolittle & Sapienza 1980) (Orgel & Crick 1980) et sont parfois fixés dans la population par d'éventuelles mutations bénéfiques (Syvanen 1994). C'est probablement cette raison qui justifie leur association fréquente aux îlots de virulence.
D'autres éléments répétés ont été identifiés dans les génomes : les terminateurs rho-indépendants (Carafa et al. 1990), les signaux uptake chez Haemophilus influenzae et N. gonorrhoeae (Smith et al. 1995) (Kroll et al. 1998) et les recombinational hotspot sequences chez plusieurs enterobactéries (Wang et al. 1998) (Hill 1998).
Tous les organismes dépendent de la recombinaison pour le maintien de la stabilité de leur génome ainsi que pour la production de la variabilité génétique. Le terme recombinaison a été utilisé pour la première fois par Bateson, en 1905, pour décrire une exception à la loi de ségrégation indépendante des caractères (Depew & Weber 1995). La recombinaison homologue résulte d'une série dinteractions entre deux séquences dADN homologues, présentes sur une ou deux molécules dADN, et produit une séquence mixte dérivée des séquences parentales (Smith 1988). Les échanges de séquences entre les deux molécules dADN parentales nintroduisent presque jamais de gain ou de perte dinformation génétique (Matic 1995). Ceci est dû à la précision de lappariement des deux molécules dADN parentales pour former une région hétéroduplex au point déchange. En réalité la recombinaison est un processus très complexe qui implique plus dune trentaine de gènes chez Escherichia coli (Lloyd & Low 1996). Nous n'en ferons qu'un bref résumé dans le paragraphe suivant (pour des revues plus complètes voir (Smith 1988) (Dubnau 1993) (Matic 1995) (Lloyd & Low 1996)).
Plusieurs modèles ont été proposés pour décrire la recombinaison homologue. Tous ont en commun linvasion de la terminaison 3-OH dune séquence dADN simple brin par un deuxième ADN double brin (Smith 1988). Lappariement initial peut se produire à nimporte quelle position de la région homologue. La réaction déchange entre brins commence quand les deux molécules sont alignées et que lextrémité de lADN est libre. La protéine RecA contrôle la fidélité de la recombinaison seulement au début de la recombinaison.
La recombinaison lors de la conjugaison entre S. typhimurium et Escherichia coli est similaire à la recombinaison intraspécifique (Matic et al. 1995). La barrière génétique qui sépare ces deux espèces est principalement une barrière à la recombinaison interspécifique basée sur la divergence entre les deux séquences (et donc l'absence de gènes suffisamment similaires). Le système de réparation des mésappariements est la composante majeure de cette barrière génétique. En effet, linactivation du gène mutS ou mutL (codant les protéines qui se lient aux mésappariements) augmente la fréquence de recombinaison interspécifique d'un facteur 1 000 (Rayssiguier et al. 1989). Létude de linfluence sur la recombinaison de la divergence entre des séquences longues de 400 pb chez Escherichia coli, a démontré que la fréquence de recombinaison est diminuée de 240 fois lorsque la similarité entre les séquences décroît de 10 %, alors que cette fréquence nest affectée que dun facteur 9 dans une souche mutS déficient (Shen & Huang 1989). Un concept très important pour ce qui suit est celui du nombre minimal d'appariements exacts pour démarrer la recombinaison par RecA. Ce nombre est denviron 24 pb chez Bacillus subtilis (Roberts & Cohan 1993) et 20 pb chez Escherichia coli (Watt et al. 1985). Cependant la fréquence de recombinaison croît de façon exponentielle entre 20 et 74 bases et devient linéaire pour des valeurs supérieures (Watt et al. 1985). Ainsi, un nombre réduit de mésappariements entre deux séquences homologues peut avoir des conséquences dramatiques sur la fréquence de la recombinaison. Chez Escherichia coli la divergence entre les séquences provoque l'isolement sexuel en raison de la probabilité de trouver un segment minimal dhomologie stricte et non pas en raison de la faible stabilité de lhéteroduplex (Vulic et al. 1997).
À la recherche des répétitions
Au premier abord le concept de génome minimal, les remaniements chromosomiques et les mécanismes de recombinaison homologue sont des sujets assez différents. Nous les avons introduits ensemble ici pour établir les bases nécessaires à la discussion de l'article suivant. En effet, la recherche de répétitions dans les génomes procaryotes est au carrefour de ces trois problématiques. Le premier objectif de notre travail était détablir de façon quantitative lévitement possible des répétitions qui repose sur l'idée que lADN "coûte cher" aux bactéries. Une fois les répétitions identifiées il a fallu identifier les contraintes sélectives ou structurelles qui pouvaient expliquer leur présence. Il est intéressant à remarquer que la taille minimale utilisée dans notre recherche des répétitions dans les génomes procaryotes est supérieure à la taille nécessaire pour démarrer la recombinaison.
Les méthodes statistiques et algorithmiques utilisées dans ce travail seront détaillées dans le chapitre 11.
Au moyen de la statistique développée par Karlin et Ost (Karlin & Ost 1985) et dun algorithme efficace de recherche de répétitions (Karp et al. 1972) (Soldano et al. 1995), nous avons analysé de façon exhaustive les répétitions présentes dans huit génomes bactériens (Rocha et al. 1999a). Après avoir enlevé les copies multiples d'ARNr et d'ARNt, tous les génomes analysés s'avèrent posséder un grand nombre de répétitions, depuis un minimum de 139 chez Mycoplasma genitalium à un maximum de 552 chez Mycoplasma pneumoniae. Néanmoins, quand les différentes tailles des génomes sont prises en compte, nous observons que les plus grands génomes (d'organismes non pathogènes) possèdent la plus petite densité de répétitions (40 /Mb chez Bacillus subtilis et 86 /Mb chez Escherichia coli), alors que les plus petits génomes possèdent les plus grandes densités (676 /Mb chez Mycoplasma pneumoniae et 240 /Mb chez Mycoplasma genitalium). Labondance relative des répétitions chez les Mycoplasmes est à la base des stratégies de variation antigénique chez ces bactéries.
La Figure 7.1 présente une actualisation de ces données par rapport à la publication précédente (voir aussi la Publication 9). Nous avions postulé que les stratégies liées à la virulence devraient induire lexistence dun grand nombre de répétitions dans ces génomes. (Rocha et al. 1999a). Cependant ceci ne paraît pas être une règle générale, puisque Chlamydia trachomatis (agent de diverses infections humaines) et Rickettsia prowazekii (lagent du typhus) présentent un nombre très réduit de répétitions. Il convient néanmoins de noter que ces deux organismes sont des parasites intracellulaires obligatoires (Stephens et al. 1998) (Andersson et al. 1998). C. trachomatis possède un plasmide cryptique, qui contient 22 répétitions en tandem et peut être utilisé pour la régulation de la virulence (Thomas et al. 1997). Curieusement, la bactérie apparentée C. pneumoniae présente un nombre beaucoup plus important de répétitions chromosomiques. R. prowazekii est la seule bactérie séquencée qui présente une grande partie de génome non codant (24%). C'est probablement une conséquence de la réduction du génome qui a lieu dans cet organisme (Andersson et al. 1998). Il nest pas encore clair de savoir si ces observations sont liées ou pas à différentes stratégies évolutives associées à la virulence.
Le cas de Borrelia burgdorferi (lagent de la maladie de Lyme) est particulièrement intéressant, malgré le nombre réduit de répétitions dans le chromosome. Les 600 kb de matériel génétique contenu dans ses plasmides (à comparer aux 912 kb du chromosome) contiennent en fait un grand nombre de répétitions. Ces plasmides possèdent une relativement faible densité de régions codantes (environ 70 %) (Fraser et al. 1997) dont la majorité codent des protéines de surface. Ces copies multiples servent à créer, par recombinaison homologue, de nouvelles versions des protéines afin d'échapper au système immunitaire de lhôte. Laccumulation de matériel génétique recombinant dans les plasmides permet ainsi l'évitement dinstabilités génétiques dans le chromosome. Cette stabilité peut être importante pour ce chromosome qui, rappelons-le, est linéaire. On observe par ailleurs que le génome de Borrelia burgdorferi est significativement polarisé (65 % des gènes sur le brin précoce), et les gènes des deux brins montrent un usage très contrasté des codons (voir chapitre 5). Toutes ces données indiquent une grande stabilité du chromosome.

Figure 7.1 - Relation entre la densité de répétitions et la taille du génome. Les noms soulignés indiquent les génomes contenant des séquences dinsertion et les ellipses indiquent les organismes pathogènes. La flèche représente laugmentation de la densité de répétitions du génome de Borrelia burgdorferi quand les plasmides sont pris en compte. Abréviations : A. aeolicus (aqae), A. fulgidus (arfu), A. pernix (aepe), Bacillus subtilis (basu), Borrelia burgdorferi (bobu), C. pneumoniae (chpn), C. trachomatis (chtr), Escherichia coli (esco), Haemophilus influenzae (hain), H. pylori (hepy), Methanococcus jannaschii (meja), M. thermoautotrophicum (meth), Mycoplasma genitalium (myge), Mycoplasma pneumoniae (mypn), M. tuberculosis (mytu), P. horikoshii (pyho), R. prowazekii (ripr), Synechocystis sp (sysp), T. pallidum (trpa).
Nous avons observé que les distributions spatiales des deux occurrences de chaque répétition sont très hétérogènes entre les différents génomes. Chez Escherichia coli et Methanococcus jannaschii les deux occurrences de chaque répétition sont à une distance quelconque l'une par rapport à lautre. En revanche, dans les deux organismes compétents non spécifiques, Bacillus subtilis et M. thermoautotrophicum, la plupart des copies sont séparées par moins de 50 kb. Les occurrences à une distance supérieure à 10 % du génome constituent ainsi moins de 5 % du total dans ces deux génomes.
En raison du transfert horizontal, les génomes des isolats naturels dentérobactéries fluctuent jusqu'à 1 Mb de leur taille de base (Bergthorsson & Ochman 1995). Les séquences dinsertion aident au transfert horizontal et à la duplication de gènes, mais elles jouent aussi un rôle important dans la délétion de matériel génétique par recombinaison entre deux copies. Ces deux effets contraires justifient probablement labsence de corrélation entre labondance de séquences dinsertion et la taille du chromosome (Bergthorsson & Ochman 1998). Ainsi, les séquences dinsertion ne contribuent pas à laugmentation de la taille du génome, mais plutôt à sa dynamique. Labsence de séquences dinsertion chez Bacillus subtilis est surprenante à plusieurs titres. Premièrement Bacillus subtilis est compétent, donc vulnérable aux invasions de ces éléments. Deuxièmement, des organismes proches de Bacillus subtilis, tel que B. cereus, possèdent des séquences dinsertion (Leonard et al. 1997).
Au chapitre 5 nous avons analysé les biais associés à la réplication chez les bactéries au moyen de l'analyse discriminante. La variable utilisée pour mesurer lintensité de ce biais était la précision (accuracy), i.e. la fraction de prédictions correctes de la méthode sur un ensemble de test. La précision est proche de 1 pour les génomes très biaisés et proche de 0.5 pour les génomes sans biais. La Figure 7.2 montre la relation entre la densité de répétitions et la précision. Les génomes à plus faible densité de répétitions présentent les valeurs de précision les plus élevées. Nous pensons que ceci est lié à la plus grande stabilité des génomes sans répétitions. En particulier, les chromosomes avec très peu de répétitions comme Chlamydia trachomatis et les spirochètes ont un fort biais de réplication, alors que les génomes riches en répétitions, tels que ceux de Methanococcus jannaschii et Mycoplasma pneumoniae, ont peu ou pas de biais. Par ailleurs, cette tendance est partiellement indépendante de la présence de séquences dinsertion dans les génomes (les Mycoplasmes et M. thermoautotrophicum n'ont pas de tels éléments).

Figure 7.2 - Relation entre la précision de la discrimination de brin de réplication et la densité de répétitions dans le génome. Les noms soulignés indiquent les génomes contenant des séquences dinsertion. Voir la légende précédente pour les abréviations.
Par contraste avec la grande diversité observée de tailles de chromosomes dans les souches de Escherichia coli, plusieurs études ont révélé des cartes physiques très similaires entre différentes souches de Bacillus subtilis (Itaya 1997). Itaya et collègues ont introduit deux longues répétitions séparées de 300 kb dans le génome de Bacillus subtilis, avec une origine de réplication plasmidique situé au milieu (Itaya & Tanaka 1997). Ceci a entraîné la division du génome en deux sous-génomes stables et capables de se répliquer. Néanmoins le plus petit des sous-génomes est instable, facilement perdu et conduit à un taux de croissance réduit (Itaya & Tanaka 1997) (Itaya & Tanaka 1999). Cette expérience montre que les occurrences lointaines de répétitions introduisent une instabilité significative dans le génome et suggère que le génome de Bacillus subtilis serait très stable en raison de l'absence de répétitions longues et distantes.
Il semble surprenant que les deux bactéries compétentes généralistes (Bacillus subtilis et M. thermoautotrophicum) ne possèdent pas de séquences dinsertion. Puisque ces bactéries sont capables d'insérer de l'ADN de nimporte quel organisme, elles devraient être souvent contaminées par ces éléments parasitaires. On pourrait imaginer que linstabilité due aux occurrences lointaines des répétitions puisse créer cet évitement en obligeant les séquences dinsertion à rester en copies simples. Cependant lanalyse des génomes a montré que les séquences dinsertion sont souvent trouvées en copie simple ou en tandem (Mahillon & Chandler 1998). De plus les opérons des ARNr sont maintenus de façon stable chez Bacillus subtilis, malgré leur répétition à longue distance (Kunst et al. 1997).
Toutes ces observations suggèrent une hypothèse. On peut en effet se demander si Bacillus subtilis ne posséderait pas un mécanisme spécifique délimination des séquences dinsertion. Des mécanismes de ce genre existent chez plusieurs eucaryotes (Sherman & Pillus 1997) (Colot & Rossignol 1999). Les séquences dinsertion permettent aux bactéries de sadapter rapidement, en facilitant le transfert horizontal ou la duplication de gènes. Cependant si Bacillus subtilis a trouvé un mécanisme évolutif qui rend les séquences dinsertion inutiles, alors leurs hypothétiques avantages évolutifs sont perdus.
Ces observations rendent lanalyse de B. cereus encore plus intéressante. Cet organisme possède des séquences dinsertions et la taille de son génome varie de façon très significative (entre 2.4 Mb et 6.3 Mb) (Carlson & Kolsto 1994). La comparaison de ces Bacillus permettra lanalyse détaillée de la propagation des séquences dinsertion et de leur influence sur la stabilité des génomes chez les bactéries Gram positives.