Présentation

Depuis 1994, je suis enseignant-chercheur à l'Université Paris 6 (section n°64, Biochimie de Biologie Moléculaire). Ma spécialité est la bioinformatique, plus particulièrement structurale.

J'ai suivi une formation initiale de biochimiste/biophysicien (thèse de cristallographie biologique d'Orsay, en RMN et modélisation moléculaire, soutenue en juin 1992 (publications 1,2,3,4,7). Je travaille à l'Atelier de BioInformatique (ABI) où je développe le thème bioinformatique structurale. L’ABI est une « structure ouverte » rassemblant biologistes, biophysiciens et informaticiens d'appartenances administratives variées et désirant travailler à l'interface Biologie/Informatique. L’ABI est d’abord un lieu de formation, d'accueil et de collaboration multidisciplinaire sur des thèmes situés à l’interface Biologie-Informatique-Mathématiques :développement de nouvelles méthodes dans le champs de l’analyse de séquences et de l’analyse de structures de molécules biologiques, mise à disposition de ces méthodes, bioanalyse, génomique in silico.

Mon travail d'enseignement (cf Annexe) recouvre le champ de la Biochimie Structurale à la Bio-Informatique. J'ai contribué à la mise en place des enseignements dans cette dernière discipline - en plein essor depuis quelques années.

Travaux de recherche

Recherche de motifs dans les structures protéiques

L'idée principale qui a sous-tendu mon travail est qu’une description adéquate de la structure des protéines pouvait se combiner avec des algorithmes (existants ou à créer) de recherche de répétitions ou d’alignements (domaine de l'algorithmique sur les mots en informatique). Cette combinaison permet d'obtenir des méthodes efficaces par rapport aux méthodes traditionnelles, où l'on utilise une représentation "atomique" de la structure protéique. La structure des protéines est décrite comme un texte ou une séquence. Cette vision alternative de la structure est pertinente du point de vue de l'évolution et /ou de la classification des structures protéiques.

Au cours des années précédentes, j'ai développé, et participé au développement d'algorithmes (implémentés dans plusieurs logiciels) de recherche de sous-structures similaires dans deux ou plusieurs structures de protéines simultanément. Ces méthodes permettent de résoudre de manière efficace et mathématiquement formalisée une étape importante, mais jusqu'alors essentiellement conduite manuellement, des études de modélisation par homologie. Certaines de ces méthodes permettent également le criblage de banques 3D (PDB) avec une structure de protéine, en réalisant, sur une banque cristallographique, l'équivalent de ce que fait un programme de criblage comme Blast sur une banque de séquences.



Recherche de sous structures 3D similaires

A l'Atelier de BioInformatique (ABI), j'ai premièrement développé une méthode qui recherche simultanément sur plusieurs protéines, des motifs structuraux similaires. Elle exhibe les motifs 3D communs les plus longs trouvés sur ces protéines, sans privilégier une des protéines du lot examiné. Cette méthode s’appuie sur un algorithme - développé à l’ABI - de recherche de mots « flous » répétés dans des textes. Cet algorithme, KMRC, dérive de l’algorithme KMR (Karp, Miller et Rosenberg), qui permet de repérer des mots exacts répétés en temps linéaire. Deux mots exacts sont dits identiques si leurs symboles sont identiques. Deux mots « flous » sont considérés comme similaires, si leurs symboles sont similaires. Au niveau de la structure 3D des protéines, on peut décrire de manière non ambiguë le squelette peptidique comme une « séquence » de coordonnées internes des résidus amino-acides. Les plus connues de ces coordonnées internes sont les angles φ et ψ, mais les coordonnées internes α et τ sont plus adéquates pour décrire le squelette peptidique (α est l’angle entre 3 Cα successifs, et τ est l’angle dièdre entre 4 C α successifs). En fait l’angle α seul permet de décrire de manière suffisamment précise ce squelette, car τ est relativement invariant et toujours proche de 100° (publication n°8). On peut ainsi décrire la structure du squelette peptidique d’une protéine par une séquence de symboles, les symboles étant alors des angles. Dans cette description, deux motifs 3D similaires (i .e. superposables) sont donc deux mots composés d’ « angles » similaires. Ceci permet d’utiliser l’algorithme KMRC pour trouver les motifs 3D similaires sur plusieurs protéines. On ne s’appuie donc plus ici sur la nature des acides aminés, comme lors de la comparaison de séquence, mais bien sur la position spatiale de leur partie peptidique.

La première application de cette méthode a été la modélisation de la structure d'un cytochrome P450 bactérien (appelé eryF) dont on ne connaissait pas la structure (publication n°9, collaboration avec le laboratoire de D. Mansuy (URA400, CNRS, université René Descartes). Ce cytochrome présentait un taux d'identité très faible (~20%) avec les trois seules structures connues à l'époque. Nous avons néanmoins obtenu une structure qui a été ensuite confirmée par la cristallographie en utilisant ce programme de recherche de motifs 3D similaires. Nous avons aussi utilisé cette méthode pour établir un modèle de la sous-unité F1 de l'ATPase du chloroplaste et de son interaction avec la tentoxine (inhibiteur) (publication n°11).

J'ai aussi participé au développement d'une autre méthode de recherche de motifs 3D (publication n°10) où les motifs structuraux sont maintenant définis comme des ensembles d'atomes non forcément contigus sur la structure (par exemples, des "nuages d'atomes"). Le problème est plus complexe (au sens informatique) que le précédent dans la mesure où la correspondance des atomes - non donnée au départ - est plus difficile à trouver que celle, linéaire, d'atomes successifs du squelette peptidiques des protéines.

Dans le cadre d'une ACI (EVOLREP 2003) dont j'étais le coordinateur, avec Anne-Laure Abraham - que j'ai co-encadrée en thèse - et Eduardo Rocha, nous avons mis au point une méthode de recherche générale de motifs communs adaptée à la recherche de duplications à l'intérieur d'une structure, d'une séquence de protéine ou d'un gène (publication n°17). Nous avons adapté l'algorithme de Smith et Waterman (en fait, la version de Huang de complexité linéaire) à l'alignement d'angles  internes. Cette méthode nous a permis de mettre en évidence qu'un certain nombre de duplications intra-géniques formaient des motifs structuraux symétriques en 3D - comme le feraient des dimères ou 2n-mères et pose des questions intéressantes sur l'évolution par duplications (publication n°18). Le logiciel développé est en libre accès sur la plateforme RPBS1 qui est une plateforme du réseau RENABI, dont l'ABI est partie prenante (ce projet a été retenu et financé lors de l’appel d’offre inter-EPST en 2002 (publication n°13)).

Avec Mathilde Carpentier (dont j'ai co-dirigé la thèse), nous avons mis au point une méthode de recherche rapide de sous-structures similaires entre une structure 3D requête et une banque de structures (comme la PDB). Le but était d'obtenir l'équivalent structural d'un programme comme BLAST. Nous décrivons encore les structures en terme d'angles de coordonnées internes (discrétisés), et utilisons cette description symbolique dans un automate de recherche de motifs analogue à celui utilisé dans l'algorithme de Aho-Corasik. Cependant, ici l'automate est dégénéré pour tenir compte des angles similaires (i.e. des motifs proches). Les motifs « graines » communs entre la structure requête et une structure de la banque sont ensuite étendus en régions similaires, si possible. Le principal avantage de cette méthode, par rapport aux quelques méthodes existantes, est sa rapidité (1 à 2mn sur un PC de bureau pour le « scan » d'une banque non redondante tirée de la PDB, publication n°14). Le logiciel développé – YAKUSA - est aussi en libre accès sur la plate-forme RPBS.

Plus récemment, avec Henry Soldano (ABI, MC Paris 13 au LIPN), Nahla El Zant (en thèse), Mathilde Carpentier (MC Paris 6) et Nadia Pisanti (post-doc), nous avons développé un algorithme de recherche de « motifs relationnels » et nous avons mis au point une application structurale de cet algorithme. Ici, un motif relationnel est un motif basé non pas sur ses composants (par exemple, les « symboles » de la séquence) mais sur les relations entre ses composants (relations entre les symboles aux positions données). Cet algorithme de recherche multiple peut être appliqué aux structures en considérant que les distances entre les résidus sont des relations entre composants d'une séquence. On exhibe ainsi les motifs dont les résidus ont entre eux des distances similaires, donc des motifs 3D similaires (publication n°16, 19).

Méthode de reconnaissance de repliements et classification des structures

Parallèlement, j'ai également travaillé sur une méthode de reconnaissance de repliement en collaboration avec l'équipe MIG (INRA Jouy en Josas) initialement dans le cadre d'un projet sélectionné et financé par le Programme « génome » du CNRS en 1998-2000, puis dans le cadre d'un projet ANR Calcul Intensif et Simulation (2006-2009) dont l'ABI était partie prenante (coordinateur : Thomas Simonson, CNRS, Ecole Polytechnique).

Les techniques de reconnaissance de repliement (« threading ») consistent à mesurer grâce à des potentiels statistiques tirés de l'information de structure la « compatibilité » d'une séquence requête de structure inconnue avec chacune des structures protéiques connues (de la banque PDB), regroupées par familles en « cœurs structuraux ». Ces techniques peuvent donc fournir des modèles 3D de protéines à « retravailler » en modélisation moléculaire, mais elles sont surtout utilisées à des fins d'annotation de séquences inconnues (« orphelines »), car elles peuvent repérer des similarités qui ne sont pas vues par les méthodes utilisant seulement l'information de séquence (BLAST, PSIBLAST ou FASTA). On peut parler d'annotation « structurale », et cet aspect prend toute son importance aujourd'hui où l'on constate qu'environ la moitié des protéines des nouveaux génomes séquencés sont « orphelines », c'est-à-dire ne ressemblent à aucune protéine connue à ce jour. Le programme que nous avons développé se montre efficace pour la reconnaissance de repliements2 (publication n°12).

Notre travail dans le projet PROTEUS, ANR CIS-06, est de classer automatiquement les familles de structures protéiques, puis de définir les parties conservées, indépendamment de leur structure secondaire, afin d'obtenir une base de « cœurs » objective pour les méthodes de reconnaissance de repliement. Les méthodes que nous avons mis au point, notamment YAKUSA et d'autres méthodes d'alignements multiples de structure en développement nous servent pour classer de manière objective les structures connues de protéines (PDB) en familles, éventuellement recouvrantes. Nous voulons ensuite caractériser dans ces familles des « cœurs » pertinents (cf. ci dessus) que nous utiliserons dans la méthode de reconnaissance de repliements déjà décrite dans ce projet.

Avec Guillaume Santini (post-doc) et Henry Soldano, nous avons développé une méthode originale de classification, qui peut s'appliquer aux structures de protéines, mais aussi à d'autres objets (séquences,…). Au lieu d'essayer d'établir des familles en appliquant une méthode de classification sur le graphe direct de similarité des paires de structures, nous basons la classification sur ce que nous appelons le graphe des paires. Dans ce graphe, chaque nœud est l'alignement structural d'une paire (A,B) de structures, et deux nœuds (A,B) et (B,C) sont reliés si et seulement si ils partagent une structure commune (ici B) et si les alignements AB et BC partagent une région commune suffisamment grande (mesurée sur B). Ce graphe de paire contient donc une information "pertinente" de compatibilité entre tous les alignements structuraux par paires (construits à l'aide de YAKUSA). Ensuite, nous utilisons la notion de graphe adjoint (« line graph ») : le graphe adjoint L(G) d'un graphe G a pour sommets les arcs du graphe G, et pour arcs les sommets du graphe G. Tout graphe possède un graphe adjoint, mais tout graphe n'est pas le graphe adjoint d'un autre graphe. Nous réduisons donc le ou les graphes de paires aux graphes adjoints inclus dans ces graphes de paires, ce qui a pour effet d'éliminer des arcs (donc des ressemblances d'alignements) qui sont faiblement étayés. Ensuite, une procédure de clustering utilisant la méthode MCL3 est appliquée au(x) graphe(s) restant(s). Les premières classifications obtenues ont été comparées aux classifications connues, mais construites manuellement, SCOP4 et CATH5 et la comparaison montre que notre classification automatique semble judicieuse (publication n°20, 22).



Publications

Articles dans revues internationales à comité de lecture

22 - G Santini, H Soldano and Pothier J. Automatic classification of protein structures relying on similarities between alignments BMC Bioinformatics (2012), 13:233

21 - A Detai, C Gallut, S Brouillet, J Pothier, G Lecointre and R Debruyne. Conveniently pre-tagged and pre-packaged: extended molecular identification and metagenomics using complete metazoan mitochondrial genomes PLoSOne (2012), 7(12):e51263

20 – Santini G., Pothier J. and Soldano H. « Use of ternary similarities in graph based clustering : Application to protein structural family classification ». Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology, (2010) ACM : New York, USA : 457-459.

19 - Pisanti N., Soldano H. , Carpentier M. and Pothier J., « A Relational Extension of the Notion of Motifs: Application to the Common 3D Protein Substructures Searching Problem », Journal of Computational Biology. (2009): 1635-1660.

18 –Abraham, A-L. Pothier J., Rocha E.P.C., « Alternative to homo-oligomerisation: the creation of local symmetry in proteins by internal amplification », Journal of Molecular Biology (2009);394(3):522-34.

17 - Abraham A.L., Rocha E.P.C., Pothier J. « Swelfe: a detector of internal repeats in sequences and structures », Bioinformatics.(2008): 24(13):1536-1537

16 - Pisanti, N., Soldano H., Carpentier M. and Pothier J. « Implicit and Explicit Representation of Approximated Motifs ». in Algorithms for Bioinformatics, C. Iliopoulos and K. Park and K. Steinhofel editors, King's College London Press. Texts in Algorithmics, (2006): 6, 1-14

15 - Boyer F., Morgat A., Labarre L., Pothier J., Viari A. « Syntons, Metabolons and Interactons: an exact graph-theoretical approach for exploring neighbourhood between genomic and functional data », Bioinformatics. (2005), 21: 4209 - 4215

14 - Carpentier M., Brouillet S., Pothier J. « YAKUSA: a fast structural databases scanning method », Proteins (2005), 61:137–151.

13 - Alland C., Moreews F., Boens D., Carpentier M., Chiusa S., Lonquety M., Renault N., Wong Y., Cantalloube H., Chomilier J., Hochez J., Pothier J., Villoutreix B.O., Zagury J.-F., Tufféry P., « RPBS: a web resource for structural bioinformatics », Nucleic Acid Res. (2005) 33: W44 - W49.

12 - Marin A., Pothier J., Zimmermann K., Gibrat J-F.. « FROST: a filter based fold recognition method », Proteins, (2002): 49(4): 493-509.

11 - Minoletti C., Santolini J., Haraux F., Pothier J., André F. « Rebuilt 3D structure of the chloroplasteF1-ATPase-Tentoxin complex », Proteins, (2002): 49(3): 302-320.

10 - Escalier, V., Pothier, J., Soldano, H. et Viari, A.. « Pairwise and multiple identification of three-dimensional common substructures in proteins ». Journal of Computational Biology, Journal of Computational Biology (1998): 5(1): 41-56.

9 - Jean, P., Pothier, J., Dansette, P., Mansuy, D. et Viari, A.. « Automated multiple analysis of protein structures: application to homology modeling of cytochromes P450 », Proteins: Structure, Function, and Genetics, (1997):28, 1-16.

8 - Labesse G., N. Colloc'h, Pothier J., Mornon JP. « P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. », Comput Appl Biosci (1997): 13(3): 291-295.

7 - Ouali, M., Pothier, J., Gabarro-Arpa, J. et Le Bret, M.. « About the large fluctuations observed using gas-phase molecular dynamics in the K-ras gene containing a mismatch », Biochimie (1995): 77, 835-839.

6 - Sagot, M. F., Viari, A., Pothier, J. et Soldano, H.. « Finding flexible patterns in a text - An application to 3D molecular matching. », Computer Applications in the Biosciences (1994): 11(1), 59-70.

5 - Cognet, J. A. H., Pothier, J., Leseney, A. M. et Marion, C.. « Analysing and exploring problems in biochemistry with a computer », Biochemical Education (1994): 22(3), 146-149.

4 - Pothier, J., Gabarro-Arpa, J. et Le Bret, M.. « MORMIN: a quasi-newtonian energy minimizer fitting the nuclear Overhauser data », Journal of Computational Chemistry (1993): 14(2), 226-236.

3 - Pothier, J., Delepierre, M., Barsi, M. C., Garbay-Jaureguiberry, C., Igolen, J., Le Bret, M. et Roques, B. P.. « Comparison of the bis-intercalating complexes formed between either Ditercalinium or a flexible analogue and d(CpGpCpG)2 or d(TpTpCpGpCpGpApA)2 minihelices : 1H and 31P NMR analyses », Biopolymers (1991): 31, 1309-1323.

2 - Gonzalez-Muniz, R., Cornille, F., Bergeron, F., Ficheux, D., Pothier, J., Durieux, C. et Roques, B. P.. « Solide phase synthesis of a fully active analogue of cholecystokinin using the acid-stable Boc-Phe(p-CH2)SO3H as a substitute for Boc-Tyr(SO3H) in CCK8 », Int. J. Peptide Protein Res (1991):, 37, 331-340.

1 - Delepierre, M., Van Heijenoort, C., Igolen, J., Pothier, J., Le Bret, M. et Roques, B. P. « Reassesment of structural characteristics of the d(CGCG)2:Actinomycin D complex from complete 1H and 31P NMR », Journal of Biomolecular Structure & Dynamics (1989): 7(3), 557-589.

Thèse : Pothier, J. (1992) « Etudes des complexes de drogues intercalantes avec des oligonucléotides par Résonance Magnétique Nucléaire et Modélisation moléculaire ». Thèse de l'Université d'Orsay (Paris 11). Spécialité Cristallographie Biologique

Chapitres de livre, articles dans actes de congrès, divers

Carpentier M., Pothier J. « Protein pairwise structural comparison methodsA review » (2007) in Recent Advances in Structural Bioinformatics 2007, de Brevern A.G. ed. Research signpost, Trivandrum, India. ISBN:978-81-308-0208-4.

Abraham A.L., Pothier J., Rocha E. P. C., Swelfe : analyse de la dynamique de répétition chez les gènes, les protéines et leurs structures, communication orale JOBIM 2007

Pisanti, N., H. Soldano, M. Carpentier and J. Pothier (2006), Implicit and Explicit Representation of Approximated Motifs. in Algorithms for Bioinformatics, C. Iliopoulos and K. Park and K. Steinhofel editors,

Carpentier M., Pisanti N., Pothier J. and Soldano J., Application of relational motifs to multiple structural alignment, JOBIM 2006

Carpentier M., Brouillet S., Pothier J., Alignement multiple de familles protéiques, JOBIM 2005

Abraham A.L., Carpentier M., Pothier J., et Rocha E.P.C. Détection de duplications internes dans les structures des protéines, JOBIM 2005

Carpentier M., Boccara M., Pothier J., « Structural similarity searches in database: YAKUSA » (2002), communication-poster JOBIM 10-12 juin 2002, Saint-Malo

Marin A., Pothier J., Zimmermann K., Gibrat J-F., (2002) « Protein threading statistics: An attempt to asses the significance of a fold assignment to a sequence » in « Protein Stucture Prediction – Bioinformatic approach » Edited by Igor Tsigelny, IUL Biotechnology Series

Pothier, J. (1990). « Nearly automatic peak volume measurements in 2D NMR ». Texas A&M University NMR Newsletter(377), 2-4.

Pothier, J., Delepierre, M., Barsi, M. C., Garbay-Jaureguiberry, C., Igolen, J., Le Bret, M. et Roques, B. P. (1989). « Bis-intercalation of ditercalinium and "flexible" analogue in the octanucleotide d(TTCGCGAA)2: A comparative study by NMR and molecular modelling ». dans Modelling of Molecular Structures and Properties, J. L. Rivail (Ed.), 71, pp. 653-660, Nancy, Elsevier Science Publisher.

Activités d'enseignement

Les enseignements du tableau sont ceux effectués cette année.


Niveau

Intitulé

Licence 2

 Cours et TD de la section à horaire aménagées (salariés) Mathématiques et Statistiques (LV204)


 Cours et TD du module d’informatique : Initiation à l'abstraction en biologie – Informatique (LV231)

Licence 3

Responsable du module "Initiation à la bioinfomatique. (LV348): cours d'analyse de séquences

Master Biologie Moléculaire et Cellulaire de l'UPMC



Master 1

Module MV418 «  Les acides nucléiques : de la molécule unique à la cellule ». cours/TD d’utilisation de l’outil informatique pour la modélisation.

Master 2

 

Master PSF (Protéines : Biochimie Structurale et Fonctionnelle)

Cours structures des protéines et modélisation (mécanique moléculaire, dynamique moléculaire, modes normaux, méthodes de repliements) 

Master BMarne (Biologie Moléculaire : ARN et Evolution)

Cours analyse de structure des protéines et évolution des structures 

Master M2 IBBI (Interface Bio – Bioinfo) à UVSQ-ORSAY

Séminaire : « Les limites de la bioinformatique structurale »


Niveau doctoral

responsable des modules OBI

Module OBI1 inter école doctorale

Unix/Linux : informatique pour la Biologie - Elaboration de chaînes de traitement des informations biologiques

Module OBI2 inter école doctorale

Algorithmique et Programmation : Notions de base pour les biologistes

Module OBI3 inter école doctorale

Bases Algorithmiques et Statistiques de l'Analyse des Séquences - Applications sur l'internet

Formation permanente

 


Formation en Analyse de séquence – module OBI1, OBI2 et OBI3 (cf ci-dessus)


Activités pour la collectivité :

Commissions de spécialistes :

Membre du comité de sélection du poste MCF1446 à l'Université de Rennes 1 (2011)

Membre de la commission de spécialistes du Museum d’Histoire Naturelle (2006-2009)

Membre de la commission de spécialiste 64 de l’Université Paris 6 (2001-2005)

Membre de la commission de spécialiste 64 à 68 à l’Université de Cergy Pontoise (1996-2000)

Conseils d’UFR et centraux

Membre du Conseil d'UFR des Sciences de la Vie de Paris 6 (2005-2009)

Membre du Conseil Scientifique de l’Université Paris 6 (1998-2002 / 2002-2006 / 2010-2012)

Curiculum Vitae


1994-2011

Maître de conférence (Hors Classe en 2010) au Département de Biochimie de Paris 6. Enseignements de BioInformatique et de biochimie structurale utilisant l'informatique.

Recherches menées à l'Atelier de BioInformatique, Université Pierre et Marie Curie, 75005 PARIS

1992-1994

A.T.E.R. au Département de Biochimie de Paris VI - Participation à la mise en place d'enseignements de Biochimie utilisant l'informatique.

Recherches menées à l'Atelier de BioInformatique, Institut Curie, PARIS

1988-92

Thèse de Doctorat de l'Université d'Orsay (PARIS XI),

spécialité Cristallographie Biologique, soutenue le 16 Juin 1992.

Sujet: "Etudes de complexes de drogues intercalantes avec des oligonucléotides par Résonance Magnétique Nucléaire et Modélisation Moléculaire".

Effectuée au Laboratoire de Pharmacologie Moléculaire – Institut Gustave Roussy. Directeur de thèse : Marc Le Bret

1987-88

DEA de BIOPHYSIQUE (Paris 6)

Mention bien (3place)

PROFESSION ANTERIEURE

1976-88

Infirmier de Secteur psychiatrique titulaire à l'Hôpital de Ville-Evrard, Neuilly sur Marne, et au Dispensaire d'Hygiène Mentale de Saint-Denis, jusqu'à l'obtention de l'allocation de recherche du MRT.


1Site web: http://bioserv.rpbs.jussieu.fr

2Ce programme, FROST, a été classé 19ème, c'est-à-dire parmi les premières méthodes automatiques de reconnaissance de repliements (in « Assessment of the CASP4 Fold Recognition Category », Manfred J. Sippl et al., PROTEINS: Structure, Function, and Genetics Suppl 5:55,67 (2001)).

3Van Dongen, S, (2008). Graph clustering via a discrete uncoupling process. SIAM J. MatrixAnal. Appl., 30(1), 121–141

4Andreeva A., Howorth D., Chandonia J.-M., Brenner S. E., Hubbard T. J. P., Chothia C. & Murzin A. G. (2008). Data growth and its impact on the scop database : new developments. Nucleic Acids Res, 36(Database issue), D419–25.

5Reeves G. A., Dallman T. J., Redfren O. C., Akpor A. & Orengo C. A. (2006). Structural diversity of domain superfamilies in the cath database. J Mol Biol, 360(3), 725–741.