PROJET DE RECHERCHE STATISTIQUE ET ALGORITHMIQUE ...

peaceevenΒιοτεχνολογία

4 Οκτ 2013 (πριν από 3 χρόνια και 10 μήνες)

87 εμφανίσεις

PROJET DE RECHERCHE
STATISTIQUE ET ALGORITHMIQUE POUR LA PR
´
EDICTION IN SILICO DE
LA STRUCTURE D’ARN
YANN PONTY
Projets`a court terme.
(A) D´eveloppement d’une suite logicielle pour le calcul automatique de mod`eles de structures
al´eatoires.
(B) Extension de la g´en´eration al´eatoire dite de Boltzmann au cas non uniforme,et impl´ementation.
(C) Elaboration et validation de mod`eles al´eatoires pertinents pour le couple structure/s´equence
pour l’ARN destin´e`a l’´evaluation des algorithmes de comparaison de structure (Projet
BRASERO).
(G) Evaluation,dans les structures pr´esentes dans la PDB,les valeurs de param`etres critiques
dans la th´eorie de la complexit´e.
(J) Validation et ´etendre les r`egles de placements des h´elices dans l’espace tridimensionnel.
Projets`a moyen terme.
(D) Elaboration de mod`eles rationnels (au sens alg´ebrique) pond´er´es pour la structure secondaire
d’ARN.
(E)
´
Etude les distribution des nombres d’occurrences de motifs dans la structure d’ARN.
(H) D´eveloppement d’approches pour le calcul sur des instances biologiques r´eelles de param`etres
#-complets (Page-number,genre).
(J)
´
Elaboration de mod`eles et m´ethodes pour l’inf´erence in silico d’´el´ements de stabilisation de
la structure tridimensionnelle.
Projets`a long terme.
(C)
´
Echantillonnage statistique pour le design de l’ARN.
(I) D´eveloppement d’algorithmes tirant parti des ´ecarts observ´es entre les donn´ees de structure
et les mod`eles dans lesquels les algorithmes ont ´et´e prouv´e NP-complet.
(L) Mod´elisation des interaction inter-h´elices et repliement dans l’espace tridimensionnel.
Collaborations et int´egration.
Les collaborations envisag´ees,et pour la plupart d´ej`a initi´ees,sont nombreuses et d´ecrites plus
en avant dans ce document:
D.Barth (PRISM,Versailles) M.R´egnier (INRIA Rocquencourt)
P.Clote (Boston College) M.Termier (IGM,Orsay)
A.Denise,C.Saule,C.Herrbach (LRI,Orsay) J.Waldisp¨uhl (MIT,Boston)
P.Nicodeme (LIX,Palaiseau) E.Westhof (IBMC,Strasbourg)
C.Pivoteau,M.Soria (LIP6,Paris)
Ces projets de collaboration,pour la plupart d´ej`a initi´es,avec les ´equipes AlCAAP du PRISM
et Bioinformatique du LRI,qui reposent`a la fois sur une communaut´e de culture et d’int´erˆet
scientifique,rendront naturelle mon int´egration au sein de chacune de ces ´equipes.
Recommandations.Le pr´esent projet de recherche s’accompagne d’avis de cinq personnalit´es
scientifiques,travaillant sur l’application de m´ethodes algorithmiques de haut niveau`a des probl`emes
rencontr´es en bioinformatique:
- Alain Denise (LRI,Orsay)
- Dominique Barth (PRISM,Versailles)
- Peter Clote (Boston College)
- Gregory Kucherov (LIFL,Lille)
- Jacques Nicolas (IRISA,Rennes)
1
2 YANN PONTY
1.Aspects statistiques de la structure secondaire d’ARN
Un des objectifs principaux de la bioinformatique consiste`a
´elaborer des algorithmes pour la d´etection d’occurrences d’un ph´e-
nom`ene ´etudi´e (G`enes,petits ARN structur´es,...) au sein de vol-
umes croissant de donn´ees.De tels algorithmes reposent classique-
ment sur un mod`ele pour le ph´enom`ene,qui s’attache`a d´ecrire
les cons´equences observables du ph´enom`ene ´etudi´e sur les donn´ees.
On obtient en les ex´ecutant un certains nombres de candidats,qui
devront alors faire l’objet d’une validation in vitro/in vivo,poten-
tiellement longue et coˆuteuse voire irr´ealisables.Afin de limiter le
nombres de faux-positifs,ou encore d’ordonner les candidats,le con-
cept de significativit´e statistique est utilis´e.Il s’agit de distinguer
les candidats originaux,effectivement li´es au ph´enom`ene ´etudi´e,
des artefacts dont l’apparition est assimil´ee`a du bruit.Une hy-
poth`ese nulle,id´ealement tenant compte de toutes les connaissances
d´ej`a av´er´ees,mais plus souvent ne capturant que des propri´et´es
d’ensemble,est alors formul´ee,ce qui permet d’associer`a chaque candidat un score de significa-
tivit´e (Z-Score) ou une probabilit´e de n’ˆetre que le simple fruit du hasard (P-value).Associ´es`a des
seuils,ces concepts constituent des cribles qui permettent d’am´eliorer grandement la sp´ecificit´e des
approches.Il est pour cela critique d’utiliser des formalismes suffisamment expressifs pour pouvoir
mod´eliser les contraintes pesant sur les donn´ees observ´ees.De plus,une ´etude de ces mod`eles doit
ˆetre praticable,afin d’´evaluer les scores et valeurs de significativit´e.
Dans le domaine des s´equences (Structures primaires d’ADN,ARN ou Prot´eines),les principaux
mod`eles utilis´es dans ce type d’approches sont les mod`eles de Markov (Classiques ou HMM),et les
mod`eles de Shuffling.L’objectif de ces mod`eles est de capturer,soit en moyenne soit exactement,une
certaine composition en k-nucl´eotides/acides amin´es.Ayant fait leurs preuves dans le domaine des
s´equences non structur´ees,de tels mod`eles ne permettent que la prise en compte d’interactions cour-
tes distances,et s’av`erent donc inad´equats pour la mod´elisation des interactions longues-distances
pr´esentes dans les s´equences structur´ees.
Au cours de ma th`ese,j’ai donc ´etendu et ´etudi´e les propri´et´es
d’un mod`ele introduit par Denise et al [9]:Les grammaires pond´er´ees.
J’ai montr´e que celles-ci permettaient`a la fois de tenir compte des
propri´et´es s´equentielles et structurelles,puis ai d´evelopp´e le logi-
ciel GenRGenS,qui engendre al´eatoirement des s´equences struc-
tur´ees dans diff´erentes classes de mod`eles (Markov,HMM,Gram-
maires pond´er´ees,Motifs Prosite...).J’ai enfin con¸cu et impl´ement´e
un logiciel qui,par une approche issue de l’optimisation,calcule
les param`etres d’un mod`ele bas´e sur des grammaires pond´er´ees,
et visant par exemple`a mimer les traits communs`a une famille
de s´equence structur´ees.On donc d´esormais des briques de base
d’une suite algorithmique compl`ete permettant l’apprentissage d’un
mod`ele capturant les propri´et´es d’une famille d’ARN structur´es,et
permettant la g´en´eration al´eatoire et l’analyse statistique
1
.
A.L’assemblage des ces diff´erents ´el´ements en un logiciel coh´erent et simple d’utilisation permet-
tant la g´en´eration al´eatoire de structures secondaires d’ARN r´ealistes repr´esente un premier ´el´ement
de ce projet de recherche.Par r´ealistes,on entend qui contiennent les mˆemes nombres d’occurrences
et tailles moyennes pour les diff´erents types de sous-structure (Boucles,h´elices,renflements...) que
des structures de r´ef´erence.En effet,j’ai pu montrer au cours de mon m´emoire de DEA les insuffi-
sances dans ce domaine du mod`ele uniforme.Grace`a un tel logiciel,il sera possible de calculer in
silico des scores de significativit´e associ´es`a l’apparition de motifs particuliers (grande tige-boucle)
dans des familles d’ARN (Ribosomaux,messagers).
1
Cette derni`ere propri´et´e,essentielle selon nous,distingue le mod`ele des grammaires pond´er´ees des grammaires
stochastiques [33] qui ne peuvent ˆetre imm´ediatement analys´ees ni faire l’objet d’une g´en´eration al´eatoire en taille
maˆıtris´ee.
PROJET DE RECHERCHE 3
B.La pr´ecision de tels calculs d´epend dramatiquement de l’efficacit´e des algorithmes de g´en´eration
al´eatoire utilis´es.Dans le cas du mod`ele des grammaire pond´er´ees,j’ai d´emontr´e au cours de ma
th`ese avec C.Pivoteau et M.Soria (LIP6,Paris) qu’il est possible de leur appliquer les principes de
la g´en´eration al´eatoire dite de Boltzmann,de fa¸con`a engendrer en temps lin´eaire apr`es un pr´ecalcul
en temps constant.Ces premiers r´esultats serviront de base pour une collaboration,incluant aussi
A.Denise (LRI,Orsay) visant`a la g´en´eration non uniforme de s´equences selon les principes de
Boltzmann.L’un des objectifs d’une telle collaboration serait l’impl´ementation d’un g´en´erateur
aussi ind´ependant et automatique que possible.En effet,cette g´en´eration tire actuellement parti de
propri´et´es sp´ecifiques`a chaque classe d’objets engendr´es,et dont la d´etermination fait,pour l’instant
appel,`a des logiciels de calcul symbolique(Maple,Mathematica).Dans l’optique d’une int´egration
ultime de ces g´en´erateurs`a GenRGenS,on souhaite donc ´eviter tout appel`a des fonctions externes.
C.Dans le cadre du projet Brasero (ANR),regroupant 4 ´equipes
de recherche (LRI Orsay-LIFL Lille-LaBRI Bordeaux-BBE Marne-
La-Vall´ee) et dont le but est d’´evaluer et am´eliorer les approches
actuelles pour le probl`eme de la comparaison d’ARN,je m’int´eresse
`a la g´en´eration al´eatoire de structures d’ARN.De telles m´ethodes
utilisant`a la fois sur les structures primaire (s´equence) et sec-
ondaire,je souhaite aborder le probl`eme de la d´ecoration des structures engendr´ees,c’est`a dire
l’adjonction d’une s´equence.Diff´erentes approches sont envisag´ees:
- Tirer uniform´ement,ou suivant une distribution Markovienne,une s´equence parmi l’ensemble
des s´equences compatibles avec la structure,engendr´ee pr´ec´edemment.
- Engendrer s´equences et structures simultan´ement en introduisant la s´equence dans la gram-
maire utilis´ee classiquement pour la structure.
- Enfin,ce type d’ajout aux mod`eles utilis´es jusqu’ici devrait m’amener`a m’int´eresser dans un
futur plus lointain au design d’ARN,ou repliement inverse,qui consiste`a trouver la s´equence
d’ARN la plus susceptible de se replier conform´ement`a une structure impos´ee initialement.
Ces approches devraient faire l’objet d’une validation,en utilisation des crit`eres statistiques tels la
maximisation de la vraisemblance des donn´ees observ´ees dans les mod´eles propos´es.De tels mod`eles
de structures al´eatoires seront ensuite utilis´es pour l’´evaluation (Benchmarking) et la calibration
d’algorithmes d’alignements oeuvrant sur la structure[15,1,16].
D.De plus,avec A.Denise et C.Saule (LRI,Orsay),nous envisageons de d´evelopper des ap-
proches pour la g´en´eration al´eatoire de structures plus contraignantes au niveau de la structure.
Plutˆot que de contraindre les valeurs moyennes de param`etres structurels,on apprendra cette fois la
grammaire elle-mˆeme,de fa¸con`a ce que les structures engendr´ees aient toutes la mˆeme repr´esentation
sch´ematique.Le terme de repr´esentation sch´ematique est volontairement non d´efini,car d´esignant
plusieurs niveaux d’abstraction de la structure initiale.On s’inspirera pour cela des travaux de R.
Giegerich et al sur les RNA-Shapes [36,34,13],dont nous avons ´etudi´e les comportements asympto-
tiques avec A.Lorenz et P.Clote (Boston College),un article ´etant soumis`a Journal of Computational
Biology.La g´en´eration al´eatoire dans le cas de ces objets pourrait s’av´erer extrˆemement simple,la
structure alg´ebrique sous-jacente`a ces objets ´etant essentiellement rationnelle,afin d’engendrer des
structures sous-contraintes.D’autre part,on souhaite d´evelopper des approches analytiques pour le
calcul automatique des pond´erations r´ealisant des fr´equences attendues pour les diff´erents symboles.
On prolongera ainsi des ´etudes initi´ees au cours de ma th`ese et reli´ees`a un th´eor`eme de Drmota sur
les coefficients de fort degr´e dans les solutions d’´equations fonctionnelles alg´ebriques [10].
4 YANN PONTY
E.Une application naturelle de ces nouveaux outils pourrait ˆetre le
calcul de scores de significativit´e pour les m´ethodes de d´etection de pe-
tits ARN structur´es [18,26,14,27].Dans [19],les auteurs utilisent des
calculs de convolutions discr`etes pour ´evaluer l’esp´erance du score d’un
motif trouv´e avec le logiciel ERPIN [18].Une telle quantit´e peut aussi
ˆetre calcul´ee grace`a la g´en´eration al´eatoire,ou par des techniques issues
de la combinatoire ´enum´erative.On pourra ainsi se poser la question
suivante:Dans une s´equence de taille et composition fix´ee,quelle est la
probabilit´e d’observer un motif palindromique de taille k?Cette ques-
tion constitue le point de d´epart d’un groupe de travail constitu´e d’A.Denise (LRI,Orsay),P.
Nicodeme (LIX,Polytechnique),M.R´egnier (INRIA Rocquencourt) et moi-mˆeme,et qui a pour a
pour vocation d’´etablir des aspects statistiques de la structure d’ARN sous des mod`eles discrets,
comme ceux d´evelopp´es au cours de ma th`ese.De plus,avec J.Waldispuhl (MIT,Boston),nous tra-
vaillons actuellement`a des approches combinatoires,`a base de grammaire pond´er´ees,pour ´evaluer
les ´energies libres moyennes des structures dans les mod`eles de Nussinov [29] et de Turner[40],afin
de donner une valeur statistique aux structures candidates dans les approches de repliement in silico.
F.Enfin,une perspective plus lointaine de ces travaux est l’extension des mod`eles actuels aux
interactions tertiaires de la structure d’ARN.En effet,les grammaires que nous utilisons actuelle-
ment s’av`erent insuffisante pour mod´eliser les pseudo-noeuds,mˆeme dans des classes tr`es simples de
celles-ci.En effet,dans des travaux en cours,j’ai pu montrer que le langage associ´e aux structure
bi-secondaire,qui peuvent ˆetre dessin´ees sur deux demi-plans sans croisement,est au moins con-
textuel.En cons´equence,il n’existera pas de grammaire non-contextuelle,si sophistiqu´ee soit elle,
permettant de mod´eliser ces structure de fa¸con non-ambigu¨e.Cependant,on a pu montrer,dans des
travaux en cours de finalisation avec M.Bousquet-M´elou (LaBRI,Bordeaux),que des algorithmes
de g´en´eration al´eatoire efficace peuvent ˆetre trouv´es pour des objets du domaine du contextuel.On
recherchera donc dans la litt´erature relative`a la g´en´eration al´eatoire de cartes [11] ou de graphes [6]
des pistes pour cette n´ecessaire extension.
Collaborateurs:
A.Denise,C.Saule,C.Herrbach (LRI,Orsay)
M.Termier (IGM,Orsay)
C.Pivoteau,M.Soria (LIP6,Paris)
P.Nicodeme (LIX,Palaiseau)
M.R´egnier (INRIA Rocquencourt) J.Waldisp¨uhl (MIT,Boston)
PROJET DE RECHERCHE 5
2.Complexit
´
e param
´
etr
´
ee pour les probl
`
emes NP-complets reli
´
es
`
a la structure
d’ARN
De nombreux probl`emes li´es`a la structure de l’ARN
s’av`erent NP-complets (Repliement avec pseudo-noeuds,
distance d’edition,...) [8,25,7,5] quand on con-
sid`ere des d´efinitions riches de la structure d’ARN.
Classiquement,la structure secondaire consid´er´ee par
les m´ethodes algorithmiques d´eterministe peut ˆetre
dessin´ee sur un demi-plan,ce qui permet d’introduire des d´ecompositions r´ecursives [37,29] sous-
jacentes`a toute approche programmation dynamique.Quand on ´etend la d´efinition d’une telle struc-
ture aux pseudo-noeuds,c’est`a dire`a des interactions intersectant celles de la structure secondaire.
Par exemple,Lyngsø et al ont prouv´e que le repliement dans le mod`ele des plus proches voisins ´etait
NP-Complet quand les pseudo-noeuds sont consid´er´es.Ce r´esultat reste ´evidemment valide dans
le cas de structures plus g´en´erales,permettant de tenir compte de contraintes stabilisatrices (inter-
actions triples),qu’on observe en utilisant des outils tels que RNAView [39] ou MC-Annotate [20].
Cependant,de nombreuses approches polynomiales ont pu ˆetre d´evelopp´ees (voir [32] ou [31]) en
n’explorant qu’un sous-ensemble de l’espace des conformations.Ce type de restriction est en g´en´eral
plus justifi´ee`a la lumi`ere de contraintes algorithmiques que par la nature biologique des structures
consid´er´ees.Or cette apparente difficult´e des probl`emes consid´er´es pourrait s’av´erer ˆetre unique-
ment li´ee`a la non-prise en compte de contraintes oeuvrant sur la vraie structure d’ARN,celle-ci
´etant assimil´ee`a un graphe g´en´erale (´eventuellement chemin-hamiltonien) dans les ´etudes classiques
de complexit´es.Par exemple,des simples crit`eres d’encombrement st´erique permettent de borner le
degr´e de l’ARN en tant que graphe,et on sait que ce type de contrainte peut rendre polynomiaux
des probl`emes r´eput´es dur (isomorphisme).
Le but ultime de ce projet recherche est de d´evelopper des approches complexit´e param´etr´ee pour
les probl`emes li´es`a la structure,en tirant parti autant que possible des contraintes pesant sur les
ARN.Pour cela,je pr´evois l’approche suivante:
G.Utiliser les approches r´ecentes (RNAView ou MC-Annotate) pour discr´etiser les struc-
tures r´esolues exp´erimentalement et disponibles dans la PDB [4] ou la NDB[3].Calculer
(
´
Eventuellement approximativement) les valeurs de param`etre critiques en th´eorie des graphes
pour des graphes extraits des vrais ARN.On commencera par les param`etres classiques,
comme les degr´es des base,ou la distribution des degr´es des arbres induits par l’aspect
arborescent de la structure secondaire.
H.On pourrait ensuite s’int´eresser dans au genre topologique,d´ej`a ´etudi´e par G.Vernizzi et al
[35] dans le cas des cartes,ce qui repr´esente d’ors et d´ej`a une borne sup´erieure.En d´eduire
des divergences vis-a-vis du mod`ele de graphes g´en´eraux,dans lesquels des probl`emes sont
NP-Complets et dans lequel ce param`etre croit de fa¸con lin´eaire sur la taille des graphes.
I.Analyser les preuves de NP-compl´etude`a la lumi`ere de ces contraintes,afin de d´eterminer si
ces r´esultats tiennent toujours,et/ou d´evelopper des approches param´etr´ee permettant une
r´esolution des probl`emes d’int´erˆet en pratique.
Collaborateurs:
D.Barth (PRISM,Versailles)
P.Clote (Boston College)
A.Denise (LRI,Orsay)
3.Vers une caract´erisation de la structure tertiaire de l’ARN
6 YANN PONTY
En 2001,des travaux de Leontis et Westhof d´ebouchent sur
une nomenclature [21] pour les appariements entre nucl´eotides
dans l’ARN,qu’utilisent Yang et al [38] dans leur logiciel RNAView,
ou Lemieux et Major dans leur logiciel MC-Annotate.Ces
logiciel permettent,`a partir d’un fichier issu de la PDB [4],
de d´eterminer la liste et le type des appariements en jeu.En
ex´ecutant ce logiciel sur des structures cristallographi´ees,il de-
vient ´evident que les motifs tels que les boucles internes,ter-
minales ainsi que les multiboucles n’adoptent pas la sympa-
thique structure circulaire et que nous ont habitu´e`a voir les
dessins planaires de structures secondaires issues par exemple
du repliement.Au contraire,on voit apparaˆıtre de nombreuses
interactions non canoniques,qui participent`a l’organisation de la structure tertiaire [22].Les h´elices,
´el´ement structurel le plus stable,se lient alors entre elles,soit en leurs extr´emit´es,soit en s’entassant
parall`element.Elles forment ainsi le squelette stable de la structure tertiaire,dont la d´etermination
in silico est un des prochains grands challenges de la bioinformatique structurale.
En effet,de nombreuses m´ethodes (G´enomique comparative,minimisation de l’´energie libre)
s’attachent,avec un succ`es croissant,`a reconstruire une approximation raisonnable de la struc-
ture secondaire.De plus,mon s´ejour actuel au sein d’une communaut´e de recherche consacr´ee au
repliement in silico de l’ARN m’a permis de constater un int´erˆet grandissant pour les interactions
non canoniques,c’est`a dire non WC/WC-Cis au sens de la classification Leontis-Westhof [21].De
nouveaux mod`eles sont actuellement d´evelopp´es afin de rendre possible la d´etermination d’une struc-
ture secondaire augment´ee pour l’ARN,planaire mais incluant des apparitions non canoniques.La
donn´ee de cette structure pourrait servir de base`a repliement pratiqu´e en consid´erant les h´elices et
autres types de sous-structures comme des briques,de fa¸con similaire`a l’approche hi´erarchis´ee de J.
Allali et al [1] pour la comparaison de structures secondaires d’ARN.A cette approche hi´erarchique
s’ajouterait la prise en compte des contraintes st´eriques s’exer¸cant sur les h´elices.
D’un point de vue algorithmique,le repliement d´eterministe dans ce type de mod`eles risque de
s’av´erer NP-Complet (Rapprochement avec le repliement incluant des pseudo-noeuds,ou parall`ele
avec des mod`eles utilis´es lors du repliement de prot´eines [2]).Cependant,le nombre de bases
encore libres apr`es d´etermination de la structure secondaire augment´ee pourrait s’av´erer assez limit´e,
permettant d’envisager des approches de type programmation par satisfaction de contraintes,une
approche g´en´erique et fructueuse dans ce domaine [12].
De plus,des travaux r´ecents de Lescoute et Westhof [23]
´enoncent un premier ensemble de de r`egles auxquelles sat-
isfait la topologie des boucles internes mettant en jeu 3
h´elices.L’automatisation de ces r`egles,ainsi qu’une vali-
dation de leur pouvoir pr´edictif,fait actuellement l’objet
de travaux au sein des ´equipes ALCAAP du PRISM(Ver-
sailles) et Bioinformatique du LRI (Orsay).Ils utilisent
d’ors et d´ej`a dans ce cadre un programme d´edi´e`a la
planarisation d’ARN que j’ai d´evelopp´e au cours de ma
th`ese [30].Elles pourraient ˆetre compl´ement´ees par une
focalisation sur la d´etection de boucles GNRA dans les
portions libres,qui sont connues pour jouer un rˆole ma-
jeur dans la stabilisation de la structure tridimensionnelle.
On arrivera sans doute ainsi`a limiter la taille de l’espace de recherche suffisamment pour rendre ces
probl`emes traitables en pratique.
PROJET DE RECHERCHE 7
Mon projet de recherche vise`a l’´elaboration d’une
chaˆıne algorithmique compl`ete destin´ee`a la d´etermination
d’une structure tertiaire pour un ARN caract´eris´e par la
donn´ee de sa s´equence
2
.
J.Dans un premier temps,on cherchera,dans le cadre
d’une collaboration en cours de d´emarrage entre l’´equipe
d’E.Westhof (IBMC,Strasbourg),l’´equipe bioinforma-
tique (LRI,Orsay) et l’´equipe ALCAAP (PRISM,Ver-
sailles) d’´etablir des r`egles similaires`a celles obtenues
pour des boucles multiples`a trois h´elices [23],ainsi qu’un
mod`ele ´energ´etique pour le repliement des domaines h´e-
lico¨ıdaux,tenant compte des contraintes st´eriques.
K.Ensuite,on d´eveloppera des approches algorithmiques (Programmation dynamique,satisfaction
de contraintes) pour l’inf´erence d’´el´ements de stabilisation de la structure tertiaire,impliquant des
´el´ement divers (boucles GNRA,tiges-boucles enlac´ees[kissing hairpins]).Pour cela,on fera appel`a
l’expertise en algorithmique de la structure l’ARN d´evelopp´ee au sein de l’´equipe Bioinformatique
(LRI,Orsay).
L.Enfin,on collaborera avec l’´equipe ALCAAP (PRISM,Versailles) au placement sous-contraintes
des h´elices dans l’espace tridimensionnel,tirant parti autant que possible des r`egles/tendances
´etablies au cours d’un dialogue continu avec l’´equipe d’E.Westhof.Cette derni`ere ´etape,tout
particuli`erement,devra faire l’objet d’une impl´ementation modulaire,ce afin de tenir compte d’une
´evolution constante des mod`eles pour le repliement des ´el´ements de bases.La suite logicielle r´esultant
de ces d´eveloppements aura pour vocation de s’int´egrer naturellement`a la plateforme S2S [17].
Une validation,`a la fois des mod`eles ´elabor´es et des solutions algorithmiques propos´ees (po-
tentiellement heuristiques),pourrait tirer partie des donn´ees issues de m´ethodes exp´erimentales
disponibles dans la NDB [3],et desquelles des outils comme RNAView ou MC-Annotate per-
mettent d’extraire les diff´erents appariements.L’utilisation d’outils d´evelopp´es au cours de ma
th`ese [30] permettent alors d’extraire une structure secondaire maximale contenant potentiellement
des appariements non canoniques.Au cours de cette ´etapes,les interactions tertiaires auront ´et´e
supprim´ees.On obtiendra donc pour toute structure r´esolue exp´erimentalement un quadruplet
(s´equence/structure secondaire augment´ee/structure secondaire stabilis´ee/conformation 3D) contre
lequel valider les r´esultats des diff´erentes ´etapes de notre approche.
A travers ma participation aux groupes de travail successifs Mod´elisation et Algorithmique des
Structures d’ARN (2002-2003) puis ARENA (2004-2007) pour l’aspect structure de l’ARN,aux
groupes OAALOVE puis BioAlgome du PRISM pour les aspects th´eorie des graphes et ma th`ese
effectu´ee au LRI,je suis`a mˆeme de jouer un rˆole de pivot au sein de ce projet int´egralement pluridis-
ciplinaire.
Collaborateurs:
D.Barth,S.Vial (PRISM,Versailles)
A.Denise,M.Djelloul (LRI,Orsay)
E.Westhof (IBMC,Strasbourg)
References
1.J.Allali and M.F.Sagot,A multiple graph layers model with application to RNA secondary structures comparison,
String Processing and Information Retrieval 2005,vol.3772,2005,pp.348–359.
2.B.Berger and T.Leighton,Protein folding in the hydrophobic-hydrophilic (hp) is np-complete,RECOMB ’98:
Proceedings of the second annual international conference on Computational molecular biology,1998,pp.30–39.
2
On gardera cependant`a l’esprit que la structure d’un ARN est loin d’ˆetre uniquement d´ependante de sa s´equence,
mais aussi de param`etres environnementaux tels la temp´erature ou les concentrations de certains ions.Enfin ses
interactions avec d’autres acteurs du monde cellulaires (Complexes,sites de fixation) constitue actuellement un champs
d’investigation particuli`erement actif dans la commaunaut´e biochimistes[24].L’´etude et la simulation du repliement,
conditionn´e par une interaction (ARN,Prot´eine) av´er´ee,constitue donc naturellement un champs d’investigation pour
les bioalgorithmiciens [28].
8 YANN PONTY
3.H.M.Berman,W.K.Olson,D.L.Beveridge,J.Westbrook,A.Gelbin,T.Demeny,S.H.Hsieh,A.R.Srinivasan,
and B.Schneider,The nucleic acid database.a comprehensive relational database of three-dimensional structures
of nucleic acids,Biophysical Journal 63 (1992),no.3,751–759.
4.H.M.Berman,J.Westbrook,Z.Feng,G.Gilliland,T.N.Bhat,H.Weissig,I.N.Shindyalov,and P.E.Bourne,The
protein data bank,Nucleic Acids Researches 28 (2000),no.1,235–242.
5.G.Blin,G.Fertin,and S.Vialette,New results for the 2-interval pattern problem,Proceedings of the 15th
Annual Symposium on Combinatorial Pattern Matching (CPM’04),Lecture Notes in Computer Science,vol.
3109,Springer-Verlag,2004,pp.311–322.
6.N.Bonichon,C.Gavoille,and N.Hanusse,Canonical decomposition of outerplanar maps and application to
enumeration,coding and generation,Journal of Graph Algorithms and Applications 9 (2005),no.2,185 – 204.
7.P.Clote,L.Gasieniec,R.Kolpakov,E.Kranakis,and D.Krizanc,On realizing shapes in the theory of RNA
neutral networks,J.of Theor.Biol.236 (2005),no.2,216–227.
8.E.Davydov and S.Batzoglou,A computational model for rna multiple structural alignment,Theoretical Computer
Science (2006),To appear.
9.A.Denise,O.Roques,and M.Termier,Random generation of words of context-free languages according to the
frequencies of letters,Mathematics and Computer Science:Algorithms,Trees,Combinatorics and probabilities
(D.Gardy and A.Mokkadem,eds.),Trends in Mathematics,Birkha¨user,2000,pp.113–125.
10.M.Drmota,Systems of functional equations,Random Structures and Algorithms 10 (1997),no.1-2,103–124.
11.E.Fusy,D.Poullahon,and G.Schaeffer,Dissections,orientations and trees,with applications to optimal mesh
encoding and to random sampling,Transactions on algorithms (To appear).
12.C.Gaspin,C.Bessi`ere,A.Moisan,and T.Schiex,Satisfaction de contraintes et biologie mol´eculaire (in french),
Revue d’Intelligence Artificielle 9 (1995),no.3,355–381.
13.R.Giegerich,B.Voss,and M.Rehmsmeier,Abstract shapes of RNA,Nucleic Acids Res.32 (2004),no.16,
4843–4851.
14.G.Grillo,F.Licciulli,S.Liuni,E.Sbisa,and G.Pesole,Patsearch:A program for the detection of patterns and
structural motifs in nucleotide sequences,Nucleic Acids Res 31 (2003),3608–3612.
15.C.Herrbach,A.Denise,S.Dulucq,and H.Touzet,Alignment of rna secondary structures using a full set of
operations,Tech.Report 1451,Universit´e Paris-Sud 11,2006.
16.M.Hochsmann,B.Voss,and R.Giegerich,Pure multiple rna secondary structure alignments:A progressive profile
approach,IEEE/ACM Transactions on Computational Biology and Bioinformatics 01 (2004),no.1,53–62.
17.F.Jossinet and E.Westhof,Sequence to structure (s2s):display,manipulate and interconnect rna data from
sequence to structure,Bioinformatics 21 (2005),no.15,3320–3321.
18.A.Lambert,J.-F.Fontaine,M.L.,F.Leclerc,E.Permal,F.Major,H.Putzer,O.Delfour,B.Michot,and
D.Gautheret,The erpin server:an interface to profile-based rna motif identification,Nucleic Acids Res 32
(Web server issue) (2004),160–165.
19.
,Computing expectation values for rna motifs using discrete convolutions,BMC Bioinformatics 6 (2005),
118.
20.S.Lemieux and F.Major,Rna canonical and non-canonical base pairing types:a recognition method and complete
repertoire,Nucleic Acids Research 30 (2002),no.19,4250–4263.
21.N.Leontis and E.Westhof,Geometric nomenclature and classification of rna base pairs,RNA 7 (2001),499–512.
22.A.Lescoute and E.Westhof,The interaction networks of structured rnas,Nucleic Acids Res.Online version
(2006).
23.
,Topology of three-way junctions in folded rnas,RNA 12 (2006),no.1,83–93.
24.J.S.Lodmell and A.E.Dahlberg,A conformational switch in escherichia coli 16s ribosomal rna during decoding
of messenger rna,Science 277 (1997),no.5330,1262–1267.
25.R.B.Lyngsø and C.N.S.Pedersen,Rna pseudoknot prediction in energy-based models,Journal of Computational
Biology 7 (2000),no.3-4,409–427.
26.B.Ma,J.Tromp,and M.Li,Patternhunter:Faster and more sensitive homology search,Bioinformatics 18
(2002),no.18,440–445.
27.T.J.Macke,D.J.Eckerand R.R.Gutell,D.Gautheret,D.A.Case,and R.Sampath,Rnamotif,an rna secondary
structure definition and search algorithm,Nucleic Acids Res 29 (2001),4724–4735.
28.N.R.Markham and M.Zuker,Dinamelt web server for nucleic acid melting prediction,Nucleic Acids Res.33
(2005),577–581.
29.R.Nussinov and A.B.Jacobson,Fast algorithm for predicting the secondary structure of single-stranded rna,
Proc Natl Acad Sci U S A 77 (1980),6903–13.
30.Y.Ponty,Etudes combinatoire et g´en´eration al´eatoire des structures secondaires d’arn,Ph.D.thesis,Universit´e
Paris-Sud (LRI,Orsay),November 2006.
31.J.REN,B.RASTEGARI,A.CONDON,and H.H.HOOS,Hotknots:Heuristic prediction of rna secondary
structures including pseudoknots,RNA 11 (2005),no.10,1494–1504.
32.E.Rivas and S.R.Eddy,A dynamic programming algorithm for rna structure prediction including pseudoknots,
Journal of Molecular Biology 285 (1999),2053–2068.
33.D.B.Searls,Formal language theory and biological macromolecules,Discrete Mathematics and Theoretical Com-
puter Science 47 (1999),117–140.
34.P.Steffen,B.Voss,M.Rehmsmeier,J.Reeder,and R.Giegerich,RNAshapes:an integrated RNA analysis package
based on abstract shapes,Bioinformatics 22 (2006),no.4,500–503.
35.G.Vernizzi,P.Ribeca,H.Orland,and A.Zee,Topology of pseudoknotted homopolymers,Physical Review E
(Statistical,Nonlinear,and Soft Matter Physics) 73 (2006),no.3,031902.
PROJET DE RECHERCHE 9
36.B.Voss,R.Giegerich,and M.Rehmsmeier,Complete probabilistic analysis of RNA shapes,BMC Biol.4 (2006),
no.5.
37.M.S.Waterman,Secondary structure of single stranded nucleic acids,Advances in Mathematics Supplementary
Studies 1 (1978),no.1,167–212.
38.H.Yang,F.Jossinet,N.Leontis,L.Chen,J.Westbrook,H.M Berman,and E.Westhof,Tools for the automatic
identification and classification of rna base pairs,Nucleic Acids Res.31 (2003),no.13,3450–3460.
39.H.Yang,F.Jossinet,N.Leontis,L.Chen,J.Westbrook,H.M.Berman,and E.Westhof,Tools for the automatic
identification and classification of rna base pairs,Nucleic Acids Research 31 (2003),no.13,4250–4263.
40.M.Zucker,Rna folding by energy minimization.
E-mail address:ponty@bc.edu
LRI, UMR CNRS 8623
Bât. 490
Université Paris-Sud
91405 Orsay cedex

Alain Denise
Tél : 01.69.15.63.69
Fax : 01.69.15.65.86
Alain.Denise@lri.fr
Orsay, le 14 janvier 2007





Recommandation pour la candidature de Yann Ponty sur un poste de CR2 au CNRS.

Yann Ponty a effectué sa thèse entre octobre 2003 et décembre 2006 sous ma direction. Le
thème général de son travail est la conception et l’utilisation d’approches algorithmiques et
combinatoires pour l’évaluation statistique du « bruit de fond » lors de l’analyse des
séquences et structures biologiques, en particulier les structures secondaires d’ARN. Yann est
actuellement en séjour post-doctoral dans l’équipe de Peter Clote à Boston.

Une des qualités de Yann est sa capacité d’être aussi à l’aise dans les développements
théoriques de ses recherches que dans leurs applications et leur implémentation. C’est une
qualité extrêmement précieuse, en particulier en bioinformatique, domaine où l’on a besoin
non seulement de développer de nouveaux modèles mais aussi de les rendre rapidement
utilisables par la communauté des chercheurs. Ainsi par exemple, sur le sujet des grammaires
non contextuelles pondérées et de leur application à la bioinformatique, Yann n’a pas
seulement contribué au développement des concepts et algorithmes, il a aussi développé un
logiciel de facture professionnelle, GenRGenS (Bioinformatics 2006) qui est déjà utilisé (et
cité) par plusieurs équipes. A l’inverse, Yann est capable, à partir d’une question du domaine
de la bioinformatique qu’il a contribué à résoudre (publication dans BIBE 2004 avec Grégory
Kucherov et Laurent Noé), de procéder à de très intéressants développements dans le domaine
de la combinatoire (travail avec Mireille Bousquet-Mélou).

Le projet de recherches de Yann est centré sur la bioinformatique de l’ARN. Ce projet
constitue à la fois
• une suite logique et nécessaire de ses travaux de thèse et de post-doctorat, à savoir
l’approfondissement, et surtout l’application sur des problèmes bioinformatiques
importants (comparaison de structures, modélisation stochastique des structures
secondaires, recherche de motifs structurels dans les séquences et les structures) des
approches combinatoires et algorithmiques dont il est devenu un spécialiste ;
• une ouverture importante sur la modélisation et la prédiction de la structure
tridimensionnelle des molécules d’ARN, avec des approches fondées sur la
combinatoire et l’algorithmique des graphes. Encore très peu d’équipes de
bioinformatique travaillent sur ces sujets cruciaux, et nous disposons en France d’un
environnement très favorable pour mener à bien des collaborations avec des
biologistes experts de la structure fine de l’ARN.

Yann est un jeune chercheur à la fois curieux et enthousiaste, toujours prêt à proposer et
explorer des pistes originales. Il est capable aussi bien de s’intégrer dans des projets de
recherche en collaboration que de développer sa propre recherche en autonomie. De plus, il
sait susciter des discussions stimulantes qui le mènent à des collaborations fructueuses avec
des chercheurs confirmés. J’ajoute que les discussions avec Yann, en plus d’être stimulantes,
sont particulièrement agréables.

Pour toutes ces raisons, je suis absolument convaincu que Yann Ponty a toutes les qualités
requises pour faire un chercheur de haut niveau. Je soutiens donc très vivement et très
chaleureusement sa candidature à un poste de CR2 au CNRS, et serais extrêmement heureux
de l’accueillir au LRI.







Alain Denise
Professeur d’informatique
Equipe Bioinformatique, LRI Orsay.
Rennes, 15 January 2007


A qui de droit,


Telephone: +33 299 84 7312
Web : http://www.irisa.fr/symbiose
Objet : Recommandation pour la candidature de Yann Ponty à un poste de CR2 CNRS
Ref.:pont070115
J’ai fait partie du jury de Yann Ponty et pu apprécier son travail à la croisée de la combinatoire
énumérative, de la théorie des graphes et de la bioinformatique. Il a montré une grande curiosité, une
très bonne autonomie dans son travail et la capacité à poser des problèmes de recherche pertinents.
La bioinformatique a besoin d'algorithmiciens de haut niveau, capables de formaliser puis
simplifier pour les rendre traitables les nombreux problèmes d'optimisation qui se posent dans le cadre
de l'analyse des données massives du génome. Yann Ponty possède une très bonne culture scientifique
qui est un atout certain dans ce domaine.
Son projet de recherche sur l'étude des structures de chaînes d'acides ribonucléiques est
intéressant et riche. Il devrait bénéficier d'un environnement favorable au CNRS pour le mener à bien.

En conclusion, la candidature de Yann Ponty à un poste de chargé de recherche au CNRS
me semble tout à fait justifiée. Je la recommande sans hésitation.

Jacques Nicolas
Responsable de l’équipe Irisa Symbiose