Distance d'édition entre "tige-boucles" - Poster 82 - JOBIM 2005 - LBIT

peaceevenBiotechnology

Oct 4, 2013 (3 years and 10 months ago)

83 views

4. Résultats
4.2 Application à la comparaison de structures complexes
3.2 Table de programmation dynamique
3. Algorithme
3.1 Construction de l’automate
2. Opérations d’édition
Valentin GUIGNON, Cedric CHAUVE, Sylvie HAMEL
Programme de Bio-Informatique, Universite de Montreal, Montreal, Canada
Distance d’édition entre tige-boucles
References
[1] J.Allali et M-F. Sagot. Novel Tree Edit Operations for RNA Secondary Structure Comparison. WABI 2004, 412-425.
[2] J.J. Cannone, S. Subramanian, M.N. Schnare, J.R. Collett, L.M. D'Souza, Y. Du, B. Feng, N. Lin, L.V. Madabusi, K.M. Muller, N. Pande, Z. Shang,
N.Yu et R.R. Gutell. The Comparative RNA Web (CRW) Site: An Online Database of Comparative Sequence and Structure Information for
Ribosomal, Intron, and other RNAs. BioMed Central Bioinformatics, 3:2. [Correction: BioMed Central Bioinformatics. 3:15.] 2002.
Web Site:
[3] J.W. Brown. The ribonuclease P database. Nucleic Acid Res., 27, 1999, 314–315.
[4] S. Griffiths-Jones. The microRNA Registry. NAR, 2004, 32, Database Issue, D109-D111.
[5] T. Jiang, G. Lin, B. Ma et K. Zhang. A general edit distance between RNA structures. J. Comput. Biol., 9(2), (2002), 371–388.
[6] K. Zhang et D. Shasha. Simple fast algorithms for the editing distance between trees and related problems. SIAM J. Comput., 18-6, 1989,
1245–1262.
http://www.rna.icmb.utexas.edu/
Contact:
valentin.guignon@umontreal.ca
PosterJOBIM,6-8juillet2005
v1.2
Opérations d’édition:
Delftia acidovoransEscherichia coli
5’
3'
50
100
10
120
U
G
C
C
U
G
G
C
G
G
C
C
G
U
A
G C G C G G U G
G
U C
C
C A C C U G A
C
C
C
C
A
U
G
C
C
G
A
A
C
U
C
A
G
AA
GUG
A
A
A
CGCCGU
A
GC
G
C
C
G
A
U
G
G
U
A
G
U
G
U
G
G
G
G
U
C
U
C
C
C
C
A
U
G
C
G
A
G
A
G
U
A
G
G
G
A
A
C
U
G
C
C
A
G
G
C
A
U
Structures secondaires de sous-unités 5S d’ARN ribosomal
5'
3'
U
G
C
C
U
G
A
U
G
A
C
C
A
U
A
G C A A G U U G
G
U A
C
C A C U C C U
U
C
C
C
A
U
C
C
C
G
A
A
C
A
G
G
A
CA
GUG
A
A
A
CGACUU
U
GC
G
C
C
G
A
U
G
A
U
A
G
U
G
C
G
G
G
U
U
C
C
C
G
U
G
U
G
A
A
A
G
U
A
G
G
U
C
A
U
C
G
U
C
A
G
G
C
N
N
10
50
100
110
A A
correspondance d’une base
correspondance d’une base
AC
mutation d’une base
mutation d’une base
-C
suppression d’une base
insertion d’une base
UA
UA
correspondance d’une paire
correspondance d’une paire
UA
UG
mutation partielle d’une paire
mutation partielle d’une paire
AU
CG
mutation totale d’une paire
mutation totale d’une paire
- -
GC
suppression d’une paire
insertion d’une paire
GC
GC
bris de pont hydrogène
création d’un pont hydrogène
A- AU
altération d’une paire
complétion d’une base (fusion)
Homo Sapiens
Structure secondaire de ribonucléase P
A
U
A
G
G
G
C
G
G
A
G
G
G
A A G C
U
C
A
UC
A
G
U
G
G
G
G
C
C
A
C
G
A
G
C
U
G
A
G
U
G
C
G
U
C
C
U
G U
C
A
C
U
C
C
A
C
U
C
C C
A
U
G
U
C
C C U
U
G
G
G
A
A
G
G
U
C
U
G
A
G
A
CU
A
G
G
G
C
C
A
G
A
G
G
C
G
G
C
C
C
U
A
A
C
A
G
G
G
C
U
C
U
C
C
C
U
G
A
G
C
U
U
C
G
G
G
G
A
G
G
U
G
A
G
U
U
C
C
C
A
G
A
G
A
A
C G
G
G
G
C
U
C
C
G
C
G
C
G
A
G
G
U
C
A
G
A
C
U
G
G
G
C
A
G
G
A
G
A
U
G
C
C
G
U
G
G
A
C
C
C
C
G C
C
C
U
U
C
G
G
G
G
A
G
G
G
G
C
C
C
G
G
C
G
G
A
U
G
C
C
U
C
C
U
U
U
G
C
C
G
G
A
G
C
U
U
G
G
A
A
CA
G
A
C
U
C
A
C
G G C C
A G C G A
A
G
U
G
A
G
U
U
C
A
A
U
G
G
C
U
G
A
G G
U
G
A
G
G
U
A
C
C
C
C
G C
A
G
G
G
G
A
C
C
U
C
A
U
A
A
C
C
C
A
AUUCAGACCA
C
U
C
UCCUCCGC
CCAUU


U
P1
P2
P3a
P3b
P4
P7
P8
P9
P10/11
P12
P19
Figure 2. Scénario mettant en œuvre l’opération d’altération de paire.
C
C A C
C
U
G
A
C
C
U
C
A
G
AA
GUG
A
C
C A C
U
C
C
U
U
C
A
G
G
A
CA
GUG
A
C
C A C
C
U
G
A
C
C
U
C
A
G
A
A
GUG
A
U
C
C
G
C CCCCAUGCCGAAC A
::
C -CCCAUCCCGAAC A
C A U G
::
C - - G
AC--CUG CAG- -AGU
::::::::::
AC CCUU -AGG CAGU
A
U A
:::::::::::
5’
3'
50
100
10
120
U
G
C
C
U
G
G
C
G
G
C
C
G
U
A
G C G C G G U G
G
U C
C
C A C C U G A
C
C
C
C
A
U
G
C
C
G
A
A
C
U
C
A
G
AA
GUG
A
A
A
CGCCGU
A
GC
G
C
C
G
A
U
G
G
U
A
G
U
G
U
G
G
G
G
U
C
U
C
C
C
C
A
U
G
C
G
A
G
A
G
U
A
G
G
G
A
A
C
U
G
C
C
A
G
G
C
A
U
5'
3'
U
G
C
C
U
G
A
U
G
A
C
C
A
U
A
G C A A G U U G
G
U A
C
C A C U C C U
U
C
C
C
A
U
C
C
C
G
A
A
C
A
G
G
A
CA
GUG
A
A
A
CGACUU
U
GC
G
C
C
G
A
U
G
A
U
A
G
U
G
C
G
G
G
U
U
C
C
C
G
U
G
U
G
A
A
A
G
U
A
G
G
U
C
A
U
C
G
U
C
A
G
G
C
N
N
10
50
100
110
Delftia acidovoransEscherichia coli
Structures secondaires de sous-unités 5S d’ARN ribosomal
Alignement des séquences:
UA
AU
CG
A
A C A G
A -
UA
AU
A C A G
UA
AU
A C A G
CG CG CG
UG
UA
A A
UA
A
A C A G
A
C
A
G
U U
UG
UA
A
A
A
U
CG
- A
AU U
CG UG
(C,G) CG
RNase P SM-A18(31) RNase P SM-A12(14)
g
a
g
g
a
a
a
g
u
c
c
g
g
g
c
U
C
C
U
U
C
G
G
A
C
A
G
G
G
C
G
C
C
A
G
G
U
A
A
C
G
C
C
U
G
G
G
G
G
G
C
G
U
G
A
G
C
C
C
A
C
G
G
A
A
A
G
U
G
C
C
A
C
A
G
A
A
A
A
U
A
U
A
C
C
G
C
C
A
G
C
U
U C
G
G
C
U
G
G
U A
A
G
G
G
U
G
A
A
A
U
G
G
U
G
C
G
G
U
A
A
G
A
G
C
G
C
A
C
C
G
C
G
C
G
A
C
U
G
G
C
A
A
C
G
G
C
U
U
G
C
G
G
C
A
C
G
G
U
A
A
A
C
C
C
C
G
C
C
C G G
A G
C A
A G
A
C
C
A
A
A U
A
G
G
G
G
A
G
C
A
UG
U
C
C
G
U
C
G
U
G
U
C
C
G
A
ACGGGCUCCC
G
G
G
U
A
GGU
U
G
C
U
U
G
A
G
G
U
G
G
C
C
G
G
U
G
A
CGGCUAUC
C
C
A
G
A
U
G
A
A
U
G
G
U
U
G
U
CG
A
UG
a
c
a
g
aacccggcuua
1
c
20
40
60
80
100
120
140
160
180
200
220
240
260
280
P6
A- -G
A-
-G
*
A-
*
C-
-A
-G
-A
UA
UG
-U
--
A-
UA
AU
CG
-G C-
*
A-
*
A-
CG
-AA-
*
A--A -A--
*
C--C G- -C -A
A-
Id xne
er
Indexdu1parent
Indxe
meè
Indexdu2 paretn
er
xu eInded1parnt
ème
Indexdu2 pren
a t
UA
AU
CG
A
A C A G
ère
1 structure
UG
UA
A
A
A
U
CG
nd
2 structure
G
G
G
G
C
C
A
C
G
A
G
C
U
G
A
G
U
G
C
G
U
C
C
U
GU
C
A
C
U
C
C
A
C
U
C
CC
A
U
G
U
C
CCU
G
G
C
C
C
U
A
A
C
A
G
G
G
C
U
C
U
C
C
C
U
G
A
G
C
U
U
C
G
G
G
G
A
G
G
U
C
A
G
A
C
U
G
G
G
C
G
G
A
G
A
U
G
C
C
G
U
G
G
A
C
C
C
C
GC
C
C
U
U
C
G
G
G
G
A
G
G
G
G
C
C
C
G
G
C
G
G
A
U
G
C
C
U
C
C
G
U
G
A
G
U
U
C
C
C
A
G
A
G
A
A
CG
G
G
G
C
U
C
C
G
C
G
C
G
A
U
U
G
C
C
G
G
A
G
C
U
U
G
G
A
A
CA
G
A
C
U
C
A
C
G
G
C
C
GGCC
C
U
C
A
U
G
A
G
A
U
A
G
G
G
C
G
G
A
G
G
G
UCCUCCGC
CCAU
G
U
G
A
G
G
U
A
C
C
C
C
GC
A
G
G
G
G
A
C
C
U
C
A
U
1 2
3
1
2
3 4 5 6 7 8 9 10
4
5
6
7
8
9
10
...
C G
G -
- A
- U
U A
C -
U -
A -
C G
- A
G -
- U
U A
C -
U -
A -
C G
- A
- U
G -
U A
C -
U -
A -
C G
G -
- A
- U
U A
C -
U -
- A
C G
- A
G -
- U
U A
C -
U -
- A
C G
- A
- U
G -
U A
C -
U -
- A
C G
G -
- A
- U
U A
C -
- A
U -
C G
- A
G -
- U
U A
C -
- A
U -
Nombre exponentiel de"pseudo-séquences".
G
U A
A
C
U
G
C
A
U
C G
U A
G A
C
U
AU
G -
- A
- U
A -
U -
- A
C G
G -
U A
C -- A
U -
- A
- U
G -
C - - C- U
- U
C - - A
3.3 Généralisation aux structures complexes
Structure secondaire de ribonucléase P
Distance entre tiges/tige-boucles
RNasePSM-A18(31)
RNase P SM-A12(14)
RNase P SM-A12(14)
RNasePSM-A18(31)
Alignement global
g
a
g
g
a
a
a
g
u
c
c
g
g
g
c
U
C
C
A
U
G
G
A
A
G
C
G
C
G
G
U
G
C
C
G
G
A
U
A
A
C
G
U
C
C
G
G
C
G
G
G
G
G
C
G
A
C
C
U
C
A
G
G
G
A
A
A
G
U
G
C
C
A
C
A
G
A
A
A
G
C
A
A
A
C
C
G
C
C
C
U
C
G
A
G
G
C
C
G
A A
A
G
G
C
U
U
C
G
C
G
G
A
G
G
G
U A
A
G
G
G
U
G
A
A
A
G
G
G
U
G
C
G
G
U
A
A
G
A
G
C
G
C
A
C
C
G
C
G
U
C
U
U
U
G
G
C
A
A
C
A
A
A
G
G
C
G
G
C
A
A
G
G
C
A
A
A
C
C
C
C
A
C
C
G
G
G
A
C
C
A
A
AU
A
G
G
G
G
C
U
G
C
A
CG
G
A
C
G
A
G
AG
A
U
C
G
U
C
C
A
G
G
U
C
U
G
U
U
U
C
C
A
G
A
C
C
C
G
C
GG
CC
C
G
G
G
U
U
GG
U
U
G
C
A
A
G
A
G
G
C
G
U
C
U
C
G
C
A
A
GAGGCGUC
C
C
A
G
A
U
G
A
A
U
G
G
C
C
A
U
C
A
C
C
U
C
G
C
A
G
C
A
A
U
G
C
G
A
G
G
A
a
c
a
g
a
ac
ccggcuu
1
a
20
40
60
80
100
120
140
160
180
200
220
240
260
280
300
320
340
P6
A ACG A G
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
4.3 Cycles de calculs
4.1 Serveur
Un serveur de comparaison de
structures secondaires est accessible
publiquement à l’adresse:
http://www.iro.umontreal.ca/~guignonv
Perspectives
L’alignement optimal figure 8 associe la
nd
tige-boucle 8 de la 2 structure à la tige 8
ère
de la 1. Les tige-boucles 9 et10 de cette
dernière sont considérées supprimées.
Un meilleur alignement serait obtenu s’il
était possible de fusionner des tiges lors des
alignements en s’inspirant de [1].
source: [2]
source: [5]
source: [3]
source: [3]
Figure 6. Décomposition en tiges et tige-boucles ( )en rouge
Figure 1. Comparaison de sous-unités 5S d’ARN ribosomal.
Figure 7. Serveur de comparaison
de structures.
Figure 9. Distance d’édition entre 2
structures secondaires
d’ARN de RNase P.
Figure 10. Comparaison en nombre de cycles de calculs entre
Zhang-Shasha’89 et Guignon-Chauve-Hamel’05 pour la
comparaison de structures de précurseurs de mirco-ARN.
source: [4]
Figure 8. Décomposition en tiges/tige-boucles de 2 ARN de RNAse P.
1. Introduction
1.1 Comparaison de Structures
Avec l’explosion des données sur les ARN non-codants et leurs structures
secondaires, comparer ces dernières entre-elles devient aussi nécessaire que de
pouvoir comparer des séquences d’ADN. Cependant, très peu d’outils sont disponibles
et il n’existe aucun équivalent de BLAST pour les structures secondaires d’ARN.
1.2 Nos Buts
Nous voulons comparer rapidement et efficacement n’importe quelle structure
secondaire d’ARN à une base de données pour pouvoir:
mieux prédire les structures secondaires et tertiaires;
classer les structures secondaires;
analyser les détails structuraux;
inférer les fonctions et les sites actifs;
annoter automatiquement des structures;
et certainement plus encore...
1.3 Notre approche
calcul d’une distance d'édition;
focus sur les tige-boucles.
￿
￿
￿
￿
￿
￿
￿
￿
Figure 5. Séquence d’opérations d’édition associée à la meilleur correspondance de la table figure 4.
Figure 4.Table de programmation dynamique de la distance d’édition entre 2 structures fictives (à gauche).
Chaque niveau des automates est délimité par une zone colorée.
La meilleure correspondance est retracée par les cellules en orange.
Figure 3. Construction de l’automate des langages associé à une structure de type tige ou tige-boucle.