Prédiction de structures

yokeenchantingΒιοτεχνολογία

29 Σεπ 2013 (πριν από 3 χρόνια και 8 μήνες)

67 εμφανίσεις

Modélisation par homologie: un survol
Mastère 
Bioinformatique et Biostatistiques
Module Bioinformatique structurale
Décembre 2012
T. Simonson, Ecole Polytechnique
Classe 

Classe 

Classe 


100 superfamilles
= 60% des domaines
L'espace des plis est discret et fini
K
L
H
G
G
P
M
L
D
S
D
Q
K
F
W
R
T
P
A
A
L
H
Q
N
E
G
F
T
?
Prédiction de structure par homologie: identifier d'abord le pli,
généralement par comparaisons de séquence
Homologues du récepteur de l'androstérone
identifiés avec BLAST

ID
% Match

# Swissprot Hit
Description
Score
E Identity Length
(bits) *

1 P15207
ANDR_RAT
Androgen receptor.
162
1e-40
100
73

6 P19091
ANDR_MOUSE
Androgen receptor.
162
1e-40
100
73

14 Q63449
PRGR_RAT
Progesterone receptor (PR)
136
1e-32
80
72

17 P06401
PRGR_HUMAN
Progesterone receptor (PR)
136
1e-32
80
72

21 P08235
MCR_HUMAN
Mineralocorticoid receptor (MR) 136
1e-32
79
72

33 P04150
GCR_HUMAN
Glucocorticoid receptor (GR)
131
3e-31
77
72

41 Q9YH32
ESR2_ORENI
Estrogen receptor beta (ER-beta) 99
3e-21
58
72

42 Q9YH33
ESR1_ORENI
Estrogen receptor (ER-alpha)
98
4e-21
55
72

:
:
:
:
:
:

:
:

:

:
:
:
:
:
:

:
:

:
343 Q9N4Q7
NH13_CAEEL
Nuclear hormone receptor nhr-13 54
8e-08
39
66
344 Q23294
NH11_CAEEL
Nuclear hormone receptor nhr-11 54
8e-08
42
66
345 O45460 NH54_CAEEL
Nuclear hormone receptor nhr-54 54
1e-07
37
67
346 Q09565
NH20_CAEEL
Nuclear hormone receptor nhr-20 51
7e-07
34
66
347 Q09587
NH22_CAEEL
Nuclear hormone receptor nhr-22 45
5e-05
32
66
349 P17672
E75B_DROME
Ecdysone-induced protein 75B
40
0.001
37
47
351 P20659
TRX_DROME
Trithorax protein.

31
0.74
26
49
355 P98164
LRP2_HUMAN
Lipoprotein receptor.
30
1.7
27
65
*E = espérance du nombre d'alignements fortuits de score supérieur 
Les structures 3D dans la “Protein Data Bank”
année
Nombre
total de
structures
dans la
PDB
35000
structures
en 2006
Sous­ensemble 
non­redondant 
PDB50
3200 structures 
en 2008
La découverte de nouveaux
repliements ralentit.
~ quelques milliers de
repliements différents
dans le monde du vivant
Soleil
Classe 

Classe 

Classe 


100 superfamilles
= 60% des domaines
L'espace des plis est discret et fini
Les nouveaux plis ne sont pas toujours si nouveaux...
Guerleur et al (2008)
Prot Sci, 17:1374
Nouveau pli
Pli voisin
Représentation 
“topologique”
Alignements 
avec les 
domaines 
connus
Infos difficile à exploiter aujourd'hui...
Modélisation par homologie
1) 
Faisabilité de la modélisation?
Recherche d'une ou plusieurs protéines homologues
dont une au moins de structure connue (“cible”):
2) Alignement multiple
 des homologues avec la requête
3) Alignement structural
 des homologues de structures connues
4) Régions conservées: on adopte les chaines principales des cibles
5) Boucles additionnelles: 
méthodes de modélisation de boucles
6) Reconstruction des chaines latérales
7) 
Affinement
 et évaluation du modèle
Modélisation par homologie
1) Faisabilité de la modélisation?
Recherche d'une ou plusieurs protéines homologues
dont une au moins de structure connue (“cible”):
2) Alignement multiple
 des homologues avec la requête
3) Alignement structural
 des homologues de structures connues
4) Régions conservées: on adopte les chaines principales des cibles
5) Boucles additionnelles: 
méthodes de modélisation de boucles
6) Reconstruction des chaines latérales
7) 
Affinement
 et évaluation du modèle
C. elegans
M. genitalium
S. cerevisiae
E. coli
0
20
40
60
80
0
20
40
60
80
0
20
40
60
80
0
20
40
60
80
15
5
15
5
15
  
5
15
  
5
% de s é
quences avec des homologues PDB
% d'identité
Distribution des
identités de séquence
dans la Protein
Data Bank
Modélisation par homologie:
une cible n'est pas toujours disponible 
Lesk,  
Chothia,
1986
Une cible doit avoir > 25% d'identité
de séquence avec la séquence modélisée
Launay & Simonson
BMC Bioinformatics
2008
Homologie des interactions protéine:protéine: seuil de 35%
complexes
homologues
Modélisation par homologie
1) 
Faisabilité de la modélisation?
Recherche d'une ou plusieurs protéines homologues
dont une au moins de structure connue (“cible”):
2) Alignement multiple
 des homologues avec la requête
3) Alignement structural
 des homologues de structures connues
4) Régions conservées: on adopte les chaines principales des cibles
5) Boucles additionnelles: 
méthodes de modélisation de boucles
6) Reconstruction des chaines latérales
7) Affinement et évaluation du modèle
Homologues du récepteur de l'androstérone
identifiés avec BLAST

ID
% Match

# Swissprot Hit
Description
Score
E Identity Length
(bits) *

1 P15207
ANDR_RAT
Androgen receptor.
162
1e-40
100
73

6 P19091
ANDR_MOUSE
Androgen receptor.
162
1e-40
100
73

14 Q63449
PRGR_RAT
Progesterone receptor (PR)
136
1e-32
80
72

17 P06401
PRGR_HUMAN
Progesterone receptor (PR)
136
1e-32
80
72

21 P08235
MCR_HUMAN
Mineralocorticoid receptor (MR) 136
1e-32
79
72

33 P04150
GCR_HUMAN
Glucocorticoid receptor (GR)
131
3e-31
77
72

41 Q9YH32
ESR2_ORENI
Estrogen receptor beta (ER-beta) 99
3e-21
58
72

42 Q9YH33
ESR1_ORENI
Estrogen receptor (ER-alpha)
98
4e-21
55
72

:
:
:
:
:
:

:
:

:

:
:
:
:
:
:

:
:

:
343 Q9N4Q7
NH13_CAEEL
Nuclear hormone receptor nhr-13 54
8e-08
39
66
344 Q23294
NH11_CAEEL
Nuclear hormone receptor nhr-11 54
8e-08
42
66
345 O45460 NH54_CAEEL
Nuclear hormone receptor nhr-54 54
1e-07
37
67
346 Q09565
NH20_CAEEL
Nuclear hormone receptor nhr-20 51
7e-07
34
66
347 Q09587
NH22_CAEEL
Nuclear hormone receptor nhr-22 45
5e-05
32
66
349 P17672
E75B_DROME
Ecdysone-induced protein 75B
40
0.001
37
47
351 P20659
TRX_DROME
Trithorax protein.

31
0.74
26
49
355 P98164
LRP2_HUMAN
Lipoprotein receptor.
30
1.7
27
65
*E = espérance du nombre d'alignements fortuits de score supérieur 
BLAST:
 
Basic Local Alignment Search Tool

 
recherche de tétrapeptides homologues

 
extension de chaque peptide tant que la similarité > seuil 
C L I C
G D E A
S G C H Y
L C V V
G D K A
T G Y H Y
Récepteur de l'androstérone
Récepteur de l'hormone thyroïdienne
Exemple de sortie Blast
Query = Human androgen receptor
Hit = Human Estrogen receptor beta
Job information
Query sequence
>
P10275

etc
Date of job execution Dec 1, 2010
Running time 23.3 seconds
Program blastp (BLASTP 2.2.23 [Feb-03-2010])
Database uniprotkb (Protein) generated for BLAST on Nov 2, 2010
Sequences 12,898,884 sequences consisting of 4,176,319,342 letters
Matrix blosum62 Threshold 0.001 Gapped true
Similarité 
en gris

ID
% Match

# Swissprot Hit
Description
Score
E Identity Length
(bits) *

1 P15207
ANDR_RAT
Androgen receptor.
162
1e-40
100
73

6 P19091
ANDR_MOUSE
Androgen receptor.
162
1e-40
100
73

14 Q63449
PRGR_RAT
Progesterone receptor (PR)
136
1e-32
80
72

17 P06401
PRGR_HUMAN
Progesterone receptor (PR)
136
1e-32
80
72

21 P08235
MCR_HUMAN
Mineralocorticoid receptor (MR) 136
1e-32
79
72

33 P04150
GCR_HUMAN
Glucocorticoid receptor (GR)
131
3e-31
77
72

41 Q9YH32
ESR2_ORENI
Estrogen receptor beta (ER-beta) 99
3e-21
58
72

42 Q9YH33
ESR1_ORENI
Estrogen receptor (ER-alpha)
98
4e-21
55
72

:
:
:
:
:
:

:
:

:

:
:
:
:
:
:

:
:

:
343 Q9N4Q7
NH13_CAEEL
Nuclear hormone receptor nhr-13 54
8e-08
39
66
344 Q23294
NH11_CAEEL
Nuclear hormone receptor nhr-11 54
8e-08
42
66
345 O45460 NH54_CAEEL
Nuclear hormone receptor nhr-54 54
1e-07
37
67
346 Q09565
NH20_CAEEL
Nuclear hormone receptor nhr-20 51
7e-07
34
66
347 Q09587
NH22_CAEEL
Nuclear hormone receptor nhr-22 45
5e-05
32
66
349 P17672
E75B_DROME
Ecdysone-induced protein 75B
40
0.001
37
47
Proposez une méthode simple pour intégrer 
toutes ces séquences dans un alignement multiple
Méthode heuristique pour un alignement multiple:
trois phases successives

 
Alignement 2 à 2 des séquences

 
Construction d'un arbre “guide”

 
Alignement progressif séquences­profil
a) S T A R
b) S K A T
c) P I T
S T A R
S K A T
4 -1 4 -1
Score =6 
S T A R
P I T -
-1 -1 0 -8
S K A T
P  I T
-1 -8 -1 5
Score =­10  (Exc.) 
Score =­5  (Exc.) 
Phase 1: alignement des séquences 2 à 2
La méthode de Needleman­Wunsch

P Q R A

0 -8 -16 -24 -32
S -8 -1 -8 -16 -23
P-16 -1 -2 -10 -15
Q-24 -9 4 -1 -9
R-32 -17 -4 9
1
Pour les détails, voir le livre de Dardel & Képès (chap. 2)

P Q R
A
S
P
Q
R

S
é
quence 2
Séquence 1
-
PQR
A
S
PQR
-
progesterone
mineralocorticoid
glucocorticoid
estrogen
vitamin D
PPAR
retinoic acid
thyroid
androgen
0.8
0.7
0.8
0.4
1.2
0.5
1.1
1.4
0.2
0.9
1.0
Phase 2: classement des séquences par similarité, 
sous forme d'arbre
Il existe de nombreuses méthodes de classement....
Phase 2: classement hiérarchique, une méthode simple
4 séquences, a­d, plus ou moins similaires/proches

Distance” entre séquences:  définition empirique; 
grande similarité   petite distance et inversément.↔
a
b

0.5
1.5
2.7

0.3
2.7
2.7

Unweighted Pair Group Joining with Arithmetic Mean”
Phase 2: classement hiérarchique des séquences

Unweighted Pair Group Joining with Arithmetic Mean”
ou UPGMA
a
b


c
d
a
b


1

Unweighted Pair Group Joining with Arithmetic Mean”
ou UPGMA
Phase 2: classement hiérarchique des séquences

Unweighted Pair Group Joining with Arithmetic Mean”
ou UPGMA
c
d
Phase 2: classement hiérarchique des séquences
a
b
1
1
a
b
1
2

Unweighted Pair Group Joining with Arithmetic Mean”
ou UPGMA
a
b
c
d
Phase 2: classement hiérarchique des séquences
1
2
Phase 2: classement hiérarchique,
ou arbre “guide”
a
b
c
d
a
b


1
2
3

Unweighted Pair Group Joining with Arithmetic Mean”
ou UPGMA
Phase 2: classement des séquences par similarité, 
sous forme d'arbre
Les longueurs de branches sont choisies pour reflèter la distance entre séquences
progesterone
mineralocorticoid
glucocorticoid
estrogen
vitamin D
PPAR
retinoic acid
thyroid
androgen
0.8
0.7
0.8
0.4
1.2
0.5
1.1
1.4
0.2
0.9
1.0
Phase 3: alignement des séquences
en remontant progressivement l'arbre
Les longueurs de branches sont choisies pour reflèter la distance entre séquences
progesterone
mineralocorticoid
glucocorticoid
estrogen
vitamin D
PPAR
retinoic acid
thyroid
androgen
0.8
0.7
0.8
0.4
1.2
0.5
1.1
1.4
0.2
0.9
1.0
Phase 3: alignement des séquences
en remontant progressivement l'arbre
a
b
c
a) S T A R
b) S K A T
a avec b
c avec {a, b}
Alignement “séquence­profil”
S T A R
S T I R
S K A T
P I T


P

T
-1

T
-1

K
-1
total
-3
Aligner une séquence avec un alignement:
calcul d'un score moyen 
Alignement existant:
Séquence à aligner:
         
b
s(a,   b'  ) = s(a,b) + s(a,b') + s(a,b'')
         
b''
Somme
de
paires
S T A R
S T I R
S K A T
PP
II
GT
S T A R
T S A R
S K I T
P - I T
P - I G
Aligner deux profils ou alignements:
calcul d'un score moyen
    
a    b
s( a' , b'  ) = s(a,b) + s(a,b')
         
b''    + s(a,b'')+ s(a',b)
                
+ s(a',b')+ s(a',b'')
Somme de paires
S T A R
S T I R
S K A T
P
I
T


P

T
-1

T
-1

K
-1
total
-3

0
-24

-27
Alignement séquence­profil:
mêmes méthodes
 que pour aligner deux séquences 
Par exemple, Needleman­Wunsch
Produit final:
androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY
progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY
minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL
glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL
estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY
acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF
vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV
thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL

**:*: . : : * : * *. * ** ::*
584
588
588
Alignement de 30 tyrosyl­ARNt synthétases,
domaine catalytique
Balibase:
 217 alignements “experts” = benchmark pour tester méthodes/programmes 
http://www­bio3d­igbmc.u­strasbg.fr/balibase  Thompson et al (1999) Bioinformatics, 57, 87­88
Il existe des bibliothèques d'alignements multiples
http://pfam.sanger.ac.uk 
     
Pfam
 24.0 (October 2009, 11912 families) 
Famille zf­C4   un alignement “expert” de 26 séquences; un “automatique” de 3525 séquences→
Nécessité d'une validation expérimentale

 
Mutagénèse des résidus conservés

 
Mise en évidence d'une interaction 
avec un substrat ou inhibiteur

 
Détermination de structures tri­
dimensionnelles (!)
Modélisation par homologie
1) 
Faisabilité de la modélisation?
Recherche d'une ou plusieurs protéines homologues
dont une au moins de structure connue (“cible”):
2) Alignement multiple
 des homologues avec la requête
3) Alignement structural
 des homologues de structures connues
4) Régions conservées: on adopte les chaines principales des cibles
5) Boucles additionnelles: 
méthodes de modélisation de boucles
6) Reconstruction des chaines latérales
7) Affinement et évaluation du modèle
Remarques sur les alignements structuraux, simples ou multiples
1) Problème assez différent de l'alignement de séquences: un acide 
aminé n'est plus caractérisé par un simple code à une lettre!
2) Une méthode “triviale” est toujours possible: alignement de 
séquences puis superposition des C

 homologues
3) N'oublions pas que nous savons aligner des objets assez 
complexes, comme une paire d'alignements existants... D'où l'idée de 
coder un acide aminé par un petit ensemble de caractéristiques: son 
type, sa structure secondaire, son caractère exposé ou enfoui; ainsi, 
un acide aminé = une petite liste ou “colonne”: on pourra utiliser la 
méthode déja vue pour aligner deux alignements (sic).
4) En général, les méthodes performantes ne fonctionnent pas ainsi. 
Plutôt, une certaine diversité d'approches heuristiques: cf plus bas.
5) Pour aligner plusieurs structures, la méthode progressive que nous 
venons de voir pour les séquences reste valable en grande partie!
Remarques sur les alignements structuraux
STRUCTAL:
 
a)
 alignement de séquences;
 b)
 
superposition
 des C

 
homologues; 
c) calcul d'une nouvelle matrice de score

d)
 on répète a­c.
Pour (c), la fonction de score M(i,j) = ­distance entre i, j dans les structures 
superposées  (Levitt, 1993)
SSAP:
 description de chaque acide aminé par une liste de propriétés, 
alignement par la méthode de Needleman­Wunsch (Taylor & Orengo, 1989)
CE:
 recherche de deux octapeptides homologues (par leur structure); 
extension de ce petit alignement à gauche et à droite à la mode de BLAST 
(possibilité de gaps). L'homologie des octapeptides est évaluée non pas par 
leurs coordonnées, mais par leurs distances inter­atomiques  (Bourne, 1998)
DALI:
 similaire à CE          (Holm & Sander, 1993).
Test comparatif à grande échelle: Kolodny et al (2005) J Mol Biol, 346:1173
Plus de 80 méthodes listées sur Wikipedia...
Modélisation par homologie
1) 
Faisabilité de la modélisation?
Recherche d'une ou plusieurs protéines homologues
dont une au moins de structure connue (“cible”):
2) Alignement multiple
 des homologues avec la requête
3) Alignement structural
 des homologues de structures connues
4) Régions conservées: on adopte les chaines principales des cibles
5) Boucles additionnelles: 
méthodes de modélisation de boucles
                          
6) 
Reconstruction des chaines latérales
7) Affinement et évaluation du modèle
Modélisation de boucles: une banque de conformations
13,563 boucles de longueur 3­8 acides aminés, extraites de la PDB                       
                                      (PDB50, en fait: sous­ensemble non­redondant)
Elles sont classées en fonction de:
­leur longueur en acides aminés
­la distance de leurs extrémités
­une “largeur” et une “hauteur” de la boucle
Pour modéliser une boucle inconnue X de longueur n: 
­on estime la distance D entre ses extrémités (connues à peu près)
­on identifie, dans la banque, les classes qui sont compatibles avec n et D;
­dans ces classes, on cherche les représentants qui ont la plus grande similarité 
de séquence avec X
­on affine avec des minimisations d'énergie et/ou des dynamiques moléculaires
Wojcik et al (1999) J Mol Biol, 289:1469
n = 5
D
Quelles sont les principales hypothèses 
sous­jacentes à cette méthode?
Modélisation de boucles: une banque de conformations
13,563 boucles de longueur 3­8 acides aminés, extraites de la PDB                       
                                      (PDB50, en fait: sous­ensemble non­redondant)
Elles sont classées en fonction de:
­leur longueur en acides aminés
­la distance de leurs extrémités
­une “largeur” et une “hauteur” de la boucle
Pour modéliser une boucle inconnue X de longueur n: 
­on estime la distance D entre ses extrémités (connues à peu près)
­on identifie, dans la banque, les classes qui sont compatibles avec n et D;
­dans ces classes, on cherche les représentants qui ont la plus grande similarité 
de séquence avec X
­on affine avec des minimisations d'énergie (et/ou des dynamiques moléculaires)
Wojcik et al (1999) J Mol Biol, 289:1469
n = 5
D
Longueur de boucle
3
4
5
6
7
8
Nombre de cas testés
92
81
54
61
37
37
Rmsd des C

 (A)
1.0
1.2
1.6
2.1
2.7
2.3
Avec Modeller:                  0.6                       1.2
Qualité des
résultats
Positionnement des chaines latérales par recuit simulé
Les chaines latérales explorent l'espace des rotamères.
L'exploration suit la méthode 
Monte Carlo
:
On fait un grand nombre d'étapes élémentaires (10
6
).
A chaque étape:
­on tire au hasard un ou plusieurs acides aminés à bouger
­on tire au hasard leurs nouveaux rotamères
­on compare la nouvelle énergie E
n
 à la précédente E
p
­si E
n
 < E
p
, on garde les nouveaux rotamères
­si E
n
 > E
p
, on tire au hasard un nombre x entre 0 et 1
­si exp[­(E
n
 – E
p
)/RT] > x, on garde les nouveaux rotamères
­sinon, on revient aux anciens
On démarre à haute température T et on réduit progressivement T.
L'algorithme ci­dessus a une propriété remarquable: il tend à explorer les conformations avec 
une probabilité de la forme  p(Conf) = A exp(­E
Conf
/RT), thermodynamiquement correcte.
81% des angles chi1 corrects
68% des chi2 (sur 65 acides
aminés)
Exercice de prédiction: délétion, puis reconstruction des chaines latérales;
la position de la chaine principale est connue exactement (elle n'est
pas modélisée).
Quand la chaine 
principale est 
parfaitement connue,
la prédiction est 
bonne mais pas 
parfaite.
Lopes, Aleksandrov, Bathelt, Archontis, Simonson (2007) Proteins, 
67:853–867
Performances de quelques méthodes récentes
% de bonnes prédictions
             
chi1      chi2+chi1
Lopes et al, 2007
80%
67%
Koehl & Delarue, 1994
72%
62%
Yang et al, 2002
80%
66%
Dunbrack et al, 1999
80%
?
Abagyan et al, 1993
80%
67%
Mendes et al, 1999
87%
(bibliothèque de rotamères améliorée)
Attention, dans ces tests, on positionne les chaines latérales sur 
le backbone expérimental 
déja connu
...
En modélisation par homologie, le choix du backbone, le 
positionnement des boucles et des chaines latérales sont 
interdépendants
... D'où l'idée de faire plusieurs itérations de 
l'ensemble du processus.
Modélisation par homologie: les ingrédients
1) 
Recherche d'homologues:
 Blast, faisabilité?
2) Alignement multiple:
 méthodes progressives
3) 
Alignement structural
 
4) 
Modélisation de boucles: 
génération des conformations, fonction 
d'énergie, traitement du solvant 
6) 
Reconstruction des chaines latérales:
 bibliothèque de rotamères, 
exploration des conformations, fonction d'énergie
7) 
Affinement et évaluation du modèle:
 minimisation d'énergie, 
dynamique moléculaire; champ de force, traitement du solvant
8) 
Validation expérimentale
Homology modeling. Krieger E, Nabuurs SB, Vriend G. 
In Structural Bioinformatics; editors PE Bourne, H Weissig; Wiley, 2003
Homology modelling in biology and medecine. R Dunbrack.
In Bioinformatics: from genomes to drugs; editor T Lengauer; Wiley, 2002; Vol. 1.
Structure comparison and alignment. Bourne & Shindyalov
In Structural Bioinformatics; editors PE Bourne, H Weissig; Wiley, 2003
Proteins: Structure, Function, and Bioinformatics; Volume 77, Issue S9, pages 1­228. 
Numéro spécial décrivant la compétition CASP8: 
                         “
Critical Assessment of Structure Prediction”
                          
64 cibles à prédire; 159 méthodes/équipes