DEApuzzle

reactionparadiseElectronics - Devices

Oct 7, 2013 (3 years and 10 months ago)

124 views

C. GAUDY
-
GRAFFIN


INSERM ERI 19/ Virus Pseudovirus, Morphogenèse et antigénicité

Module « Epidémiologie »



Approche progressive en phylogénie


Application à un modèle viral


http://evolution.genetics.washington.edu/phylip/software.html

PHYLOGENY PROGRAMS

???

???

???

Comment concevoir la phylogénie ?

Comment concevoir la phylogénie ?

SEQUENCES

X arbres , X approches #

Quel arbre choisir ?

METHODE INTUITIVE

Comment concevoir la phylogénie ?

SEQUENCES



-

Estimer la faisabilité de l’analyse

-

choisir le modèle de substitution le plus approprié

-

calculer les paramètres de l’analyse


plutôt que de les fixer par défaut


APPROCHE MATHEMATIQUE, METHODE PROGRESSIVE

Pourquoi une approche progressive ?

Faire une analyse préalable

avant de débuter l’analyse phylogénétique


«proprement dite »

Avant de débuter une analyse phylogénétique




Alignements corrects ?







Estimer le
bruit phylogénétique




-

Région étudiée trop saturée en mutations ?
(mesure de l’entropie)




-

Séquences trop divergentes pour être comparées ?







Méthode du Quartet Puzzling











TREE
-
PUZZLE 5.2

http://www.tree
-
puzzle.de/

Reconstructing tree topologies with quartet puzzling

La méthode du Quartet Puzzling ?

Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

(1)
C…GACACGTTTA…C

(2)
C…GACACGTCTA…C

(3)
C…GATAGGTTTA…C

(4)
C…GATAGGTTTA…C

n séq à étudier :

Regroupé par 4

=

Quartet


Pour n séquences

n!/(n
-
4!)4! quartets possibles


ETUDIER LES LIENS PHYLOGENETIQUES EXISTANT AU SEIN DU QUARTET

Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

S
1

S
3

S
2

S
4

S
1

S
2

S
3

S
4

(1)
C…GACACGTTTA…C

(2)
C…GACACGTCTA…C

(3)
C…GATAGGTTTA…C

(4)
C…GATAGGTTTA…C

n séq à étudier :

Regroupé par 4

=

Quartet

Pour chaque quartet, 3 topologies d’arbres possibles


Pour n séquences

n!/(n
-
4!)4! quartets possibles


Topologie 1 = Lk1

S
1

S
2

S
4

S
3

Topologie 2 = Lk2

Topologie 3 = Lk3

Valeur de vraisemblance de la topologie 1

ETUDIER LES LIENS PHYLOGENETIQUES EXISTANT AU SEIN DU QUARTET

Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

S
1

S
3

S
2

S
4

S
1

S
2

S
4

S
3

S
1

S
2

S
3

S
4

Topologie 1

Lk1

Ln (Lk1)

Topologie 2

Lk2

Ln (Lk2)

Topologie 3

Lk3

Ln (Lk2)


Représentation graphique

Valeurs de vraisemblance de chaque topologie d’arbre

reportées en distance dans un triangle équilatéral

S
1

S
2

S
4

S
3

S
1

S
2

S
3

S
4

S
1

S
3

S
2

S
4

Arbre 1 = Lk1

Arbre 2 = Lk2

Arbre 3 = Lk3

Lk1

Lk2

Lk3

Point 1

Situation 1

: Lk3=Lk1= Lk2



Intersection (P1) au centre du triangle


Topologie arbre S1,S2,S3,S4 non résolue


Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

S
1

S
3

S
2

S
4

S
1

S
2

S
4

S
3

S
1

S
2

S
3

S
4

Lk1

Ln (Lk1)

Lk2

Ln (Lk2)

Lk3

Ln (Lk3)

S
1

S
2

S
4

S
3

S
1

S
2

S
3

S
4

S
1

S
3

S
2

S
4

Arbre 1 = Lk1

Arbre 2 = Lk2

Arbre 3 = Lk3

Point 2

Situation 2

: Lk1 > Lk2 > Lk3


Intersection (P2) excentré (coin du triangle)



-
Topologie arbre S1,S2,S3,S4 résolue

Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

Renouveller l’opération pour chaque quartet :



-

Etudier la distribution des points dans le triangle


-
Majorité de topologies résolues ?


-
Majorité de topologies non résolues ?

Environ 30 % des points dans chaque coin

= Majorité de topologies résolues


-


Situation idéale



Zones des topologies totalement résolues

Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

Zones des topologies partiellement résolues

Majorité de points sur les côtés

= majorité de topologie partiellement résolues

Situation intermédiaire

Topologie finale de l’arbre en «Net
-
Work»

C

B

D

A

D

C

B

A

D

B

C

A

=

+

Topologie en réseau «

NET
-
WORK

»

TOPOLOGIE D’UN ARBRE PHYLOGENETIQUE


Méthode du quartet Puzzling

(Stimmer and Von Haeseler, 1996)

Zone des topologies non résolues

Majorité de points dans la région centrale

BRUIT PHYLOGENETIQUE ++++++

= Topologie finale de l’arbre «Star
-
like »

Arbre phylogénétique non interprétable

5

3

6


7


4

2

1

LIKELIHOOD MAPPING

« Tree
-
like » signal = 1+2+3

« Starlike » signal = 7

Network like signal = 4+5+6

Estimer la pertinence d’une analyse phylogénétique

par la méthode du quartet Puzzling :



Application à l’analyse de la région hypervariable HVR1 du virus de l’hépatite C

Approche progressive : Application à un modèle viral


Module « Epidémiologie »


En étudiant un grand nombre de variants du VHC

isolés chez des patients répondeurs ou non
-
répondeurs à la thérapie anti
-
VHC
,



Choix d’analyser
AVANT TRAITEMENT

le polymorphisme de l’enveloppe E2

de souches de VHC de
génotype 1b




Le polymorphisme de HVR1 avt tt est
-
il prédictif de la réponse ultérieure ?


(hétérogénéité de HVR1 corrélé à la réponse au tt dans la littérature)




Objectif initial de notre travail

Région génomique étudiée



C

E1

E2/

p7

NS2

NS3

NS4

NS5A

NS5B

Protéine E2

p7

E1

384

-

410

746

HVR1

1

192

384

810

1027

1658

1973

2421

(Codons)

POLYPROTEINE PRECURSEUR DU VHC

C

E1

E2/

p7

NS2

NS3

NS4

NS5A

NS5B

Protéine E2

p7

E1

384

-

410

746

HVR1

1

192

384

810

1027

1658

1973

2421

(Codons)

Région N terminale de E2 / hypervariable HVR1 (81 pb)

En étudiant un grand nombre de variants du VHC

isolés chez des patients répondeurs ou non
-
répondeurs
,



Choix d’analyser
AVANT TRAITEMENT

le polymorphisme de l’enveloppe E2

de souches de VHC de
génotype 1b





Le polymorphisme de HVR1 avt tt est
-
il prédictif de la réponse

ultérieure ?





Avant tt,


peut
-
on distinguer pylogénétiquement les séquences de HVR1




issus de patients répondeurs et non
-
répondeurs ?






PERTINENCE / FAISABILITE D’UNE ANALYSE PHYLO.



REALISEE SUR UNE REGION HYPERVARIABLE

Objectif initial de notre travail




150 séquences nucléotidiques de HVR1


(amplification par RT
-
PCR nichée et clonage dans pCR 2.1)


-

50 clones issus de souches infectant des patients répondeurs à l’IFN seul (R1)


-

50 clones issus de souches infectant des répondeurs au tt IFN
-
Ribavirine (R2)


-

50 clones issus de souches infectant des non
-
répondeurs au tt IFN
-
Ribavirine (NR)


Séquences analysées


ALIGNEMENT = ds BIOEDIT / option CLUSTALW

HVR1



Grande
tolérance du domaine HVR1 aux substitutions nucléotidiques


Étude du polymorphisme de HVR1 avant traitement

Analyse des séquences nucléotidiques / Mesure de l’entropie

Mesure de l’entropie nucléotidique de HVR1 (logiciel DAMBE
®
)

sur ces 3 groupes de 50 séquences (issues de souches de VHC de génotype 1b)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

E

T

H

V

T

G

G

S

A

A

H

T

A

S

G

L

T

S

L

F

S

P

G

A

K

Q

N

T

Y

T

S

A

A

V

G

R

A

T

Q

S

F

V

G

F

L

T

Q

P

Q

K

S

R

I

V

T

Q

S

Y

S

V

R

R

V

A

N

I

A

S

S

R

R

G

V

S

Q

G

M

Y

T

I

R

N

R

S

D

D

Q

K

D

N

A

L

Q

N

R

H

K

V

N

A

T

F

Substitutions* en acides aminés répertoriées après analyse de 299 domaines HVR1

(HCV
-
1 à 6)

Tolérance du domaine HVR1 aux substitutions en acides aminés


Domaine hautement substitué possédant 6 positions conservées







(Smith et al. 1999)

*
(aa>2%)


-

distance computation :
K2P model

-

Neighbor Joining method

-

Bootstrap
: 500

-
Unrooted / outgroup 5a

-

Arbre réalisé avec MEGA

R

IFN / Rib. (répondeurs biT)

R

IFN (répondeurs MonoT)

NR

IFN / Rib.(non
-
répondeurs biT)


R4


R10


R2


R8c2


R5


R5C12


R7


NR2


R8/R9


NR5


NR3/NR4


NR5C5


NR5C6


NR5C4


NR5C8


NR4C2


R6c5


R6c9


R6c10


NR1C1


NR1C9


NR1C14


NR1


R1


R6


NR5C13


R7c3


R9c2


R9c3


R8c11


VHC5A


R3

88

94

85

64

69

90

85

77

28

45

52

32

98

88

17

62

9

27

28

4

50

8

7

41

0

78

5

25

62

0

1

0

5

0

4

2

1

0

16

32

46

88

0.1


3 groupes de séquences à comparer.

Arbre phylogénétique réalisé à partir de 150 séquences de HVR1 (81 nt)


-

distance computation :
K2P model

-

Neighbor Joining method

-

Bootstrap
: 500

-
Unrooted / outgroup 5a

-

Arbre réalisé avec MEGA

R

IFN / Rib. (répondeurs biT)

R

IFN (répondeurs MonoT)

NR

IFN / Rib.(non
-
répondeurs biT)


R4


R10


R2


R8c2


R5


R5C12


R7


NR2


R8/R9


NR5


NR3/NR4


NR5C5


NR5C6


NR5C4


NR5C8


NR4C2


R6c5


R6c9


R6c10


NR1C1


NR1C9


NR1C14


NR1


R1


R6


NR5C13


R7c3


R9c2


R9c3


R8c11


VHC5A


R3

88

94

85

64

69

90

85

77

28

45

52

32

98

88

17

62

9

27

28

4

50

8

7

41

0

78

5

25

62

0

1

0

5

0

4

2

1

0

16

32

46

88

0.1



Absence de cluster patient

Valeurs de Boostrap trop faibles

Résultats non interprétables


NR4


3 groupes de séquences à comparer.

Arbre phylogénétique réalisé à partir de 150 séquences de HVR1 (81 nt)

Clones de NR3 et NR4


Comment tester la fiabilité d’une telle analyse phylogénétique ?

(étudiant les liens entre 3 groupes de 50 séquences de HVR1)


-

Méthode du «

Quartet Puzzling

» réalisée sur l’alignement de 150 domaines HVR1


Présence d’un important


bruit phylogénétique

(32% des quartets non résolus)


Analyse phylogénétique portant sur HVR1 non interprétable / arbre: topologie «

Star
-
like

»

Inclure les régions flanquantes de HVR1 dans cette analyse ?


C

E1

E2/

p7

NS2

NS3

NS4

NS5A

NS5B

Protéine E2

p7

E1

384

-

410

746

HVR1

195

nt

32

nt

PePHD

659

-

670

1

192

384

810

1027

1658

1973

2421

(Codons)

POLYPROTEINE PRECURSEUR DU VHC

(en nucléotides)

C

E1

E2/

p7

NS2

NS3

NS4

NS5A

NS5B

Protéine E2

p7

E1

384

-

410

746

HVR1

195

nt

32

nt

659

-

670

1

192

384

810

1027

1658

1973

2421

(Codons)

POLYPROTEINE PRECURSEUR DU VHC

(en nucléotides)

Région HVR1 et son environnement (308 pb)

«

Quartet Puzzling

» réalisé sur l’alignement de 150 séquences E2/HVR1 (308 nt)



Réduction du bruit
phylogénétique

(5.2 % des quartets non résolus)


Analyse phylogénétique portant sur E2/HVR1 interprétable / arbre : topologie «

Tree
-
like

»


Dans ce cas : L’ arbre phylogénétique présentait des clusters / patient

Conclusion

Phylogénie et régions hypervariables


Nécessaire d’estimer au préalable le bruit phylogénétique




TREE
-
PUZZLE : bon outil







Rq : dans la littérature :




nombreux arbres comparant des séquences de HVR1



-

sans analyse préalable avec la méthode de quartet puzzling




Quel sens donner à ces arbres ?

Conseil 1

:


Pour rendre interprétable l’analyse phylogénétique sur une région hypervariable



-

inclure les séquences flanquantes moins saturées en mutations

Conclusion

Phylogénie et régions hypervariables


Nécessaire d’estimer au préalable le bruit phylogénétique




TREE
-
PUZZLE : bon outil







Rq : dans la littérature :




nombreux arbres comparant des séquences de HVR1



-

sans analyse préalable avec la méthode de quartet puzzling




Conseil 2

:


Si la région d’intérêt étudiée inclut une région hypervariable


-

ôter cette région de l’alignement



pour éliminer le bruit phylogénétique qui lui est inhérent