Présentation des travaux de l'équipe de E - Loria

peaceevenBiotechnology

Oct 4, 2013 (4 years and 1 month ago)

140 views

Changement de représentation


et


alignement de séquences.


Hugues DELALIN

Encadrement: E. Mephu Nguifo

2

Plan

1.
Présentation


2.
Etude comparative des codages des
acides aminés


3.
Alignement de séquences

3

Présentation

CRIL = Apprentissage symbolique


Bioinformatique:


E. MEPHU NGUIFO


H. FU


H. DELALIN

Projets: Génopole Lille

Etude comparative des codages
des acides aminés

Huaiguo FU


Encadrement: E. MEPHU NGUIFO

5

Codage des Acides Aminés


Idée: Stocker des informations en plus du
caractère.

Ex: Alanine = A = 65 (ASCII)= 01000001





But: Comparer 4 méthodes de
représentation binaire des acides aminés
afin de trouver la meilleure représentation
possible.

Huaiguo FU

[ Poster, ECCB’02 ]

Hyd

Cha

Pol

Sma

Ali

Aro

Ala

1

0

0

1

0

0

6


2 codages basés sur les propriétés
physico
-
chimiques des AAs:

-

Dickerson & Geis (1969)

-

Sallantin, Marlière & Saurin (1984)


2 codages obtenus par des méthodes
d’intelligence artificielle (IA):

-

Gracy & Mephu

-

De la Maza (1994)

Codage des Acides Aminés

Huaiguo FU

[ Poster, ECCB’02 ]

7

Méthode de comparaison:


Clusterisation de chaque représentation
(algorithme « Ward »)



Analyse manuelle de chaque cluster.



Validation grâce à l’algorithme C4.5

Codage des Acides Aminés

Huaiguo FU

[ Poster, ECCB’02 ]

8

Résultats:

-

Les codages obtenus par apprentissage
automatique peuvent refléter une certaine
réalité biologique.


-

Ce n’est pas forcément les codages basés sur
les propriétés des AA qui les représentent le
mieux.


Utilisation possible dans différentes applications

Codage des Acides Aminés

Huaiguo FU

[ Poster, ECCB’02 ]

Alignement de séquences

Hugues DELALIN


Encadrement: E. MEPHU NGUIFO

10

Alignement de séquences.

L’objectif de tels algorithmes est de
révéler des régions proches.



Nécessité de mettre en œuvre des
procédures de calcul et des modèles
biologiques afin de quantifier la notion de
ressemblance entre séquences.



On se base sur le principe de
parcimonie.

11

Calcul d’un score.


Score peut mesurer rapprochement ou
éloignement.


Attribution d’un score élémentaire pour
chaque position.

A

T

G

C

A

1

0

0

0

T

0

1

0

0

G

0

0

1

0

C

0

0

0

1

Exemple:




A T T G C C



: : :

Score =
3




T T G C C C




A T T G C C



:

Score =
1



T T G C C C



A T T G C C



: : : : :

Score = 5




T T G C C C

12

Gestion des gaps.


Fixe : chaque insertion d’une base a le
même coût.


Affine : définition d’un coût de création
de gap et d’un coût d’extension.


Variable en fonction de l’endroit où on
se trouve dans la séquence. (Argos et
Vingron, 1990)

13

Remarques:


Le score d’un alignement dépend de la
longueur de la zone de similitude que
l’on considère.


On peut nuancer le calcul du score en
donnant plus ou moins d’importance
aux pénalités et aux associations
possibles entre résidus.

14

Matrices de substitution.


Séquences d’ADN:

-

coût d’un «

match

» > 0.

-

coût d’un «

mismatch

» < 0.


Séquences protéiques:

-

matrices liées à l’évolution.


(Dayhoff et al., 1978) (PAM)


(Jones et al., 1992)

-

matrices liées aux caractéristiques physico
-
chimiques.


(Henikoff et Henikoff, 1992) (BLOSUM)

15

Needleman & Wunsh (1970).

V

T

E

E

R

D

A

F

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

T

0

3

0

0

-
1

0

1

-
3

S

-
1

1

0

0

0

0

1

-
3

H

-
2

-
1

1

1

2

1

-
1

-
2

E

-
2

0

4

4

-
1

3

0

-
5

A

0

1

0

0

-
2

0

2

-
4

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

16

Needleman & Wunsh (1970).

V

T

E

E

R

D

A

F

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

T

0

3

0

0

-
1

0

1

-
3

S

-
1

1

0

0

0

0

1

-
3

H

-
2

-
1

1

1

2

5

1

-
2

E

-
2

0

4

4

-
1

7

2

-
5

A

0

1

0

0

-
2

2

4

-
4

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

17

Needleman & Wunsh (1970).

V

T

E

E

R

D

A

F

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

T

0

3

0

0

-
1

0

1

-
3

S

-
1

1

0

0

7

0

1

-
3

H

-
2

-
1

1

1

2

5

1

-
2

E

-
2

0

4

4

-
1

7

2

-
5

A

0

1

0

0

-
2

2

4

-
4

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

18

Needleman & Wunsh (1970).

V

T

E

E

R

D

A

F

L

14

7

6

6

4

4

0

2

T

10

12

9

9

6

4

3

-
3

S

8

10

9

9

7

4

3

-
3

H

6

7

9

8

9

5

1

-
2

E

2

4

8

8

3

7

2

-
5

A

2

3

2

2

0

2

4

-
4

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

19

Needleman & Wunsh (1970).

V

T

E

E

R

D

A

F

L

14

7

6

6

4

4

0

2

T

10

12

9

9

6

4

3

-
3

S

8

10

9

9

7

4

3

-
3

H

6

7

9

8

9

5

1

-
2

E

2

4

8

8

3

7

2

-
5

A

2

3

2

2

0

2

4

-
4

L

2

-
2

-
3

-
3

-
3

-
4

-
2

2

Résultat:

VT
-
EERDAF


LTSHE
--
AL

20

Utilisation des représentations
binaires.


On utilise les algorithmes classiques.


Les scores élémentaires ne sont plus
obtenus grâce à une matrice de
substitution.


Une opération booléenne entre les
représentations des 2 acides aminés
que l’on compare sert de base au calcul
des scores élémentaires.

21

Choix de l’opérateur booléen.


ET logique si on ne s’intéresse qu’à la
présence des attributs.


XOR: le OU exclusif si on s’intéresse
autant à l’absence qu’à la présence des
attributs.

Exemple:

A


0001 ; L


0011

A ET L


0001

A
¬
XOR L


1101

22

Exemple de résultat:

Algorithme de Smith et Waterman (1981)

(b)

BINALIGN (Gracy & Mephu, 12 attributs)


Identité:

54/221 (24.4%)


Gaps:

42/221 (19.0%)

d1qqp1_ 1
TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTDVSFIM_DRFVKVT
43


|||...|...|| . |.|.. |..|. ...|......|..
..|..||

d1qqp2_ 22
TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQAERFFKTHLFDWVT
71

(a)

EMBOSS (BLOSUM62)


Identité:

34/173 (19.7%)


Gaps:

55/173 (31,8%)


d1qqp1_ 1 TTSAGESADPVT
---
TTVENY
-------
GGETQIQRRQHTDVSFIMDRFV 40


|||..:|:..|| .|.|:: |.||::.:
.:||.

d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ
------
---
AERFF 62

23

Perspectives


Coût en temps d’exécution et espace
mémoire.


Mesure de la qualité des alignements
obtenus à partir de :

-

bases connues (CASA, SCOP)

-

alignements corrigés manuellement.


Alignement de structures (DSSP).

24

Références


Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C.

SCOP: a structural classification of proteins database.

Nucleic Acids Res. 1999 27:254
-
256.

http://scop.mrc
-
lmb.cam.ac.uk/scop/


Kabsch W. & Sander C. Dictionary of protein secondary
structure: Pattern recognition of hydrogen
-
bonded and
geometrical features, Biopolymers. 1983
22
:2577
-
2637.

http://www.sander.ebi.ac.uk/dssp/


Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL Jr. CASA:
A Server for The Critical Assessment of Sequence Alignment
Accuracy, Bioinformatics. Submitted.

http://capb.dbi.udel.edu/casa/