bioinformatique - Tecfa

peaceevenΒιοτεχνολογία

4 Οκτ 2013 (πριν από 3 χρόνια και 10 μήνες)

110 εμφανίσεις

Marie
-
Claude.Blatter@isb
-
sib.ch


Institut Suisse de Bioinformatique

Groupe Swiss
-
Prot

novembre 2006

Un des changements important

Nouvelles technologies:

-
> arrivée de données biologiques en ‘masse’


-
> utilisation de l’informatique

pour le stockage et l’analyse de données biologiques.


Rôle important joué par


la ‘bioinformatique’





La bioinformatique, c’est quoi ?

L’utilisation de l’informatique

pour l’analyse de données biologiques.





Bio
informatique



Surtout:


Biologie

+
Informatique


Biochimie

+
Informatique


Mais aussi…


Médecine

+
Informatique


Pharmacie

+ Informatique


Chimie

+
Informatique


Mathématique

+
Informatique


Statistique

+
Informatique


C’est un domaine pluridisciplinaire!

Bio
informatique



Surtout:


Biologie

+
Informatique


Biochimie

+
Informatique



Pourquoi faire ?


Acquérir puis stocker
les informations biologiques sous la
forme d’encyclopédies appelées
bases de données
;

Encyclopédies
informatisées

Exemples de données ‘biologiques’ qui ne peuvent plus être
gérées sans l’aide de l’informatique:


-

Séquences: ADN (génomes), ARN, protéines

-

Structures 3D: ADN, ARN, protéines, sucres…

-

Classification des espèces

-

Voies métaboliques

-

Expression des gènes (microarrays)

-

Spectrométrie de masse

-

Publications scientifiques



Beaucoup de
‘omics’, mais… !

Acquérir puis stocker
les informations biologiques sous la
forme d’encyclopédies appelées
bases de données
;

Développer des programmes

de prédiction et d’analyse en
utilisant les informations contenues dans les bases de
données;


Analyser/Interpréter/Prédire
: utiliser ces programmes
pour analyser de ‘nouvelles’ données biologiques et prédire
in silico

par exemple la fonction potentielle d’une protéine;

Conclucion d’une analyse
in silico

d’une protéine inconnue

Poids moléculaire
: 126 kD;

Fonction
: ATPase potentielle;

Localisation subcellulaire
: Membrane plasmique.

Transmembranaire (~10 hélices); N terminal:
intracellulaire; C terminal: intracellulaire

PTM
: Phosphorylée

Ça me semble
bio
-
logique
…mais reste à
le prouver !

Acquérir puis stocker
les informations biologiques sous la
forme d’encyclopédies appelées
bases de données
;

Visualiser
: développer des programmes pour visualiser

la structure en trois dimensions des protéines et de l’ADN,

pour shématiser des voies métaboliques ou des arbres

phylogénétiques.


Développer des programmes

de prédiction et d’analyse en
utilisant les informations contenues dans les bases de
données;


Analyser/Interpréter/Prédire
: utiliser ces programmes
pour analyser de ‘nouvelles’ données biologiques et prédire
in silico

par exemple la fonction potentielle d’une protéine;

Exemple d’un dendrogramme obtenu à partir d’un résultat de CLUSTALW à l’aide
du
programme «

phylodendron

»




Dendogramme

Le Dodo et le poulet ont un
ancêtre commun !

Le Mammouth et l’éléphant
ont un ancêtre commun !

9

Arbre obtenu avec le cytochrome B

(phylophilo)

HIV: exemple d’application de la
bioinformatique


1984: identification du virus;


HIV: exemple d’application de la
bioinformatique


1984: identification du virus;


1985: séquençage du génome de HIV
-
1 ;



(4 laboratoires dont Montagnier/France et Gallo (USA) (??))


HIV: exemple d’application de la
bioinformatique


1984: identification du virus;


1985: séquençage du génome de HIV
-
1 ;



(4 laboratoires dont Montagnier/France et Gallo (USA) (??))


1985
-
1989: caractérisation des protéines;


1989: structure X
-
ray de la protéase;


HIV: exemple d’application de la
bioinformatique


1984: identification du virus;


1985: séquençage du génome de HIV
-
1 ;



(4 laboratoires dont Montagnier/France et Gallo (USA) (??))


1985
-
1989: caractérisation des protéines;


1989: structure X
-
ray de la protéase;


1990: premiers inhibiteurs modélisés à partir de la
structure 3D de la protéase


HIV: exemple d’application de la
bioinformatique


1984: identification du virus;


1985: séquençage du génome de HIV
-
1 ;



(4 laboratoires dont Montagnier/France et Gallo (USA) (??))


1985
-
1989: caractérisation des protéines;


1989: structure X
-
ray de la protéase;


1990: premiers inhibiteurs modélisés à partir de la
structure 3D de la protéase



Novembre 1995: premier médicament (Invirase)
approuvé par la FDA (trithérapie).

Structure 3D de la
protease de HIV

Structure 3D de la
protease de HIV +
inhibiteur

Quelques remarques


1.
Il n’existe pas une “banque centrale” qui contient toutes les
infos: il est toujours nécessaire de grapiller les infos dans
différentes banques.




Quelques remarques


1.
Il n’existe pas une “banque centrale” qui contient toutes les
infos: il est toujours nécessaire de grapiller les infos dans
différentes banques.


2.

Les données s'accroissent quotidiennement (il y a en
moyenne un nouveau génome séquencé toutes les semaines)
et sont continuellement remises à jour: le résultats de vos
requêtes peut donc être différent d'un jour à l'autre
(contenu, liens ou “look”) !




3. Beaucoup de chercheurs travaillent sur le même sujet
-
>

un gène, plusieurs séquences
-
>

redondance
.


Ces séquences peuvent être différentes (erreurs de
séquençage ou mutations, longueurs variables).




3. Beaucoup de chercheurs travaillent sur le même sujet
-
>

un gène, plusieurs séquences
-
>

redondance
.


Ces séquences peuvent être différentes (erreurs de
séquençage ou mutations, longueurs variables).


4. Importance du numéro d’accession: identificateur d’une
information biologique (1 séquence, 1 spot sur un gel, 1
structure 3D…)


3. Beaucoup de chercheurs travaillent sur le même sujet
-
>

un gène, plusieurs séquences
-
>

redondance
.


Ces séquences peuvent être différentes (erreurs de
séquençage ou mutations, longueurs variables).


4. Importance du numéro d’accession: identificateur d’une
information biologique (1 séquence, 1 spot sur un gel, 1
structure 3D…)


5. Les banques de données sont liées entre elles (“links”,
cross
-
références
-
>

réseau
). Ces liens ne sont pas
toujours bidirectionnels !




3. Beaucoup de chercheurs travaillent sur le même sujet
-
>

un gène, plusieurs séquences
-
>

redondance
.


Ces séquences peuvent être différentes (erreurs de
séquençage ou mutations, longueurs variables).


4. Importance du numéro d’accession: identificateur d’une
information biologique (1 séquence, 1 spot sur un gel, 1
structure 3D…)


5. Les banques de données sont liées entre elles (“links”,
cross
-
références
-
>

réseau
). Ces liens ne sont pas
toujours bidirectionnels !


6. Les banques de données contiennent des
erreurs

!


Conclusions


Extraordinaire potentiel de la bioinformatique…

mais ne elle ne remplace(ra) pas les expériences «wet lab»

génomiques, protéomiques et autres,

ni l’esprit critique humain
(contexte bio
-
logique)

!



La bioinfo fournit des outils performants aux biologistes…




Les données expérimentales des biologistes permettent

d’améliorer les programmes bioinformatiques (prédiction)…

‘Génomique’


Mise en place des techniques d’analyse de l’expression des gènes


Mise à la disposition des chercheurs d’une plateforme ‘génomique’



Patrick Descombes


Biomedical Proteomics Research Group (BPRG)


Plateforme Génomique


Frontiers in Genetics


Centre Médical Universitaire (CMU)


Jean
-
Charles Sanchez


Biomedical Proteomics Research Group (BPRG)


Department of Structural Biology and Bioinformatics


Centre Médical Universitaire (CMU)


Pionnier de la ‘protéomique’ (depuis 1989)


Mise en place des techniques d’analyse des protéines


Mise à la disposition des chercheurs d’une plateforme ‘protéomique’


Recherche de biomarqueurs (AVC et diabète)



Pionnier de la ‘bioinformatique’


Programmes d’analyse in silico des protéines


Créateur de la banque de données Swiss
-
Prot


Intéressé par l’’exobiologie’




Amos Bairoch


Groupe Swiss
-
Prot


Centre Médical Universitaire (CMU)


Bioinformatique
-

application 1:

acquisition de données



Exemples: lecture d’images de gels 2D,
spectrométrie de masse (MS),
séquençage ADN...



Détection de signaux ou d’images


Absence de contexte biologique.

Séquençage d’ADN

Informatique instrumentale

Programme pour
analyser les données

d’un séquenceur ADN


Exemple:

pregap4

de Rodger Staden

https://sourceforge.net/projects/staden.



Bioinformatique
-

application 2:

Analyse de séquences ADN


Détection des régions codantes;


Recherche de similarité (BLAST)


Analyse des sites de restriction (enzymes);


Traduction ADN en protéine;


Détection de séquences «

répétées

» comme les
microsatellites, minisatellites, Alu repeats, etc.;


Détection de régions ADN importantes non
-
codantes
comme les signaux de transcription (promoteur), origines
de la réplication, etc.;


Détection de séquences de tARN et autres types de ARN
(exemples: rARN, uARN, tmARN).


Une séquence ADN de
C.elegans
)

(~25’000 bp)



Schéma récapitulatif

3



5



Genebuilder prédiction

EST => cDNA

ADN génomique

exons

1

4

Splicing / Epissage «

in silico

»

mARN mature

1

2

3

4

2

3

1083

1003

1305

1406

1452

1661

1914

1997

2

3

1

4

Des cas moins idéaux…

Ex: Chromosome 21

Bioinformatique
-

application 3:

analyse de la séquence primaire des protéines


Caractérisation physicochimique


Prédiction de la localisation subcellulaire (“signal
séquences”, “transit peptides”);


Recherche de régions transmembranaires;


Recherche des régions fonctionnelles (domaines
conservés)


Recherche de sites de modifications post
-
traductionelles (PTM).


Recherche de régions antigéniques;


Recherche de régions dont la composition est biaisée
(“low complexity sequences”);


Mettre en relation 2 séquences en
comparant les acides aminés à chaque
position et en tenant compte de leur
probabilité de mutation au cours de
l’évolution;

Bioinformatique
-

application 4:

comparaison de séquences

MY
-
TAIL
--
ORIS
-
RICH
-

#x #### x#x# ####

MONTAILLEURESTRICHE

(algorithme pour comparer des chants d’oiseaux)


by Sebastian Böcker

Bioinformatique
-

application 5:

phylogénétique


Reconstruction de l’évolution des espèces;











Reconstruction de l’évolution moléculaire des familles
de protéines;


Reconstruction de l’évolution des chemins métaboliques.


Bioinformatique
-

application 6

analyse de la structure secondaire &
modélisation des protéines

Séquence d’une protéine

Structure d’une protéine

?

MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH

EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE

NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY

RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP

NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL

YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL

VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI

DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP

ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT

IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG

TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN

NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC


Avant …

Après …