Quelques mots sur la bioinfo - LIFL

peaceevenΒιοτεχνολογία

4 Οκτ 2013 (πριν από 4 χρόνια και 1 μήνα)

82 εμφανίσεις

Quelques mots sur la bioinfo

Maude Pupin

Déroulement des 6 séances de TP :


5 séances de TP + un examen de TP sur l'ensemble.


Banques de données

(aujourd'hui)


Comparaison de séquences



Prédiction de gènes


Annotation des protéines


Reconstruction phylogénétique



Sujets de TP accessibles depuis :


http://www.lifl.fr/~noe/enseignement/

Qu’est
-
ce que la bioinformatique ?


L’approche
in silico

de la biologie


Un outil indispensable aux biologistes


Un nouveau domaine de recherche


Trois activités principales :


Acquisition et organisation des données biologiques


Conception de logiciels pour l’analyse, la comparaison et la
modélisation des données


Analyse des résultats produits par les logiciels

Les limites de la bioinformatique


Grands volumes de données à traiter


Parfois diminution de la qualité des résultats au profit de la
rapidité


Recherche d’une solution parmi un ensemble infini de
possibilités


Besoin d’optimiser les programmes pour arriver à proposer un
résultat dans un temps raisonnable


Ce n’est pas toujours la solution la meilleure qui est trouvée


Dépendant des connaissances biologiques

Un résultat de programme n'est pas une vérité !

Quelques liens utiles (en français)


Deambulum à Infobiogen


http://www.infobiogen.fr/services/deambulum/fr/


Recueil de liens vers des sites de biologie et bioinformatique


Logiciels pour la biologie à l’Institut Pasteur


http://bioweb.pasteur.fr/


De nombreux logiciels proposés et des liens vers des sites


NPSA au PBIL (Pôle BioInformatique Lyonnais)


http://npsa
-
pbil.ibcp.fr/


L’étude des protéines et autres logiciels


Proteomics tools à Expasy


http://www.expasy.org/tools/


Tout sur l’étude des protéines

Présentation des banques de
données

Qu’est
-
ce qu’une banque de données ?


Ensemble de données relatives à un domaine,
organisées par traitement informatique, accessibles en
ligne et à distance


Souvent, les données sont stockées sous la forme d’un
fichier texte formaté (respectant une disposition
particulière)


Besoin de développer des logiciels spécifiques pour
interroger les données contenues dans ces banques

Les banques de données généralistes


Ces banques contiennent des données hétérogènes


Collecte la plus exhaustive possible


Banques de séquences nucléiques


Banques de séquences protéiques


Banques de structure 3D de macromolécules


Banques d’articles scientifiques


Avantage :

tout est consultable en une fois


Inconvénients :

difficiles à maintenir, difficiles à interroger

Les banques de données spécialisées


Ces banques contiennent des données homogènes


Collecte établie autour d’une thématique particulière


Avantages :
facilité pour mettre à jour les données,
vérifier leur intégrité, offrir une interface adaptée, …


Inconvénients :

ne cible pas toujours ce que l’on veut;
toutes les banques possibles n’existent pas


Exemples :

banques spécialisées pour un génome,
banques de séquences d'immunologies, banques sur
des séquences validées, …

Les banques de séquences nucléiques


Origine des données :


Séquençage d’ADN et d’ARN


Les données stockées :

séquences + annotations


Fragments de génomes


Un ou plusieurs gènes, un bout de gène, séquence intergénique, …


Génomes complets


ARNm, ARNt, ARNr, … (fragments ou entiers)


[ Note 1]

:

toutes les séquences (ADN ou ARN) sont
écrites avec des T


[ Note 2] :

les séquences sont toujours orientées 5’ vers
3’.

Développement du séquençage de l’ADN


1977
:

F. Sanger met au point la méthode de Sanger
pour établir le séquençage de l’ADN.


1980

: Création de la banque EMBL


1984

: Développement de la réaction de polymérisation
en chaîne (PCR) par Mullis.


1987

: Réalisation et commercialisation du 1er
séquenceur automatisé par la société Applied
Biosystems (Californie).


Banques nucléiques, les débuts


Apparition dans les années 1980


Toutes les séquences déterminées sont publiées dans un article


Les banques guettent les articles et en extraient les séquences


Croissance du nombre de séquences :


Pas de publication systématique pour une séquence


Beaucoup de données à collecter


Gestion des données par des organismes spécialisés


Les séquences et leurs annotations sont soumises aux
banques par les laboratoires qui ont fait le séquençage

Banques nucléiques, le partage des données


Trois banques :


EMBL (European Molecular Biology Laboratory), crée en 1982


GenBank (banque des Etats
-
Unis d’Amérique), crée en 1982


DDJ (DNA Databank of Japon), crée en 1986


Echange quotidien des données entre ces banques
depuis 1987 (1992 ?)


Répartition de la collecte des données


Chaque banque collecte les données de son continent


Même format de données pour la partie « Feature »


Formats différents pour le reste de l’entrée

Banques nucléiques, mises à jour de la banque


Une nouvelle version est disponible plusieurs fois par an


Date et numéro de version (release)


Données figées à une date fixée (toutes les séquences
collectées jusque là)


Mise à disposition des « UpDates »


Mise à jour quotidienne des données


Toutes les nouvelles séquences depuis la dernière version


Facilite le traitement des données


Pas besoin de télécharger la banque entière tous les jours


Possibilité de faire des calculs longs

Banques nucléiques, dernière version


EMBL, version 85 du 30 novembre 2005


64,739,883 entrées, 116,106,677,726 bp


Dont 12,088,383 entrées (59,629,958,692 bp) sont issues de «
shutgun »


GenBank, version 150 de février 2006


54,584,635 entrées, 59,750,386,305 bp


DDBJ, version 62 de mai 2005


45.249.444 entrées, 49.158.155.283 bp

Banques nucléiques, croissance

Séquençage de génomes


1995

: Séquençage de la 1ère bactérie, Haemophilus
influenzae (1,83 Mb) (Fleischmann).


1996

: Séquençage du 1er génome eucaryote,
Saccharomyces cerevisiae (12 Mb) (Dujon).


1998

: Séquençage du 1er organisme pluricellulaire,
Caenorhabditis elegans (100 Mb).


2001

: Annonce du décryptage presque complet du
génome humain (février).

Les projets de séquençage (source : GOLD)


Source : GOLD (http://www.genomesonline.org/)


298 génomes complets publiés


236 bactéries


39 eucaryotes


23 archaebactéries


746 génomes procaryotes en cours de séquençage


706 bactéries


38 archaebactéries


531 génomes eucaryotes en cours de séquençage

Banques nucléiques, format d’une entrée


3 parties :


Chaque ligne commence par
un mot
-
clé


Deux lettres pour EMBL


Maximum 12 lettres pour
Genbank et DDBJ


Fin d’une entrée : //



Description générale de
la séquence

« Features »

Description des objets
biologiques présents sur
la séquence

La séquence


ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60


tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120


acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180



ID AF226511 standard; genomic DNA; PRO; 948 BP.

AC AF226511;

SV AF226511.1

DT 15
-
MAR
-
2000 (Rel. 63, Created)

DT 04
-
JAN
-
2006 (Rel. 86, Last updated, Version 2)

DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene,

DE complete cds.

OS Neisseria meningitidis

OC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae;

OC Neisseria.


RP 1
-
948

RX DOI; 10.1126/science.287.5459.1816.

RX PUBMED; 10710308.

RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., …

RT "Identification of vaccine candidates … "

RL Science 287(5459):1816
-
1820(2000).

RL Submitted (19
-
JAN
-
2000) to the EMBL/GenBank/DDBJ databases.

RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, Via

RL Fiorentina, 1, Siena 53100, Italy

Description générale de
la séquence

Banques nucléiques, les différentes lignes (1/2)


ID : nom de l’entrée , …


Unique (propre à une entrée)


Non permanent (peut changer au cours des versions)


AC : numéro d’accession


Unique, plusieurs pour une même entrée (fusion d’entrées)


Permanent (ne disparaît jamais de la banque)


SV : version de la séquence (Acc.version)


DT : date d’incorporation dans la banque et de dernière
mise à jour


DE : description du contenu de l’entrée

Banques nucléiques, la ligne ID

ID entryname dataclass; molecule; division; sequencelength BP.

Exemple: ID AB000263 standard; RNA; PRI; 368 BP.


Entryname :

nom de l’entrée


en général numéro d'accession


Dataclass :

toujours le mot « standard »


Molecule :

type de la molécule de l’entrée


DNA, RNA, circular DNA, …


Division :

essentiellement basé sur la taxonomie


HUM (Human), MUS (Souris), MAM (Other Mammals), ...


Taille

: en paires de bases


Banques nucléiques, les différentes lignes (2/2)


KW

: liste de mots
-
clés (désuet)


OS

: organisme d’où provient la séquence (nom latin)


OC

: taxonomie (ou «

artificial sequence

»)


Exemple : Eukaryota; Planta; Phycophyta; Euglenophyceae.


OG

: localisation de séquences non nucléaires


Exemple :
Mito, Plasmid …


RA, RT, RN, RC, RX, RP, RL

: réf. bibliographiques


DR

: liaison avec d’autres banques de données


FH, FT

: caractéristiques d’une entrée (Features)


SQ
: séquence (termine par
//
)

FH Key Location/Qualifiers

FH

FT source 1..948

FT /db_xref="taxon:487"

FT /mol_type="genomic DNA"

FT /note="serogroup: B"

FT /organism="Neisseria meningitidis"

FT /strain="1000"

FT gene 1..948

FT /gene="gna1220"

FT CDS 1..948

FT /codon_start=1

FT /db_xref="GOA:Q9JPH5"

FT /db_xref="InterPro:IPR001107"

FT /db_xref="InterPro:IPR001972"

FT /db_xref="UniProtKB/TrEMBL:Q9JPH5"

FT /note="similar to stomatin
-
like proteins; Genome
-
derived

FT Neisseria Antigen GNA1220"

FT /transl_table=11

FT /gene="gna1220"

FT /product="membrane protein GNA1220"

FT /protein_id="AAF42660.1"

FT /translation="MEFFIILLVAVAVFGFKSFVVIPQQEVHVVERLGRFHRALTAGLN

FT ILIPFIDRVAYRHSLKEIPLDVPSQVCITRDNTQLTVDGIIYFQVTDPKLASYGSSNYI

FT MAITQLAQTTLRSVIGRMELDKTFEERDEINSTVVSALDEAAGAWGVKVLRYEIKDLVP

FT PQEILRSMQAQITAEREKRARIAESEGRKIEQINLASGQREAEIQQSEGEAQAAVNASN

FT AEKIARINRAKGEAESLRLVAEANAEAIRQIAAALQTQGGADAVNLKIAEQYVAAFNNL

FT AKESNTLIMPANVADIGSLISAGMKIIDSSKTAK"

XX


« Features »

Description des objets biologiques présents sur la séquence

Banques nucléiques, Features

But :
Mettre à disposition un vocabulaire étendu pour
décrire les caractéristiques biologiques des séquences.

Format :


Key :

indique un groupe fonctionnel


Vocabulaire contrôlé, hiérarchique


Location :

instructions pour trouver l’objet sur la
séquence de l’entrée


Qualifiers :

informations complémentaires


/qualifier=‘‘commentaires libres’’


Banques nucléiques, Key (1/2)


Mot
-
clé le plus général : misc_feature


Changements dans la séquence : misc_difference, ...


Régions répétées : repeat_region, ...


Régions des Ig : immunoglobulin_related, ...


Structures secondaires : misc_structure


stem_loop


D
-
loop


Régions impliquées dans la recombinaison :
misc_recomb, ...

Banques nucléiques, Key (2/2)


gene


misc_signal


promoter


CAAT_signal


TATA_signal


-
35_signal


-
10_signal


GC_signal


RBS


polyA_signal


enhancer


attenuator


terminator


misc_RNA


prim_transcript


precursor_RNA


mRNA


5'clip


3'clip


5'UTR


3'UTR


exon


CDS


intron


polyA_site

http://www.ebi.ac.uk/embl/WetFeat/


Banques nucléiques, Location (1/2)


467

base seule


340..565

séquence comprise entre les bornes (incluses)


<1..888

commence avant le premier nt de l'entrée


<234..888

début réel inconnu, avant 234


234..>888

finit après la position 888.


(228.234)..888

position réelle inconnue, entre 228 et 234


145^146

situé entre deux nt adjacents

Banques nucléiques, Location (2/2)


complement(340..565)

séquence complémentaire
inversée de celle de l'entrée


Intervalle toujours donné avec la borne la plus petite en premier


Indique que l’objet est sur l’autre brin


join(12..78,134..202)

séquence unique composée des
fragments indiqués concaténés


Ex : ARNm mature constitué de plusieurs exons


Banques nucléiques, Qualifiers


Vocabulaire contrôlé entre « / » et « = » puis texte libre


Le vocabulaire dépend du Key au quel le Qualifier se réfère


Nom de gène


/gene= ou /name=


Fonction de la protéine codée par le gène


/product=


Origine de l’annotation


/evidence=


Texte libre


/note=

Banques nucléiques, mise à jour des données


Evolution des entrées


Erreurs de séquences


Changements dans les annotations


Pb : Seuls les auteurs d’une entrées peuvent la corriger !


Faible taux de mise à jour


Création d’une nouvelle banque : TPA


Third Party Annotation


Stockage à part de la mise à jour des entrées

Banques nucléiques, inconvénients


Difficulté de mise à jour des données


Version plus récente d’une séquence ou d’une annotation dans
d’autres banques (ex : banques dédiées à un génome complet)


Forte redondance


Un même fragment de séquence présent dans plusieurs entrées


Annotations peu normalisées


Difficulté de recherche d’une information précise


Annotations peu précises


Peu de descriptions sur les gènes et leur produit


Erreurs dans les annotations

Création de banques plus spécialisées, RefSeq


Gérée au NCBI


Séquences nucléiques et protéiques


Liens explicites entre les gènes et leurs produits


Chaque entrée représente une unique molécule d’un
organisme particulier


Pas de redondance


Mise à jour manuelle par le personnel du NCBI


Validation des données et annotations normalisées


Statut de l’entrée indiqué sur chaque entrée (prédit, validé, …)


Information sur les variants de transcrits

Création de banques plus spécialisées, UniGene


Gérée au NCBI


Regroupe les séquences nucléiques


Comparaison des séquences de GenBank entre elles


Création de groupes de séq similaires basés sur les gènes


Une entrée : les séquences dérivées d’un même gène


Les différents ARNm connus, les EST, …


Informations sur le gène, la protéine, l’expression


Les banques de séquences protéiques


Origine des données


Traduction de séquences d’ADN


Séquençage de protéines


Rare car long et coûteux


Protéines dont la structure 3D est connue


Les données stockées : séquences + annotations


Protéines entières


Fragments de protéines


Banques de séquences protéiques, les débuts


1965 : Atlas of Protein Sequences, Margaret Dayhoff


50 entrées


Version papier jusqu’en 78, puis version électronique


1984 : création de PIR
-
NBRF (Protein Information Resource
-

National Biomedical Research Foundation)


Collaboration avec MIPS (Allemagne) et JIPID (Japon)


1986 : création de SwissProt


Collaboration entre SIB (
Swiss Institute of Bioinformatics

) et EBI


Fin 2003 : création de UniProt (Universal Protein Resource)


Mise en commun des informations de PIR et SwissProt/TrEMBL


« entrepôt » central de séquences et fonctions protéiques

PIR, ses deux bases de données


PSD : Protein Sequence Database


Séquences protéiques avec annotation fonctionnelle


«the most comprehensive and expertly annotated protein
sequence database in the public domain »


PIR
-
NREF : Non redondant protein sequences


Pas plus d’une entrée pour une protéine (comparaison de toutes
les séquences entre elles)


Données : PIR
-
PSD, SwissProt, TrEMBL, RefSeq, GenPept,
PDB

SwissProt, ses deux banques


SwissProt


Données corrigées et validées par des experts


Haut niveau d’annotation


Description de la fonction (références associées)


Localisation des domaines fonctionnels


Modifications post
-
traductionnelles


Existence de variants, …


Redondance minimale


Nombreux liens vers d’autres banques (60 BD)


TrEMBL


Entrées supplémentaires à SwissProt (pas encore annotées)


Traduction automatique de l’EMBL

SwissProt/TrEMBL, croissance

SwissProt/TrEMBL, format d’une entrée


Format basé sur celui de l’EMBL


Mot
-
clé de 2 lettres au début de chaque ligne


Les mêmes mots
-
clés sont utilisés


Format différent pour les Features


Mots
-
clés supplémentaires :


GN : les différents noms du gène qui code pour la protéine (OR)


les différents gènes qui codent pour la même protéine (AND)


OX : références croisées vers les banques taxonomiques


CC : commentaires, lignes très documentées dans SwissProt


KW : mots
-
clés issus d’un distionnaire

SwissProt/TrEMBL, lignes CC


Informations découpées en blocs pour plus de lisibilité

CC
-
!
-

TOPIC: First line of a comment block;

CC second and subsequent lines of a comment block.


De nombreux sujets sont abordés


FUNCTION : description générale de la fonction de la protéine


CATALYTIC ACTIVITY : description des réactions catalysées
par les enzymes


DEVELOPMENTAL STAGE : description du stade spécifique
auquel la protéine est exprimée


SUBUNIT : complexes dont fait partie la protéine (+ partenaires)




SwissProt/TrEMBL, lignes FT


Régions ou sites d’intérêt dans la séquence


Modifications post
-
traductionnelles


Sites de fixation


Sites actifs d’enzymes


Structures secondaire


Changements de séquence (y compris les variants)


Format en colonne (nb caractères)


1
-
2 : FT


6
-
13 : Key (mot
-
clé, vocabulaire contrôlé)


15
-
20 22
-
27 : début et fin de l’objet


35
-
75 : description (éventuellement sur plusieurs lignes)

UniProt, les différentes banques


UniProt : UniProt Knowledgebase


Deux parties : entrées annotées manuellement (SwissProt) et
entrées annotées de façon automatique (TrEMBL)


Plus d’informations que dans les banques d’origine


UniRef : UniProt Non
-
redundant Reference database


UniRef100 : regroupement des séquences identiques et de leurs
fragments provenant d’un même organisme


UniRef90 : entrées de UniRef100 avec plus de 90% d’identité


UniRef50 : idem pour 50% d’identitié


UniParc : UniProt Archive


UniProt + d’autres banques (PDB, RefSeq, FlyBase, brevets, …)

Banques protéiques, dernières versions


PIR
-
PSD : n
°

80, 31/12/05, 283.416 entrées


PIR
-
NREF : n
°

1.77, 19/09/05, 2.577.815 entrées.


PIR (283.009 entrées)


GenPept (2.570.458 entrées)


RefSeq

: 1.266.570 entrées


PDB

: 32.545 entrées


SwissProt : n
°

48, 13/09/05, 194.317 entrées


TrEMBL : n
°

31, 13/09/05: 2.105.517 entrées


UniProt : n
°

6.0, 13/09/05: 2.299.834 entrées


UniRef100 : 2.939.066, UniRef90 : 1.730.689, UniRef50 : 907.983


UniParc : 5.025.587

Une Banque bibliographique, PubMed


Contient


Journaux concernant la biologie et la médecine


Articles indexés par des experts à l’aide des termes MeSH


Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de
molécules chimiques


Hiérarchisé


Dictionnaire de synonymes


19.000 termes médicaux, 103.500 termes chimiques


Subheadings : sous
-
titres qui décrivent un aspect particulier des
termes

MeSH


Mis à jour régulièrement

Exemple de terme MeSH

Systèmes d’interrogation de
banques de données

Interrogation d’une banque


But :


Obtenir des informations nouvelles et pertinentes


Aide à la mise au point d’expériences


Validation des résultats d’une expérience


Contraintes pour un systèmes d’interrogation


Obtention de données pertinentes (pas trop de résultats, mais
tous ceux relatifs à notre problématique)


Simplicité d’utilisation (syntaxe d’interrogation intuitive)


Réponse rapide


Possibilité d’analyse des résultats (couplage à des outils)

Entrez, le système d’interrogation du NCBI


Interface propriétaire (ne peut être
installée par autrui)


Opérateurs en majuscule


AND, OR, NOT


Nom du champ entre crochets


homo sapiens [organism]


Aide dans « Preview/Index »


Historique (lien « History »)


Ajout de limites (lien « Limits »)


Sauvegarde, format


Boutons « Display », « send to »


Menus déroulants associés

Entrez, liens entre banques et entrées

PubMed

OMIM

Genome

Nucleotide

Protein

Structure

Taxonomy

Similarité
(BLAST)

termes MeSH
communs

Liens entre
banques

Accès aux liens
entre banques à
l’aide du menu
associé au bouton
« Display »

SRS, le système d’interrogation de l’EBI (TIGR)


Système libre, de nombreux
miroirs existent


Onglet « Libary »


Choix de la ou des banques
interrogées


Onglet « Query »


Lancement du formulaire


Onglet « Results »


Historique des requêtes


Onglet « Views »


Création de format d’affichage

Interrogation via SRS


Opérateurs


& (et), | (ou), ! (non)


Nom des champ dans
des menus déroulants


Sauvegarde, format


Bouton « Save »


Bouton « Rerun query »


Options associées


Analyse bioinformatique
des entrées


Bouton « Launch »

SRS, le découpage en sous
-
entrées


Sous
-
entrée : partie extraite d’une entrée


Annotation et séquence associée (fragment séquence parent)


Utile dans le cas de champs répétés dans une entrée


EMBL : références, « features », compteurs


UniProt : ref, commentaires, liens, « features », compteurs


Interrogeables facilement via le formulaire étendu


Liste de valeurs quand vocabulaire contrôlé


Sous
-
entrées « compteurs »


Nombre d’apparitions de certains champs dans les entrées


Non disponible dans Entrez

SRS, liens entre banques


Construits à partir des informations présentent dans les
entrées


Les liens sont bidirectionnels


Les liens sont propagés : A lié à B et B lié à C alors A lié à C


Deux types de liens


Dans une entrée sous la forme d’hyperliens (HTML)


Par requête à l’aide du bouton « Link », à partir d’une liste
d’entrées.


Pas de liens entre entrées d’une même banque

Quelques formats de données biologiques


Format des banques, exemples :


Séquences ADN/ARN : EMBL ; GenBank et DDBJ


Séquences protéiques : SwissProt et TrEMBL ; PIR ; …


Formats lus par la plupart des outils en bioinformatique


FASTA


Séquence brute (« raw sequence »)


Conversion de formats


Lors de la consultation des banques


Le programme
ReadSeq

(n’importe quel format en entrée, choix
du format de sortie)

Le format FASTA
( et Multi
-
FASTA)



Une ligne de commentaires précédé de « > »


La séquence brute (pas d’espace, ni de nombre)


>Human Polycomb 2 homolog (hPc2) mRNA, partial cds

ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat

agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct

ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg

gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca

ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata

taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag

tacgtgacggtg