Documents

peaceevenΒιοτεχνολογία

4 Οκτ 2013 (πριν από 3 χρόνια και 10 μήνες)

95 εμφανίσεις

1
Funded by:
Bases de données en Biologie
European Bioinformatics Institute
EBI: http://www.ebi.ac.uk
Karine Robbe-Sermesant
krobbe@ipmc.cnrs.fr
23 Novembre 2007
Funded by:
Systems Biology et les omics
© Jiang Long,
http://bioteach.ubc.ca/Bioinformatics/whatisbioinform/
©2001-2004 Mayo Foundation for Medical Education and Research
http://www.systemsbiology.org/
Le but de la Systems Biology est dintégrer les d onnées biologiques dans le
but de comprendre comment les systèmes biologiques fonctionnent.
Funded by:
- Bases de données en biologie
- Données en biologie
- Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
Funded by:
- Bases de données en biologie
- Données en biologie
- Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
Funded by:
Une masse de données !
Des données en biologie :
- nombreuses et croissantes
- de différents types
=> regrouper toutes ces données pour favoriser
la recherche
Données en Biologie
Funded by:
Données de séquences

Différents types de séquences
- nucléiques : Fragments génomique, ADNc, EST
- protéiques

Différents organismes, souches
UniMES : metagenomes & environment samples

Projets de séquençage de génomes
Infectome: un génome par semaine !

Nouveaux types de séquenceurs
Données en Biologie
2
Funded by:
Autres types de données

Expression génique et régulation (microarray, northern-blot, pattern dexpression)

Expression protéique et régulation (western-blot, pattern dexpression, localisation)

Recherche sur la fonction du gène/transcrit/protéine :
-
Propriétés enzymatiques
-
Modification post-traductionnelle (phosphorylation, glycosylation)
-
Recherche de partenaires dinteractions (exemple : complexe protéique)
-
Recherche dimplication dans une cascade de transduction
-
Analyse de variant/mutant ou de leffet de labsence (phénotype de knocked-out,
mutation dirigée, génétique humaine )
-
Structure protéique
-
.
Données en Biologie
Funded by:
Ou sont ces données expérimentales ?

Littérature scientifique (PubMed)

Dispersées sur des sites web de laboratoires
Comment récupérer et stocker ces données?
-
Obligation de soumettre les données à des base de données
spécialisées (séquences mais maintenant aussi dautres types
de données)
-
Annotation manuelle
-
Fouille automatique de données (text-mining)
Intégration des données
Funded by:
- Bases de données en biologie
- Données en biologie
- Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
Funded by:
Les bases de données en biologie

Gene-centrique (EMBL, genbank, DDBJ)

Protéine-centrique (UniProt)

Genome-centrique (EnsEMBL, UCSC)

Spécialisées:
- type de séquence (dbEST, MirBase, GPCR)
- organisme (Flybase, SGD)
- interaction (IntAct, DIP)
- Génétique humaine (OMIM)
- Ontologie (GO, GOA) 
Intégration des données
Funded by:
Soumission
Quoi et comment ?
- séquence nucléotidique (EMBL Webin)
- séquence protéique
- Expérience de MicroArray (ArrayExpress, GEO)
- Expérience de Protéomique (IntAct, PRIDE)
Third Party Annotation (TPA)
Ré-Annotation des séquences (par publication)
Intégration des données
Funded by:
Annotation

Annotation manuelle de données soumises
- séquence
- structure (PDB)
- données de microarray
- données de protéomique

Annotation manuelle à partir de la littérature

Assemblage des génomes

Analyse bioinformatique des données
Exemple : recherche automatique de domaine dans une séquence protéique

Transfert dannotation automatique à des objets similaires
Intégration des données
3
Funded by:
Annotation Manuelle de la littérature
Matériel
= Article accepté dans un journal peer-reviewed
incluant les données supplémentaires
Annotation Manuelle
Utilisation dun éditeur :
OBO-Edit, DAG-Edit (GO)
Formulaire sur le web (IntAct, GOA)
Emacs + Macros (SwissProt)
Vérification
- Saisie (règles incluse au formulaire)
- Contraintes sur les tables de la base
- Sanity check
Intégration des données
Funded by:
Vocabulaire contrôlé!
Funded by:
Propagation dannotations
- Par similarité (de SwissProt vers UniProt)
- En utilisant dautres informations :
- InterPro2GO, Enzyme2GO, SPkey2GO
- Règles manuelles dexport et de propagation
- Par apprentissage:
Recherche automatique de règles dannotations
Calculs de vrais positifs et faux positifs
Funded by:
Echange de données
- Update de la base

Fichiers Plats + Parser

Document XML + Schema
- Utilisation de Web Service
Exemple : CitExplore pour les publications
- Accès à des vues sur la base de données (VIEW)
- Dépot des données de la base
ftp, SourceForge CVS (Concurent Versions System)
Funded by:
Organisation

DBMS : Oracle, PostgreSQL

Langages : JAVA, Perl, Python

Système de sauvegarde des données

Base de données distinctes :

Développement

Test

Production

Publique

Importance des données privées (brevets, non publiées)
Funded by:
- Bases de données en biologie
- Données en biologie
-
Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
4
Funded by:
Funded by:
Basé sur un indexage Apache Lucene project framework
5
Funded by:
- Bases de données en biologie
- Données en biologie
-
Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
Funded by:
- Cellular component
Endosome, Mitochondrion, Apoptosome, Centriole…
- Biological process
Notch signaling pathway, G1 phase, Serotonin biosynthesis…
- Molecular function
Inositol 3-kinase activity, clathrin binding…
http://www.ebi.ac.uk/ego
http://geneontology.org/
Gene Ontology (GO)
Gene Ontology Annotation (GOA)
Vocabulaire contrôlé
Directed Acyclic Graph (DAG)
Funded by:
http://www.ebi.ac.uk/ego
Funded by:
http://www.ebi.ac.uk/ego
Funded by:
OBO : Open Biomedical ontologies
Critères :
- libre
- syntaxe commune (OBO format)
- orthogonal
- identifiant unique
- définition de chaque terme
GO, MGED, PSI-MI, MOD, Taxonomy
http://obo.sourceforge.net
Funded by:
http://obo.sourceforge.net
Format OBO
6
Funded by:
- Bases de données en biologie
- Données en biologie
-
Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://www.ebi.ac.uk
Funded by:
http://www.ebi.ac.uk/interpro
Built from PROSITE, PRINTS, Pfam, ProDom, SMART,
TIGRFAMs, Gene3D, PANTHER, PIR-Superfamilies,
SUPERFAMILY, SWISS-PROT and TrEMBL : 14768 entries
- domains (4731)
- families (9729)
- repeats (234)
- active sites (34)
- binding sites (22)
- post-translational modification sites (18)
80.3% of UniProt entries have at least one InterPro match (95.3 %
in UniProt/SwissProt).
http://www.ebi.ac.uk/interpro/release_notes.html
=> Rechercher la table interPro2GO
Funded by:
7
Funded by:
La protéomique
Sample
Protein
Extraction
Protein
Mixture
Proteins
Detection /
Quantification
Reporting
Peptide
Mixture
Peptides
Separation
Separation
Digestion Digestion
Bioinformatics /
Database
searching
Funded by:
Problème de standardisation?
Funded by:
The EBI Molecular Interaction Database
The PRoteomics IDEntifications database
Funded by:
 Base de données publique pour les interactions moléculaires
protéines, acides nucléiques, petites molécules PSI-MI Protein Standard Initiative-Molecular Interaction
Standard pour la représentation et lannotation des données
dinteractions moléculaire (fichier XML)
 International Molecular-Interaction Exchange ( IMEx) consortium
 Utilisation dun vocabulaire contrôlé :
Interaction detection, participant detection, interaction type, features
The EBI Molecular Interaction Database
Funded by:
PSI XML schema
Flat File
mapping
8
Funded by:
http://www.ebi.ac.uk/intact
eXtensible Markup Language (XML)
http://www.w3.org/XML
Funded by:
Funded by:
PRIDE XML submission
Funded by:
- Bases de données en biologie
- Données en biologie
- Intégration des données et Annotation
- Base de données à lEBI
- Protéines : UniProt
- Ontologie : GO
- Domaines et familles : InterPro
- Protéomique :IntAct, Pride
http://ebi.srs.org
Funded by:
BioMart
Query-oriented data management system développé
par lEBI et le CSHL (http://www.biomart.org/)
Funded by:
NOMBREUSES mais:
 Références croisées
 Echange de données entre les bases similaires:
- Sequences Nucleotidiques : DDBJ/EMBL/GenBank
- Données dInteraction: IMEx consortium
 Standardisation:
- Vocabulaire controlé, Ontologies (OBO, GO)
- Format Standard (Proteomics Standard Initiative PSI)
 Summary Databases
IPI (International Protein Index), InterPro, Integr8
Les bases de données en biologie
9
Funded by:
Exercice
http://www.beta.uniprot.org
Quelles sont les isoformes de la protéine humaine Rac1 ?
Connaissez vous le NCBI taxID pour lhomme ?
Y a-t-il des modifications post-traductionnelles (PTM) pour Rac1?
Quelles sont les annotations GO associées ?
Quel article montre son implication dans la formation des lamellipodes ?
Quels sont les domaines InterPro présent dans Rac1?
Quelles protéines interagissent avec Rac1 ?
Quelles sont les méthodes expérimentales montrant lassociation de
Rac1 et Pak1 ? Pourquoi Rac1 a-t-il été muté ?
Funded by:
Exercice
http://www.biomart.org/
En utilisant BioMart EnsEMBL,
Récupérer dans un fichier tab (tsv), le geneId, transId et la description
des gènes humain comportant lannotation GO « Cell migration »
http://www.ebi.ac.uk/integr8
En utilisant Integr8,
Rechercher le domaine le plus fréquent dans le protéome humain
http://srs.ebi.ac.uk