ppt - PBIL - Université Claude Bernard Lyon 1

peaceevenΒιοτεχνολογία

4 Οκτ 2013 (πριν από 3 χρόνια και 11 μήνες)

110 εμφανίσεις

Mesure des niveaux d'expression des gènes chez les bactéries
par la technique des biopuces


Analyse du transcriptome de la bactérie
Buchnera aphidicola

en condition de
stress trophique de son hôte, le puceron
Acyrthosiphon pisum

Laboratoire BF2I, UMR INRA/INSA de Lyon 203

Bât. Louis Pasteur, 69 621 Villeurbanne, France.

BSMC, Biologie Cellulaire et Modélisation Cellulaire

DTAMB Université Claude Bernard Lyon 1

Hubert Charles & Fédérica Calevro

22/6/05

2

Inférer (ou valider) un modèle de réseau de régulation… à
partir de données d’expressions de puces à ADN

Temps (min)

22/6/05

3

HYBRIDATION

LECTURE DE
L’EMPREINTE

DEPOT DES SONDES

EXTRACTION DES
DONNEES ET ANALYSE

Extraction des
ARNm

Marquage des
cibles

A

B

D

C

Robot de dépôt


Matériel
biologique

Cy5

Cy3

(1)

(2)

Choix des sondes

Interprétation des résultats

8
5
,
6

1
3
,
1

1
,
3


Scanner

Choix du plan de dépôt

Introduction : la technique des puces à ADN

22/6/05

4

De l’image de la puce… aux résultats interprétés

1
.

Nature

des

données

d’expression


2
.

Problématique

biologique


3
.

Mesure

des

données

d’expression

31
.

Acquisition

de

l’image

32
.

Acquisition

des

données

issues

de

l’image


33
.

Filtration

des

données

34
.

Analyse

qualité

35
.

Normalisation

36
.

Gestion

des

données

de

puces


4
.

Plans

expérimentaux

41
.

Plan

de

la

puce

42
.

Analyses

comparatives

(statiques)

43
.

Analyses

dynamiques


5
.

Conclusions


22/6/05

5

1. Nature des données d’expression


Grands

volumes

de

données

(pb

logiciel,

pb

algorithmique)


Dissymétrie

du

tableau

de

données

(gènes

x

conditions)


Les

données

sont

relatives

(pas

de

niveau

0
,

pas

de

mesure

absolue)



Distribution

non
-
normale

des

données







-
>

Transformation

log
2










Non
-
indépendance

des

données


Des

connaissances

associées

très

hétérogènes

(annotation

par

exemple)

22/6/05

6

2.

Problématique biologique : la symbiose chez le
puceron
Acyrthosiphon pisum


Buchnera

est

une

bactérie

symbiotique

intracellulaire

associée

à

la

majorité

des

pucerons

d’importance

économique
.

L’association

est

très

ancienne

(
250

Ma)
.

Les

partenaires

sont

devenus

dépendants
.


Buchnera

complémente

l’alimentation

de

son

hôte

(acides

aminés

et

vitamines)


Buchnera

possède

un

génome

de

taille

très

réduite

(
400

à

600

kb),

très

riche

en

bases

A

et

T

et

incluant

de

nombreuses

mutations

délétères

(adaptatives

?)
.


-
>

Bon

modèle

d’étude

à

un

niveau

théorique

(simple)

-
>

très

difficile

à

manipuler

expérimentalement

(incultivable)




Le

génome

de

Buchnera

est

«

dégénéré

»

-
>

Comment

Buchnera

régule
-
t
-
elle

l’expression

des

ces

gènes

?

-
>

Comment

Buchnera

s’adapte
-
t
-
elle

aux

variations

des

besoins

nutritionnels

de

l’hôte

?

22/6/05

7

2.

Problématique biologique

: stress nutritionnel
chez le puceron


Expérience

1

(
8

lames)

:





Milieu

complet

Milieu

Tyr
0
/Phe
0





A


B



4

lames

:

A
-
Cy
3

/

B
-
Cy
5



4

lames

:

A
-
Cy
5

/

B
-
Cy
3





Expérience

en

flip
-
flop


Analyse statistique : test de t
-
modifié (SAM), approche
bayésienne

22/6/05

8


Expérience

2

(
16

lames)

:





aa

équilibré

aa

déséquilibré

0
.
5

M

saccharose


A


B

1

M

saccharose


C


D




2

répétitions

indépendantes

de

8

lames

:

A/B,

B/C,

C/D,

D/A,

A/C,

B/D,

D/B,

C/A



A

B

C

D

2.

Problématique biologique

: stress nutritionnel
chez le puceron

Analyse statistique : modèles d’analyse de la variance

22/6/05

9

3. Mesure des niveaux d’expression


31
.

Acquisition

de

l’image


32
.

Acquisition

des

données

issues

de

l’image



33
.

Filtration

des

données

:

analyse

qualité


34
.

Normalisation


35
.

Analyse

statistique

et

interprétation

des

résultats



-
>

Ces

différentes

phases

ne

sont

pas

distinctes

22/6/05

10





31.

L’image brute


bloc (12 x 16)

aiguille

1

aiguille

2

aiguille

3

aiguille

4

=

=

Contrôles (+ et
-
)

Doublets de spots

Oligo 5’

Oligo 3’

3
ème

oligo

Superposition des 2
images (R et G)

22/6/05

11

32. Acquisition des données issues de l’image


Acquisition

de

l’image

:

réglage

des

PMT


limite

de

la

saturation

(
2
16
)



valeurs

de

PMT

identiques

(proches)

pour

toutes

les

lames

d’un

même

jeu

de

données



Quelle

mesure

du

signal

?


Volume

du

spot

(peu

utilisé)


Moyenne

(médiane)

des

pixels

du

spot



Faut
-
il

retrancher

un

bruit

de

fond

local

?


Estimation

du

bruit

de

fond

sur

les

contours

des

spots

(biais

d’estimation)


Estimation

sur

la

base

de

témoins

négatifs

répartis

sur

toute

la

surface

de

la

puce

22/6/05

12

33. Filtration des données durant l’acquisistion (logiciel
GenePix)


Filtration

des

données

(ajout

de

«

flags

»)


Flag

«

absent

»

des

spots

vides

(
-

50
)


Flag

«

not

found

»

des

spots

non

détectés

(
-

75
)


Flag

«

bad

»

des

mauvais

spots

(
-

100
)

:


Spots

sous

les

taches

et

rayures

(manuel),

diamètres

extrêmes,

spots

saturés

(F
635
%
sat,

script

Genepix),

spots

éloignés

du

nuage

(moyenne

/

médiane),

spots

à

forts

CV
F

et

CV
B



Flag

«

good

»

des

bons

spots

(+

100
)


%
B
635
+
1
SD

>

55

et

%
B
532
+
1
SD

>

55

(script

GenePix)


Flags

(
-

40
)

des

valeurs

corrigées

négatives

22/6/05

13

34. Analyse qualité


Analyse

de

la

variabilité

(critères

de

qualité)


Variabilité

inter

sondes

identiques


Variabilité

intra
-
groupe

de

spottage


Variabilité

intra
-
gène


Variabilité

géographique


Variabilité

inter

lames


-
>

Utilisation

de

CV

-
>

L’analyse

de

la

variabilité

permettra

de

décider

de

l’arrêt

ou

de

la

poursuite

de

la

filtration

puis

du

choix

de

la

technique

de

normalisation

22/6/05

14

34. Analyse qualité : représentations graphiques

Graphe RG

Bruit de fond

MA plot

Distribution de F532

22/6/05

15

35. Normalisation des données


Il

n’existe

pas

de

mesure

absolue

de

fluorescence


Les

fluorochromes

ont

des

propriétés

différentes

(linéarité

du

signal,

quenching,

sensibilité,

stabilité

)


Les

PMT

fournissent

des

valeurs

relatives


Les

réactions

de

marquage

ont

des

rendement

différents


...

-
>

Il

est

nécessaire

d’effectuer

une

normalisation

des

données

(la

plus

simple

possible)

22/6/05

16

35. Normalisation : différents modèles


Soit

I
g

l’intensité

du

signal

de

fluorescence

et

x
g

l’abondance

de

l

’ARNm

correspondant

:




Effet

de

bruit

de

fond

:




Effet

de

saturation

(non

linéarité

de

la

détection)

:





Erreurs

additives

et

multiplicatives

:



22/6/05

17

Cui et al. 2002

Effet de saturation

Effet des erreurs additives
(faibles intensités)

Effet des erreurs multiplicatives
(fortes intensités)

Différence de bruit de fond
entre vert et rouge

M=log
2
(R/G)

A=(RG)
1/2

35. Normalisation : différents modèles

22/6/05

18

35. Normalisation des données : trois cas de figures

(
1
)

Le

nombre

de

gènes

est

très

grand
.

(H)

:

La

plupart

des

gènes

analysés

ne

varient

pas,

ou

se

répartissent

équitablement

du

coté

des

sur
-

et

des

sous
-
exprimés
.

-
>

Normalisation

sur

tous

les

points


(
2
)

Le

nombre

de

gènes

est

moyen

et

H

n’est

plus

applicable
.

On

dispose

d

’un

échantillons

de

gènes

invariants

(contrôles,

gènes

de

ménage)

ou

on

calcule

cet

échantillon

(Tseng

et

al
.
,

2001
)
.

-
>

Normalisation

sur

l’échantillon

de

gènes

invariants


(
3
)

le

nombre

de

gènes

est

faible
.

Il

faut

disposer

d’un

jeu

de

contrôles

répartis

sur

toute

la

gamme

des

intensités
.


-
>

Normalisation

sur

les

contrôles

22/6/05

19

35. Normalisation globale


Normalisation

«

par

la

moyenne

ou

par

la

médiane

»


On

calcule

le

rapport

des

moyennes

(ou

des

médianes)

pour

les

deux

couleurs

et

on

le

rapporte

à

1
.





La

transformation

:






Le

modèle

sous
-
jacent

:



-
>

Applicable

si

:

(
1
)

pas

de

bruit

de

fond,

(
2
)

linéarité

du

graphe

MA,

(
3
)

pas

d’effet

aiguille,

(
4
)

pas

d’effet

géographique


22/6/05

20

35. Normalisation globale


Normalisation

«

par

régression

linéaire

»


Le

modèle

sous
-
jacent

:








La

transformation

est

la

suivante

:






-
>

Applicable

si

:

(
1
)

pas

de

bruit

de

fond,

(
2
)

linéarité

du

graphe

MA,

(
3
)

pas

d’effet

aiguille,

(
4
)

pas

d’effet

géographique


22/6/05

21

35. Normalisation globale


Normalisation

«

par

régression

linéaire

locale»

(fonction

loess)


Le

modèle

et

la

transformation

sont

les

mêmes

que

précédemment,

mais

appliqués

sur

une

classe

d’intensité
.













-
>

Applicable

si

:

(
1
)

pas

de

bruit

de

fond,

(
2
)

linéarité

du

graphe

MA,

(
3
)

pas

d’effet

aiguille,

(
4
)

pas

d’effet

géographique



22/6/05

22

35. Normalisation locale (spatiale)


Toutes

ces

méthodes

peuvent

s’appliquer

de

façon

à

normaliser

par

groupe

d’aiguille

ou

par

bloc

(effet

géographique)











-
>

Applicable

si

:

(
1
)

pas

de

bruit

de

fond,

(
2
)

linéarité

du

graphe

MA,

(
3
)

pas

d’effet

aiguille,

(
4
)

pas

d’effet

géographique

-
>

coût

sur

H

ou

sur

le

nombre

de

témoins

très

importants

22/6/05

23

35.

Normalisation des données
Buchnera


La

normalisation

est

basée

sur

un

jeu

de

gènes

invariants

déterminé

a

posteriori




Normalisation

«

PrintTip

loess

»


22/6/05

24





36. Un système d’informations pour la gestion des données de puces
(SI
-
TRANS)

http://sitrans.insa
-
lyon.fr

22/6/05

25

4.

Plans expérimentaux


41
.

Plan

de

la

puce


Les

sondes

doivent

être

spécifiques


Les

sondes

doivent

montrer

des

rendements

homogènes


Les

sondes

doivent

être

choisies

dans

des

régions

propices


Les

sondes

devraient

être

réparties

aléatoirement

sur

la

lame


Le

nombre

de

répétitions

doit

être

fixe

pour

toutes

les

sondes

(calcul

de

moyennes)


La

puce

doit

comporter

des

témoins

négatifs

répartis

sur

toute

la

surface


La

puce

doit

comporter

des

témoins

positifs

répartis

sur

toute

la

gamme

d’intensité

si

l’hypothèse

de

non

variation

de

la

majorité

des

gènes

ne

peut

pas

être

faite
.


22/6/05

26

4. Plans expérimentaux

http://pbil.univ
-
lyon1.fr/roso

22/6/05

27

-

Comparaison

de

2

conditions

:


Tests

de

t

modifiés

(SAM)

ou

inférence

bayesienne

-

Comparaison

de

différentes

conditions

dans

un

plan

factoriel

:


Modèles

d’ANOVA

-

Comparaison

de

conditions

multiples

:


Analyse

discriminante,

interclasse,

non
-
supervisée


A

B

C

D

A

B

C

D

R

4.

Plans expérimentaux : analyse statique

Plan en boucle

Plan en référence

22/6/05

28

-

Analyse

à

différents

temps

Profil

d’expression

temporel

:

classification

supervisée

ou

non,

corrélation

de

profils

Cycle

cellulaire,

Cycle

circadien

:

classification,

transformée

de

fourrier,

PLS


t1

t2

t3

t4

R

=

t1 ou asynchrone ou externe

4.

Plans expérimentaux : analyse dynamique

Plan en référence

-

Peng X et al. (2005) Identification of cell cycle
-
regulated genes in fission yeast.
Mol Biol Cell
.
;16(3):1026
-
42

-

Remondini et al. (2005) Targeting c
-
Myc
-
activated genes with a correlation method: Detection
of global changes in large gene expression network dynamics.
Proc Natl Acad Sci U S A
.
10;102(19):6902
-
6.

-

Luan Y & Li H (2004) Model
-
based methods for identifying periodically expressed genes based
on time course microarray gene expression data.
Bioinformatics
. 12;20(3):332
-
9.

22/6/05

29

4.

Plans expérimentaux : analyse dynamique

Plan en boucles répétées

-

Analyse

à

différents

temps

avec

une

covariable

qualitative

:

Effet

d’une

drogue

au

cours

du

temps

:

analyse

statique

à

chaque

temps,

sélection

des

gènes

significatif

pour

50
%

des

temps,

puis

analyse

des

profils

par

classification

t2

control

traitement

t3

control

traitement

t4

control

traitement

t5

control

traitement

t1

control

traitement

-

Lin et al. (2004) Discovery of estrogen receptor alpha target genes and response elements
in breast tumor cells.
Genome Biol
. 2004;5(9):R6.

22/6/05

30

5.

Conclusion


Le

plan

d’expérience

est

primordial

pour

réaliser

les

analyses

statistiques

et

ou

la

modélisation



Toujours

utiliser

des

plans

en

flip
-
flop


Le

modélisateur

doit

être

partie

prenante

dans

la

préparation

des

données

(qualité,

filtration,

normalisation)


22/6/05

31

5. Conclusions

inhibited by sucrose stress

at 50% aa

inhibited by sucrose stress

at 25% aa

Activated by sucrose stress

at 50% aa

Activated by sucrose stress

at 25% aa

Sucrose effect

yjjT

rplS

rpsL

rpsF

trpB

flgB

flgC

yhbZ

yleA

atpH

ftsY

rpmG

ytfN

carB

yba2

mesJ

ydiC

rplF

yheM

mutL

iscU

mopA

argH

yibN

lig

fabB

dcd

fabG

fmt

murB

dnaG

nth

dnaJ

guaC

lipB

yciL

rpmB

fldA

hscA

ygbB

yqhA

fliJ

cvpA

aceE

murG

grpE1

yfgB

phrB

pnp

infB

22/6/05

32

5. Conclusions


Recherche

des

gènes

impliqués

dans

la

réponse

à

un

stress

trophique

chez

Buchnera


Recherche

des

voies

métaboliques

dans

lesquelles

ils

sont

impliqués


Analyse

des

séquences

régulatrices

des

gènes

coexprimés


Détection

d’éléments

régulateurs


Analyse

génomique

et

analyse

de

la

corrélation

entre

le

niveau

d’expression

et

l’organisation

du

génome

de

Buchnera


Détection

de

mécanismes

de

régulation