PrognoChip-BASE: το Γονιδιακό Πληροφοριακό ... - ICS-Forth

yakcombsΒιοτεχνολογία

29 Σεπ 2013 (πριν από 4 χρόνια και 15 μέρες)

110 εμφανίσεις

PrognoChip-BASE: το Γονιδιακό Πληροφοριακό
Σύστημα του PrognoChip
Αναστασία Αναλυτή, Χαρίδημος Κονδυλάκης, Δημήτρης Μανακανάτας, Μάνος
Καλαϊτζάκης, Δημήτρης Πλεξουσάκης
Ινστιτούτο Πληροφορικής, Ίδρυμα Τεχνολογίας & Έρευνας (ΙΤΕ-ΙΠ), Κρήτη
Τμήμα Επιστήμης Υπολογιστών, Πανεπιστήμιο Κρήτης, Κρήτη

Δημήτρης Καφετζόπουλος, Θανάσης Μαργαρίτης, Αναστάσης Ούλας
Ινστιτούτο Μοριακής Βιολογίας & Βιοτεχνολογίας, Ίδρυμα Τεχνολογίας & Έρευνας
(ΙΤΕ-ΙΜΒΒ), Κρήτη


Περιεχόμενα
1

Προδιαγραφές Γονιδιακού Πληροφοριακού Συστήματος.....................................1

2

Αναλυτική Περιγραφή Λειτουργίας του Γονιδιακού ΠΣ.......................................4

2.1

Δημιουργία και Διαχείριση Μικροσυστοιχιών..............................................4

2.2

Διαχείριση Ολιγονουκλεοτιδίων...................................................................6

2.3

Δημιουργία και Διαχείριση Βιολογικών Υλικών..........................................7

2.4

Δημιουργία και Διαχείριση Υβριδοποιήσεων.............................................10

2.5

Δημιουργία και Διαχείριση Πειραμάτων....................................................12

2.6

Δημιουργία και Διαχείριση Χρηστών.........................................................15

2.7

Οδηγίες Χρήσης του Γονιδιακού ΠΣ..........................................................17

3

Υπολογισμός Δεδομένων Γονιδιακής Έκφρασης στο PrognoChip.....................20

3.1

Βασικά στάδια κανονικοποίησης................................................................20

3.2

Ενσωμάτωση Plug-in Κανονικοποίησης στο Γονιδιακό ΠΣ.......................23

3.3

Επικύρωση Αποτελεσμάτων.......................................................................25

3.4

Συζήτηση και Συμπεράσματα.....................................................................27



1 Προδιαγραφές Γονιδιακού Πληροφοριακού Συστήματος
Ο υπέρτατος στόχος του βιοϊατρικού πληροφοριακού έργου PrognoChip είναι ο
εντοπισμός βιολογικών καρκινικών δεικτών για την κατηγοριοποίηση και πρόγνωση του
καρκίνου του μαστού. Αυτό απαιτεί αρχικά την κατανόηση της γενετικής βάσης της
ασθένειας, βάσει των γονιδιακών εκφράσεων των όγκων των ασθενών. Τα πειράματα με
μικροσυστοιχίες DNA παράγουν ένα εξαιρετικά μεγάλο πλήθος δεδομένων που αφορούν
γονιδιακές εκφράσεις. Για τη σωστή ερμηνεία αυτών των δεδομένων έπρεπε να
καταγραφούν σαφείς πληροφορίες για το σχεδιασμό της μικροσυστοιχίας, τα δείγματα,
τον τύπο της μελέτης, τα στάδια του πειράματος, κ.λ.π. Για την καταχώρηση αυτών των
πληροφοριών, υλοποιήθηκε το Γονιδιακό Πληροφοριακό Σύστημα (Γονιδιακό ΠΣ) του
PrognoChip, το οποίο ονομάζεται PrognoChip-BASE. Οι βασικές συνιστώσες του
Γονιδιακού ΠΣ απεικονίζουν τις απαιτήσεις του προτύπου MIAME
1
, καθώς και
επιπρόσθετες απαιτήσεις του PrognoChip. Το Γονιδιακό ΠΣ έχει προκύψει ως επέκταση
του BioArray Software Environment (BASE) 1.2.16 version
2
[16].


1

http://www.mged.org/Workgroups/MIAME/miame.html

2
http://base1.thep.lu.se/

2
Γενικά, τα πειράματα μικροσυστοιχιών συμπληρωματικού DNA (cDNA),
αποτελούνται από δύο δείγματα mRNA (ένα δείγμα αναφοράς και ένα δείγμα υπό
εξέταση). Τα δύο δείγματα μεταγράφονται αντίστροφα σε cDNA και μετά σημαίνονται
χρησιμοποιώντας δύο διαφορετικές φθορίζουσες χρωστικές ουσίες (συνήθως μία
χρωστική ουσία κόκκινου φθορισμού, Cy5, και μια χρωστική ουσία πράσινου
φθορισμού, Cy3). Στη συνεχεία υβριδοποιούνται ταυτόχρονα σε ένα πλακίδιο
μικροσυστοιχίας (array slide) το οποίο περιέχει μια βιβλιοθήκη cDNA. Η σχετική
έκφραση ενός γονιδίου στα δύο δείγματα αναλύεται με τη μέτρηση της αναλογίας των
εντάσεων φθορισμού των δύο χρωστικών ουσιών σε μία συγκεκριμένη κηλίδα (spot)
πάνω στο πλακίδιο μικροσυστοιχίας.
Στο Γονιδιακό ΠΣ, κάθε πείραμα μικροσυστοιχίας αντιστοιχεί σε ένα σύνολο
υβριδοποιήσεων, έτσι ώστε στα πλακίδια μικροσυστοιχίας των υβριδοποιήσεων του
πειράματος να περιέχονται ολιγονουκλεοτίδια από όλο το ανθρώπινο γονιδίωμα.
Συγκεκριμένα, για κάθε πείραμα περιγράφονται:

• το σχέδιο (array design) των πλακιδίων μικροσυστοιχίας των υβριδοποιήσεων του
πειράματος,
• τα ολιγονουκλεοτίδια (reporters) που έχουν τυπωθεί σε κάθε πλακίδιο
μικροσυστοιχίας, καθώς και πληροφορίες σχετικές με αυτά,
• η κατασκευή των πλακιδίων μικροσυστοιχίας (array slides), και το πρωτόκολλο
τύπωσης των ολιγονουκλεοτιδίων,
• τα δείγματα (samples) που χρησιμοποιήθηκαν (καρκινικός και «πρότυπος» ιστός),
• τα εκχυλίσματα (extracts), η ποιότητα και ποσότητα τους, καθώς και το πρωτόκολλο
προετοιμασίας του εκχυλίσματος,
• οι ουσίες σήμανσης (labels),
• τα σημασμένα εκχυλίσματα, η ποιότητα και ποσότητα τους, καθώς και το
πρωτόκολλο σήμανσης,
• οι υβριδοποίησεις (hybridizations) του πειράματος, και συγκεκριμένα για κάθε
υβριδοποίηση: τα σημασμένα εκχυλίσματα και το πλακίδιο μικροσυστοιχίας που
χρησιμοποιήθηκε, το πρωτόκολλο της υβριδοποίησης, οι εικόνες σάρωσης του
αποτελέσματος, και τα αρχικά δεδομένα (raw data) από την ανάλυση των εικόνων
σάρωσης,
• το πείραμα και η συσχέτιση του με το σύνολο αρχικών δεδομένων των
υβριδοποιήσεων του πειράματος.

Η κανονικοποίηση (normalization) των αρχικών δεδομένων των υβριδοποιήσεων ενός
πειράματος γίνεται βάσει συγκεκριμένων διαδικασιών κανονικοποίησης (PrognoChip
normalization procedures) για την παραγωγή ενός τελικού πίνακα γονιδιακής έκφρασης
του καρκινικού ιστού (σε σχέση με τον «πρότυπο» ιστό) ανά διαδικασία
κανονικοποίησης.

Η ροή των εργασιών περιγράφεται στην Εικόνα 1. Το Γονιδιακό ΠΣ τρέχει σε κάποιον
τοπικό εξυπηρετητή (στον οποίο έχει εγκατασταθεί κάποια έκδοση του λειτουργικού
Linux), ενώ πολλαπλοί χρήστες έχουν πρόσβαση σε αυτό μέσω σελίδας του Παγκόσμιου
Ιστού. Συγκεκριμένα, διαφορετικοί χρήστες μπορούν να έχουν διαφορετικά δικαιώματα
πρόσβασης και ανάλογα με την αρμοδιότητα τους να υποβάλλουν πληροφορίες και/ή
επερωτήσεις στο Γονιδιακό ΠΣ. Το Γονιδιακό ΠΣ χρησιμοποιεί για την αποθήκευση των
πληροφοριών μία βάση δεδομένων σε MySql και έχει υλοποιηθεί προγραμματιστικά με
τη χρήση των γλωσσών PHP, Java, Javascript, και C++.
Ο Διαμεσολαβητής του PrognoChip (PrognoChip Mediator) (Εικόνα 2), ο οποίος
ολοκληρώνει το Κλινικό ΠΣ και το Γονιδιακό ΠΣ αποστέλλει στο Γονιδιακό ΠΣ ένα
σύνολο ταυτοτήτων καρκινικών ιστών, το όνομα της επιθυμητής διαδικασίας

3
κανονικοποίησης, καθώς και κριτήρια φιλτραρίσματος πειραμάτων μικροσυστοιχιών και
ολιγονουκλεοτιδίων, όπως καθορίζονται από το χρήστη. Ως απάντηση, το Γονιδιακό ΠΣ
επιστρέφει στο Διαμεσολαβητή τους τελικούς πίνακες γονιδιακής έκφρασης των
καρκινικών ιστών για τα επιλεγμένα ολιγονουκλεοτίδια, όπως προκύπτουν από τη
ζητούμενη διαδικασία κανονικοποίησης, εφόσον οι πίνακες αυτοί προκύπτουν από
πειράματα μικροσυστοιχιών που ικανοποιούν τα δοθέντα κριτήρια φιλτραρίσματος
πειραμάτων.


Εικόνα 1. Ροή εργασιών του Γονιδιακού Πληροφοριακού Συστήματος



Mediator
Findings
Repository
Clinical IS
Data Mining
Tools
Query
Engine
metadata
findings
Submit/search/
update
medical
doctor
(web-based)
Genomic IS
Normalizat ion
Plug-ins
Submit/search/
update
biologist
(client-server
based)
GO database
biomedical
investigator
(web-based)
Visualization
Tools
virtual query
S
p
e
c
i
f
y

p
a
r
a
m
e
t
e
r
s
(
l
o
c
a
l

a
c
c
e
s
s
)
output XML file
store/query findings
local
installation
store administration
& temporary data
Mediator
DB


Εικόνα 2. Το ολοκληρωμένο Κλινικο-Γονιδιακό Περιβάλλον του PrognoChip

4

2 Αναλυτική Περιγραφή Λειτουργίας του Γονιδιακού ΠΣ

Όπως φαίνεται και στην Εικόνα 1, η λειτουργία του Γονιδιακού ΠΣ χωρίζεται σε 3
βασικά κομμάτια που συνδυάζονται μεταξύ τους. Το πρώτο κομμάτι αφορά το σχέδιο
των μικροσυστοιχιών και τα ολιγονουκλεοτίδια που τυπώνονται πάνω σε αυτές (δεξιό
κομμάτι στην Εικόνα 1). Το δεύτερο έχει να κάνει με τη διαχείριση των βιολογικών
υλικών που θα εξεταστούν (πάνω κεντρικό κομμάτι στην Εικόνα 1). Και τέλος, το τρίτο
είναι το κομμάτι της διαχείρισης των υβριδοποιήσεων και των πειραμάτων (κάτω
κεντρικό κομμάτι στην Εικόνα 1). Συγκεκριμένα, το Γονιδιακό ΠΣ διαχειρίζεται (α)
βιολογικά υλικά, όπως δείγματα, εκχυλίσματα, και σημασμένα εκχυλίσματα, (β)
μικροσυστοιχίες και τα ολιγονουκλεοτίδια που τυπώνονται σε αυτά, και (γ)
υβριδοποιήσεις, πειράματα μικροσυστοιχιών (δηλ. σύνολα υβριδοποιήσεων), και
κανονικοποιήσεις.
Ο χρήστης δίνοντας το κατάλληλο όνομα («Login») και κωδικό πρόσβασης («Pass»)
εισέρχεται στην περιοχή του και εκτελεί κάποιες από τις λειτουργίες που ακολουθούν
(Εικόνα 3).


Εικόνα 3.
Αρχική Σελίδα του Γονιδιακού ΠΣ

2.1 Δημιουργία και Διαχείριση Μικροσυστοιχιών
Μέσω του menu επιλογών που εμφανίζεται στο αριστερό μέρος της διεπαφής χρήστη
του Γονιδιακού ΠΣ και πατώντας την επιλογή «Array LIMS», ένα αναδυόμενο menu
(Εικόνα 6) δίνει τις δυνατότητες δημιουργίας (α) σχεδίων μικροσυστοιχιών (array
designs) και (β) πλακιδίων μικροσυστοιχιών (array slides) που ακολουθούν ένα ήδη
δημιουργημένο σχέδιο μικροσυστοιχίας.
Όμως για να μπορέσει να δημιουργηθεί ένα σχέδιο μικροσυστοιχίας αρχικά πρέπει να
φορτωθούν και να αποθηκευτούν στο Γονιδιακό ΠΣ, τα ολιγονουκλεοτίδια (reporters)
που θα τυπωθούν στα αντίστοιχα πλακίδια μικροσυστοιχιών, και οι θέσεις τους στο
σχέδιο (Εικόνα 4). Αυτό γίνεται μέσω κατάλληλου αρχείου που ονομάζεται Reporter
map, η μορφή του οποίου (file format) μπορεί να καθοριστεί μέσω της επιλογής
«Reporter map formats» (Εικόνα 6). Μέσω του αρχείου Reporter map μπορεί επίσης να
γίνει και η εισαγωγή διαφόρων πληροφοριών σχετικών με τα εισαγόμενα νουκλεοτίδια.


5

Εικόνα 4. Δημιουργία Σχεδίου Μικροσυστοιχίας

Αφού γίνει η εισαγωγή των ολιγονουκλεοτιδίων και οριστεί το σχέδιο της
μικροσυστοιχίας, μπορεί πλέον ο χρήστης να καθορίσει τις δεσμίδες πλακιδίων
μικροσυστοιχιών (array batches) που θα ακολουθήσουν το δημιουργημένο σχέδιο. Στη
συνέχεια καθορίζονται τα πλακίδια μικροσυστοιχιών (array slides), κάθε
δημιουργημένης δεσμίδας πλακιδίων (Εικόνα 5).


Εικόνα 5. Δημιουργία Δεσμίδας Πλακιδίων

Τα ήδη καταχωρημένα σχέδια μικροσυστοιχιών (αντίστοιχα, δεσμίδες πλακιδίων
μικροσυστοιχιών και πλακίδια μικροσυστοιχιών) φαίνονται στον πίνακα που εμφανίζεται
πατώντας την επιλογή «Array Designs» (αντίστοιχα, «Array Batches» και «Array
Slides») (Εικόνα 6). Επιλέγοντας κάποιο από αυτά μεταφερόμαστε στη σελίδα «View
Array Design» (αντίστοιχα, «View Array Batch» και «View Array Slide») με
περιληπτικές πληροφορίες για το επιλεγμένο σχέδιο μικροσυστοιχίας, οι οποίες οδηγούν
πατώντας τες στις αντίστοιχες σελίδες πληροφοριών.


6

Εικόνα 6. Προβολή Σχεδίου Μικροσυστοιχίας
2.2 Διαχείριση Ολιγονουκλεοτιδίων
Αφού φορτωθούν και αποθηκευτούν στο Γονιδιακό ΠΣ, τα ολιγονουκλεοτίδια
(reporters) που θα τυπωθούν στις μικροσυστοιχίες καθώς και οι πληροφορίες τους, ο
χρήστης μπορεί να επιθεωρήσει και να ενημερώσει αυτές τις πληροφορίες, μέσω της
επιλογής «Reporters» στο αρχικό menu επιλογών που εμφανίζεται στο αριστερό μέρος
της διεπαφής χρήστη του Γονιδιακού ΠΣ. Συγκεκριμένα, πατώντας την επιλογή
«Reporters», εμφανίζεται ένα αναδυόμενο menu με 3 επιλογές (Εικόνα 7): Reporters,
Update from file, και Reporter file formats.
Με την πρώτη επιλογή, «Reporters», εμφανίζονται πληροφορίες σχετικές με τα
ολιγονουκλεοτίδια που έχουν ήδη εισαχθεί στο σύστημα (π.χ. τα αναγνωριστικά
(identifiers) των ολιγονουκλεοτιδίων σε γνωστές βάσεις, όπως Ensemble
3
και
EMBL
4
/
GenBank). Ιδιαίτερο ενδιαφέρον παρουσιάζουν οι σχολιασμοί των
ολιγονουκλεοτιδίων με αναγνωριστικά της Gene Ontology (GO)
5
, τα οποία
αποκαλούνται GO ids. Αυτά δηλώνουν (α) τις βιολογικές διεργασίες (GO Biological
Process) στις οποίες συμμετέχουν τα προϊόντα των γονιδίων (gene products), των οποίων
μέρος είναι το εκάστοτε ολιγονουκλεοτίδιο, (β) τη μοριακή λειτουργία (GO Molecular
Function) που εκτελούν αυτά τα προϊόντα γονιδίων, και (γ) το τμήμα του κυττάρου (GO
Cellular Component) στο οποίο δρούν. Κάθε σχολιασμός του ολιγονουκλεοτιδίου στην
Gene Ontology μπορεί να συνοδεύεται και από έναν κωδικό απόδειξης (evidence code)
(Εικόνα 8), ο οποίος παρέχει κάποιες πληροφορίες σχετικές με την ορθότητα του
σχολιασμού. Επίσης, δίνεται η δυνατότητα να εμφανίζεται ένα συγκεκριμένο σύνολο
ολιγονουκλεοτιδίων, φιλτράροντας το σύνολο αυτών με τα κατάλληλα κριτήρια που θέτει
ο χρήστης (Εικόνα 7).


3
http://www.ensembl.org
4
http://www.ebi.ac.uk/embl/
5
http://www.geneontology.org/

7
Με τη δεύτερη επιλογή, «Update from file», γίνεται ενημέρωση των πληροφοριών των
ολιγονουκλεοτιδίων που ήδη υπάρχουν στο σύστημα, μέσω κατάλληλου αρχείου. Η
μορφή αυτού του αρχείου μπορεί να καθοριστεί μέσω της τρίτης επιλογής, «Reporter file
formats».


Εικόνα 7.
Διαχείριση Ολιγονουκλεοτιδίων


Εικόνα 8. Σχολιασμός Ολιγονουκλεοτιδίων στην Gene Ontology
2.3 Δημιουργία και Διαχείριση Βιολογικών Υλικών
Στο κομμάτι αυτό του Γονιδιακού ΠΣ γίνεται η αποθήκευση και διαχείριση των
στοιχείων που αφορούν τους καρκινικούς και «πρότυπους» ιστούς που θα
χρησιμοποιηθούν στα πειράματα. Μέσω της επιλογής «Samples», του αναδυόμενου
menu «Biomaterials» (Εικόνα 9), γίνονται ορατά στο χρήστη τα δείγματα (samples) που
έχουν ήδη καταχωρηθεί, μαζί με τα εκχυλίσματα (extracts) που προέκυψαν από αυτά και
τις υβριδοποιήσεις στις οποίες χρησιμοποιήθηκαν (hybridizations). Η επιλογή αυτή δίνει
τη δυνατότητα στο χρήστη να φιλτράρει με διάφορα κριτήρια το σύνολο των δειγμάτων
που θα εμφανιστούν στην οθόνη. Επίσης, ο χρήστης μπορεί να εισάγει στοιχεία για ένα
νέο δείγμα μέσω της επιλογής «Add sample».

8
Μέσω της επιλογής «Sample annotations» (Εικόνα 9), ο χρήστης μπορεί να
δημιουργήσει νέους τύπους σχολιασμών δειγμάτων, όπως η πηγή (source) (δηλ. το όνομα
του νοσοκομείου) των δειγμάτων.
Όμοια με τα δείγματα, μέσω των επιλογών «Extracts» και «Labeled Extracts», μπορεί
κάποιος να εισάγει και να διαχειριστεί τόσο τα εκχυλίσματα όσο και τα σημασμένα
εκχυλίσματα αυτών των δειγμάτων. Ιδιαίτερο ενδιαφέρον στη φόρμα Εκχυλίσματος
(Εικόνα 10) παρουσιάζουν τα πεδία: (α) 260/280 absorbance ratio, το οποίο δηλώνει
αναλογία απορροφητικότητας του εκχυλίσματος στα 260 nm και 280 nm, (β)
Distant/Proximal, το οποίο καθορίζει εάν το δείγμα είναι διασπασμένο (degraded) ή όχι,
και (γ) Quantity Amplified/Quantity Used, το οποίο είναι μία αναλογία που δηλώνει την
ικανότητα πολλαπλασιασμού του εκχυλίσματος. Επίσης, μέσω της φόρμας αυτής δίνεται
η δυνατότητα στο χρήστη να φορτώσει εικόνες ηλεκτροφόρησης σε gel και οι οποίες
αποτελούν μέτρο ποιότητας του RNA του δείγματος.


Εικόνα 9
. Διαχείριση Βιολογικών Υλικών


Εικόνα 10
. Δημιουργία Εκχυλίσματος

9

Για να είναι εφικτή η εισαγωγή ενός σημασμένου εκχυλίσματος πρέπει πρώτα να
καταχωρηθούν οι ουσίες σήμανσης που θα χρησιμοποιηθούν. Αυτό γίνεται μέσω της
επιλογής «Labels» (Εικόνα 11). Να αναφέρουμε ότι στη φόρμα δημιουργίας Σημασμένου
Εκχυλίσματος (Εικόνα 12), εμφανίζεται το πεδίο Base-to-Dye Ratio και τα πεδία δήλωσης
απορροφητικότητας 260, 280, 545 και 645 (nm), τα οποία δηλώνουν την επεκτασιμότητα
της σήμανσης. Επίσης, εμφανίζεται το πεδίο Quality, το οποίο δηλώνει την ποιότητα του
σημασμένου εκχυλίσατος.
Τέλος, μέσω της επιλογής «Protocols», είναι δυνατόν να οριστούν διάφορα
πρωτόκολλα τα οποία δηλώνουν τον τρόπο δημιουργίας των εκχυλισμάτων και τον τρόπο
σήμανσης τους.


Εικόνα 11
. Διαχείριση Ουσιών Σήμανσης



Εικόνα 12
. Δημιουργία Σημασμένου Εκχυλίσματος

10
2.4 Δημιουργία και Διαχείριση Υβριδοποιήσεων
Μέσω του αναδυόμενου menu που προκύπτει πατώντας την επιλογή «Hybridizations»,
ο χρήστης μπορεί να διαχειριστεί το κάτω κεντρικό κομμάτι στη ροή εργασιών του
Γονιδιακού ΠΣ (Εικόνα 1), τις υβριδοποιήσεις (hybridizations). Οι υβριδοποιήσεις
παίζουν σημαντικό ρόλο στο Γονιδιακό ΠΣ αφού συνδέουν τα δείγματα με τα πλακίδια
μικροσυστοιχίας.
Κάθε υβριδοποίηση στο Γονιδιακό ΠΣ αναπαριστά μία φυσική υβριδοποίηση που
πραγματοποιείται στο εργαστήριο και μπορεί να συσχετιστεί με δύο ή περισσότερα
σημασμένα εκχυλίσματα, καθώς και με ένα πλακίδιο μικροσυστοιχίας (Εικόνα 13). Κάθε
υβριδοποίηση μπορεί επίσης να συσχετιστεί με μία ή περισσότερες σαρώσεις (scans). Οι
σχετικές με τη σάρωση πληροφορίες, όπως το μηχάνημα της σάρωσης, η παραγόμενη
εικόνα σάρωσης ανά κανάλι, και τα αρχικά δεδομένα από την ανάλυση των εικόνων
σάρωσης (raw data sets ή result files), μπορούν να εισαχθούν μέσω της φόρμας «New
Scan» (Εικόνα 15). Λόγω του ότι κάθε εικόνα σάρωσης μπορεί να αναλυθεί από
διαφορετικά λογισμικά ανάλυσης εικόνων (feature extraction software), σε κάθε σάρωση
(scan) μπορούν να αντιστοιχηθούν περισσότερα από ένα raw data set . Οι παραπάνω
πληροφορίες μπορούν να διαχειριστούν από το χρήστη μέσω των σελίδων που
προκύπτουν, πατώντας τις αντίστοιχες επιλογές του αριστερού Menu (Εικόνα 16). Εδώ
πρέπει να τονίσουμε ότι φορτώνοντας ένα raw data set εισάγονται στο σύστημα και τα
ολιγονουκλεοτίδια (reporters) (με τις πληροφορίες τους) που δεν έχουν ήδη εισαχθεί
6
.


Εικόνα 13
. Συσχέτιση Υβριδοποίησης
με Πλακίδια Μικροσυστοιχίας


Οι ήδη καταχωρημένες υβριδοποιήσεις φαίνονται στον πίνακα που εμφανίζεται
πατώντας την επιλογή «Hybridizations». Επιλέγοντας κάποια από τις υβριδοποιήσεις της
λίστας μεταφερόμαστε στη σελίδα «View hybridization» με περιληπτικές πληροφορίες
για την επιλεγμένη υβριδοποίηση (Εικόνα 16), οι οποίες οδηγούν πατώντας τες στις
αντίστοιχες σελίδες πληροφοριών.
Ιδιαίτερο ενδιαφέρον παρουσιάζει η επιλογή «Mass data import» (Εικόνα 13), η οποία
δίνει τη δυνατότητα στο χρήστη να αποθηκεύσει γρήγορα και απλά στο Γονιδιακό ΠΣ τα
αποτελέσματα μίας εργαστηριακής υβριδοποίησης, εξοικονομώντας έτσι αρκετό χρόνο.


6
Εδώ δεν γίνεται ενημέρωση των παλιών πληροφοριών αλλά μόνο εισαγωγή των νέων.

11
Συγκεκριμένα, μέσω της φόρμας που φαίνεται στην Εικόνα 14, ο χρήστης μπορεί να
δημιουργήσει δείγματα, εκχυλίσματα, σημασμένα εκχυλίσματα, υβριδοποιήσεις, καθώς
και να φορτώσει τα αρχικά δεδομένα από την ανάλυση των εικόνων σάρωσης (raw data
sets ή result files).


Εικόνα 14
. Φόρτωση αποτελεσμάτων μέσω «Mass Data Import»


12

Εικόνα 15
. Δημιουργία Σάρωσης



Εικόνα 16
. Προβολή Υβριδοποίησης
2.5 Δημιουργία και Διαχείριση Πειραμάτων
Ένα πείραμα είναι μία συλλογή από αρχικά δεδομένα ανάλυσης εικόνων σάρωσης
(raw data sets) και συνοδεύεται από διαδοχικά βήματα ανάλυσης αυτών. Έτσι λοιπόν
πριν δημιουργηθεί ένα πείραμα πρέπει να έχουν αποθηκευτεί στο σύστημα τα αρχικά
δεδομένα από την ανάλυση των εικόνων σάρωσης. Μέσω της επιλογής «Experiments»
(Εικόνα 17), μεταβαίνουμε στη σελίδα που φαίνονται όλα τα αποθηκευμένα πειράματα.
Μέσα από τη σελίδα αυτή μπορούμε επίσης να δημιουργήσουμε ένα καινούργιο πείραμα
Κάθε υβριδοποίηση μπορεί να
έχει περισσότερες από μία
σαρώσεις, λόγω διαφορετικών
Scanner
Προαιρετικό:Προσθήκη
εικόνων σάρωσης

Ξεχωριστή εικόνα ανά κανάλι


13
(«Add experiment») ή να επιλέξουμε για να δούμε και να τροποποιήσουμε κάποιο από τα
ήδη υπάρχοντα.


Εικόνα 17
. Διαχείριση Πειραμάτων

Τα πειράματα που συμμετέχουν στη μελέτη του PrognoChip μαρκάρονται με τη
βοήθεια ειδικής ένδειξης (flag) με το όνομα study experiments (Εικόνα 18). Για αυτά τα
πειράματα, τα οποία αποκαλούνται study experiments, εξετάζεται τόσο εάν
χρησιμοποιείται το ίδιο καρκινικό και «πρότυπο» δείγμα σε όλες τις υβριδοποιήσεις των
raw data sets του πειράματος, όσο και εάν τα σχέδια των μικροσυστοιχιών που
συμμετέχουν στις υβριδοποιήσεις αυτές είναι διαφορετικά.


Εικόνα 18 Δημιουργία Πειράματος


Η ανάθεση των αρχικών δεδομένων ανάλυσης εικόνων σάρωσης (raw data sets) σε
ένα πείραμα, γίνεται μέσω της επιλογής “Raw data sets” (Εικόνα 19).


14

Εικόνα 19
.
Ανάθεση Αρχικών Δεδομένων σε ένα Πείραμα

Επιλέγοντας κάποιο από τα πειράματα (Εικόνα 17), μπορούμε να δούμε τόσο
πληροφορίες που αφορούν το συγκεκριμένο πείραμα (Εικόνα 20) όσο και να αναλύσουμε
τα αρχικά δεδομένα που του αντιστοιχούν. Συγκεκριμένα μετά τη δημιουργία ενός
πειράματος και την ανάθεση σε αυτό των αρχικών δεδομένων, πρέπει να δημιουργηθεί
ένα BioAssaySet με το όνομα PrognoChip, όπως φαίνεται στην Εικόνα 21.


Εικόνα 20
. Διαχείριση Πειράματος


15

Εικόνα 21
. Δημιουργία BioAssaySet με το όνομα PrognoChip

Ιδιαίτερο ενδιαφέρον παρουσιάζει η επιλογή «Analysis steps» (Εικόνα 20). Μέσω
αυτής της σελίδας, ο χρήστης μπορεί να κανονικοποιήσει με διάφορες μεθόδους
κανονικοποίησης τα αρχικά δεδομένα και να εξάγει τα τελικά αποτελέσματα, τόσο σε
αρχεία κειμένου όσο και γραφικά στην οθόνη (Εικόνα 22). Οι μέθοδοι κανονικοποίησης
που θα χρησιμοποιηθούν καθορίζονται μέσω της σελίδας που προκύπτει πατώντας την
επιλογή «Plug-ins», στο αριστερό μέρος της διεπαφής χρήστη του Γονιδιακού ΠΣ
(Εικόνα 23). Για τις ανάγκες του PrognoChip, έχει εγκατασταθεί το plug-in
κανονικοποίησης Print-tip Loess – no Background Correction, το οποίο αναπτύχθηκε
από το πανεπιστήμιο της Uppsala (Εικόνα 23). Περισσότερες πληροφορίες για το
συγκεκριμένο Plug-in δίνονται στο Κεφάλαιο 3.
Οι γονιδιακές εκφράσεις των καρκινικών ιστών, οι οποίες θα συσχετιστούν με τα
αντίστοιχα κλινικά δεδομένα του ασθενή στο ολοκληρωμένο Κλινικο-Γονιδιακό
Περιβάλλον του PrognoChip, είναι το τελικό αποτέλεσμα συγκεκριμένων διαδικασιών
κανονικοποίησης (PrognoChip normalization procedures), οι οποίες ορίζονται ως
σταθερές ακολουθίες από καλέσματα plug-in κανονικοποιήσης, με πλήρη ορισμό των
παραμέτρων τους.
2.6 Δημιουργία και Διαχείριση Χρηστών
Το Γονιδιακό ΠΣ υποστηρίζει την πρόσβαση σε πολλούς χρήστες με διαφορετικές
άδειες στον καθένα. Ο διαχειριστής του Γονιδιακού ΠΣ μπορεί, μέσω του menu που
προκύπτει πατώντας την επιλογή «Users», να δημιουργήσει και να διαχειριστεί το
σύνολο των χρηστών του συστήματος (Εικόνα 24). Επίσης μέσω της επιλογής «My
account», ο κάθε χρήστης ξεχωριστά μπορεί να τροποποιήσει τις πληροφορίες του
λογαριασμού του (π.χ. όνομα χρήστη, κωδικό πρόσβασης). Με αυτό τον τρόπο
εξασφαλίζεται η ασφάλεια του Γονιδιακού ΠΣ.


16

Εικόνα 22
. Διαχείριση Πειραμάτων – Βήματα Ανάλυσης



Εικόνα 23
. Print-tip Loess – no Background Correction plug-in


17

Εικόνα 24
. Διαχείριση Χρηστών
2.7 Οδηγίες Χρήσης του Γονιδιακού ΠΣ
Ένα ενδιαφέρον κομμάτι του Γονιδιακού ΠΣ είναι η σελίδα που προκύπτει πατώντας
την επιλογή «Guidelines». Μέσα στη σελίδα αυτή οι χρήστες μπορούν να βρούν
χρήσιμες οδηγίες για τη σωστή χρήση του Γονιδιακού ΠΣ. Επίσης μπορούν να
προσθέσουν και άλλες χρήσιμες επισημάνσεις για τους υπόλοιπους χρήστες του
συστήματος. Ακολουθεί ο πίνακας με το σύνολο των οδηγιών που έχουν καταχωρηθεί
στο Γονιδιακό ΠΣ.


1. The Array Designs corresponding to the Raw Data Sets assigned to a PrognoChip Experiment
should be pairwise different

The Array Designs corresponding to the Raw Data Sets assigned to a PrognoChip Experiment
should be pairwise different. Additionally, all Raw Data Sets assigned to a PrognoChip
Experiment should have an associated Array Design.

If this constraint is not satisfied a WARNING is displayed.


2. One Sample per Label in a PrognoChip Experiment

There should be no more than one Sample per Label in a PrognoChip Experiment.
If this constraint is not satisfied a WARNING is displayed.


3. One Cancerous Sample per PrognoChip Experiment

Each cancerous Sample should not participate in more than one PrognoChip Experiment.

NO WARNING is displayed if this constraint is not satisfied.


4. The dates of all Hybridizations of a PrognoChip Experiment should be inserted

The dates of all Hybridizations of a PrognoChip Experiment should be inserted. This is because
the field “Hybridization date” participates in the PrognoChip mediator queries.

This is a HARD constraint.

18

5. Cancerous Sample prefixes

The Sample Name of each PAGNH patient should have the prefix PAGN_. Additionally, the
Sample Name of each PROLIPSIS patient should have the prefix PROL_.

NO WARNING is displayed if this constraint is not satisfied.

6. GO Annotations for Reporters

Biological Process, Molecular Function, and Cellular Component GO Annotations should be
given as semicolon (;) separated strings of the following form:

GO_id | GO_name | evidence_code.

However, any part (i.e. "| evidence_code" ) is optional.

For example, all of the following forms are valid:

- GO:0006928|cell motility|IMP; GO:0005515|protein binding|IC

- GO:0006928|cell motility; GO:0005515|protein binding|IC

- GO:0006928; GO:0005515|protein binding|IC

- |cell motility|IMP; GO:0005515|protein binding|IC

- |cell motility|; GO:0005515|protein binding|IC

- |cell motility; GO:0005515|protein binding|IC

7. All BioAssaySets in each PrognoChip Experiment should have distinct names

All BioAssaySets in each PrognoChip Experiment should have distinct names.

If this constraint is not satisfied a WARNING is displayed.

19

8. PrognoChip (Print-tip Loess – No Background Correction) Normalization Procedure

The main normalization procedure that will be used in PrognoChip is called “PrognoChip”, and
corresponds to the “Print-tip Loess – No Background Correction” normalization procedure. To
specify that the raw data sets of an experiment will be normalized, according to the PrognoChip
normalization procedure, the top BioAssaySet in the “Raw data sets” tab of the currect
experiment should have the name “PrognoChip”. Additionally, the item “Median FG- Median
BG” should be selected from the menu at the right.

After clicking on the “Go” button, click on the rightmost button at the line of the BioAssaySet
“PrognoChip”. Then, from the “Select a plug-in to run” menu, select the plug-in “PrintTipLoess-
NoBgCorrection”. Set the parameters of the plug-in as follows:

1) Select the desirable normalization method, i.e. one of:
-Median
- Global loess
- Print-tip loess
- Composite
- Robust spline
2) Change “Specify array layout dimensions” to: “yes”

3) Set the dimensions of the array. Product of dimensions should equal to the number
of reporters for the experiment, i.e. for 9216 reporters:


4) It is also possible to assign weights. The weights simply indicate how much the
flagged spots should affect the normalization. 0 means that they are not included at all. It
works like this:
- If you want to use flag weights then change “Associate quality weights with flag
values?” to: “yes”.
- Flags are given as comma separated strings. If, for example, you want to give the
weight 0.25 to spots with flags -50 and -100, then type -50,-100 in the correct box.
All the flags that are not specified get the weight 1. This only works if the necessary
flag information is available for all spots.

General plug-in facts

If you are interested in the data of a given print-tip group, you can apply a “filter” with a specific
'block' value to get all the data points of one group. This only works if the correct block data has
been imported from the raw data file. It is also possible to view a more detailed histogram of all
the print-tip groups through the HTML plot tool.

Plug-ins work with NaN values in channel intensities.



20
3 Υπολογισμός Δεδομένων Γονιδιακής Έκφρασης στο PrognoChip

Οι πηγές τυχαίας (πειραματικής), όπως επίσης και συστηματικής διακύμανσης, στα
πειράματα με μικροσυστοιχίες DNA κυμαίνονται από τις απλές διαφορές που
παρατηρούνται στην αποτελεσματικότητα της σήμανσης μεταξύ χρωστικών φθορισμού,
ως τις πιο σύνθετες χωρικές και εντασο-εξαρτώμενες ανομοιότητες σε πειράματα με
μικροσυστοιχίες DNA.

Διακυμάνσεις κατά τη σήμανση με φθορισμό
Από τη σήμανση με χρωστικές ουσίες μπορούν να προκύψουν σημαντικές συστηματικές
διακυμάνσεις. Οι διαφορές αυτές προκύπτουν από: (α) τις φυσικές και χημικές ιδιότητες
των χρωστικών ουσιών, π.χ. οι Cy3 και Cy5, μπορούν να παρουσιάσουν διαφορετικές
κβαντικές αποδόσεις, (β) τον ανιχνευτή, ο οποίος μπορεί να παρουσιάσει διαφορετική
απόδοση στις ουσίες Cy3 και Cy5, και (γ) τις διαφορετικές μεθόδους σήμανσης, οι
οποίες μπορούν να επηρεάσουν τις μετρήσεις, γιατί ορισμένες χρωστικές προσδένονται
επιλεκτικά σε κάποια γονίδια, δημιουργώντας μεγαλύτερο σήμα για τα γονίδια αυτά.
Αυτού του είδους η διακύμανση είθισται να αντιμετωπίζεται με αντιστροφή των
χρωστικών στα δείγματα.
3.1 Βασικά στάδια κανονικοποίησης
Δύο είναι τα κύρια στάδια που πρέπει να εξεταστούν κατά το σχεδιασμό μίας
στρατηγικής κανονικοποίησης. Αυτά είναι: (α) η επιλογή και βαθμονόμηση των
δεδομένων που προκύπτουν από εκείνα τα γονίδια που είναι γνωστό ότι δεν
επηρεάζονται από τις συγκεκριμένες πειραματικές συνθήκες (αμετάβλητα γονίδια), και
(β) η επιλογή μίας σταθεράς ή μίας συνάρτησης κανονικοποίησης χρησιμοποιώντας το
σύνολο των "αμετάβλητων" γονιδίων από το στάδιο (α).

Επιλογή των "αμετάβλητων" γονιδίων
Διάφορες μέθοδοι έχουν αναπτυχθεί για την επιλογή μιας κατάλληλης ομάδας γονιδίων
που θα χρησιμοποιηθεί για την κανονικοποίηση:
(α) Μία από τις μεθόδους αυτές απαιτεί τη χρήση όλων των γονίδιων (Global) του
πλακιδίου της μικροσυστοιχίας. Αυτή η προσέγγιση έχει αποδειχθεί επιτυχής σε
συστοιχίες οι οποίες αντιπροσωπεύουν ολόκληρα γονιδιώματα και αποτελούνται από
τουλάχιστον 5.000 γονίδια. Υπό αυτή την προϋπόθεση μόνο ένα πολύ μικρό δείγμα των
γονιδίων (<10%) αναμένεται να διαφοροποιήσει την έκφραση του υπό διαφορετικές
πειραματικές συνθήκες [1-4].
(β) Μια δεύτερη μέθοδος κανονικοποίησης δεδομένων επιλέγει μόνο γονίδια διαχείρισης
(Housekeeping genes). Αυτά τα γονίδια θεωρείται ότι διατηρούν την έκφραση τους
σταθερή κάτω από διαφορετικές πειραματικές συνθήκες και ως εκ τούτου μπορούν να
αποτελέσουν μία αποδοτική ομάδα γονιδίων για την εξάλειψη της συστηματικής
διακύμανσης. Ωστόσο, πρόσφατες μελέτες έχουν δείξει ότι τα γονίδια αυτά μπορεί να
έχουν σημαντικές διακυμάνσεις στην έκφραση τους και επομένως η χρήση τους
ενδέχεται να οδηγήσει σε ανακριβή αποτελέσματα [5, 6]. Επιπλέον, ο αριθμός και οι
τιμές έκφρασης αυτών των γονιδίων μπορεί να μην καλύπτουν όλο το φάσμα των
εντάσεων, με αποτέλεσμα να μην αναπαριστούν το συνολικό αμετάβλητο στα δεδομένα
γονιδιακής έκφρασης.

Επιλογή μιας σταθεράς ή μίας συνάρτησης για κανονικοποίηση
Το επόμενο στάδιο της κανονικοποίησης μπορεί να εφαρμοστεί σε όλα ή ένα επιλεγμένο
σύνολο αμετάβλητων γονιδίων. Αυτό περιλαμβάνει την επιλογή μίας σταθεράς,

21
προκείμενου να εφαρμοστεί η γραμμική κανονικοποίηση (Linear), ή τη χρήση μίας
συνάρτησης, για μία μη-γραμμική προσέγγιση κανονικοποίησης.
Συνήθως τα δεδομένα παρουσιάζονται χρησιμοποιώντας τις γραφικές παραστάσεις
αποκαλούμενες MA-plots, οι οποίες επιδεικνύουν μία οριζοντίως ευθυγραμμισμένη
διασπορά (π.χ. μία δεξιόστροφη περιστροφή 45° του λογαριθμικού συστήματος
συντεταγμένων). Τα MA-plots προσφέρουν μία πολύ διαφωτιστική προσέγγιση για την
ανίχνευση της μη-γραμμικότητας και για τις διακυμάνσεις, οι οποίες είναι εξαρτώμενες
από την ένταση (Intensity-dependent).
Το M αντιπροσωπεύει το λογάριθμο της αναλογίας των δύο χρωστικών ουσιών (M =
log
2
R/G) και το A το λογάριθμο της συνολικής έντασης κάθε στοιχείου (A = log
2
√(R x
G)) [7, 8]. Ειδικότερα, το R (red) και G (green) χρησιμοποιούνται για να
αντιπροσωπεύσουν τα δείγματα παρακολούθησης (καρκινικός ιστός) και αναφοράς
(«πρότυπος» ιστός), αντίστοιχα.

Ολική κανονικοποίηση έντασης
Αυτή η προσέγγιση είναι μία γραμμική μέθοδος κανονικοποίησης και υποθέτει ότι οι
κόκκινες και πράσινες εντάσεις συνδέονται με ένα σταθερό παράγοντα, π.χ. R = kG και
το κέντρο της κατανομής της λογαριθμικής αναλογίας μετατοπίζεται προς το μηδέν,
log
2
R/G → log
2
R/G – c = log
2
R/(kG).

Η σταθερά c= log
2
k συχνά επιλέγεται να είναι η διάμεσος ή ο μέσος όρος των
λογαριθμικών αναλογιών έντασης για μία συγκεκριμένη ομάδα γονιδίων. Πρόσφατες
μελέτες [1, 9, 10] δείχνουν ότι υπάρχει μία εντασο-εξαρτώμενη διακύμανση μέσα στις
log
2
(ratio) τιμές. Αυτή η μέθοδος δεν λαμβάνει υπόψη τέτοιου είδους διακυμάνσεις ή
ανομοιότητες που οφείλονται στην τοποθεσία του κάθε spot μέσα στη μικροσυστοιχία.

Εντασο-εξαρτώμενη κανονικοποίηση
Η μέθοδος κανονικοποίησης loess (Locally weighted linear regression) [2] έχει την
ικανότητα να αφαιρεί το θόρυβο που επέρχεται ως αποτέλεσμα της έντασης μέσα στις
log
2
(ratio) τιμές,
log
2
R/G → log
2
R/G – c(A) = log
2
R/[k(A)G],

όπου c(A) είναι η loess προσέγγιση στις τοπικές γραμμικές προσεγγίσεις. Η loess
πραγματοποιεί αξιόπιστες τοπικές γραμμικές προσεγγίσεις και δεν επηρεάζεται από τα
γονίδια με διαφοροποιημένη έκφραση που θα εμφανιστούν ως μεμονωμένες περιπτώσεις
στην MA-plot. Η loess δίνει τη δυνατότητα στο χρήστη να ορίσει το μέγεθος του
παράθυρου με το οποίο θα σαρωθούν τα δεδομένα που θα χρησιμοποιηθούν για την
εξομάλυνση. Όσο μεγαλύτερο είναι το μέγεθος του παράθυρου τόσο πιο ομαλή θα είναι
η προσέγγιση. Τυπικά το μέγεθος ενός τέτοιου παράθυρου περιέχει συνήθως το 30-40%
των δεδομένων.

Ολική έναντι τοπικής κανονικοποίησης
Οι περισσότεροι αλγόριθμοι κανονικοποίησης, όπως και η loess, μπορούν να
εφαρμοστούν είτε συνολικά (σε ολόκληρο το σύνολο των στοιχείων) είτε τοπικά (σε
κάποιο φυσικό υποσύνολο των στοιχείων) [11]. Για τα spotted arrays, η τοπική
κανονικοποίηση εφαρμόζεται συχνά σε κάθε ομάδα στοιχείων της συστοιχίας που είναι
τοποθετημένα από μία και μόνο «spotting pen» (συχνά καλείται και ως «pen group» ή
«print-tip group»). Αυτή είναι γνωστή ως print-tip group κανονικοποίηση.





22
Print-tip group κανονικοποίηση
Αυτές οι μέθοδοι κανονικοποίησης επιτρέπουν την κανονικοποίηση στο χώρο (εντός των
print-tips), όπως επίσης και την εντασο-εξαρτώμενη κανονικοποίηση:
log
2
R/G → log
2
R/G – c
i
(A) = log
2
R/[k
i
(A)G],

όπου c
i
(A) είναι η loess προσέγγιση στο MA-plot για το i-στο print tip group, με i = 1, ...,
I (το Ι προσδιορίζει τον αριθμό των print-tip groups).

Τα ζητήματα κανονικοποίησης που διερευνώνται σε αυτή την αναφορά αφορούν την
within-slide κανονικοποίηση. Όπως αναφέρθηκε νωρίτερα οι συστηματικές διακυμάνσεις
αποδίδονται στην πηγή μεροληπτικότητας που προέρχεται από τις χρωστικές ουσίες. Οι
μέθοδοι κανονικοποίησης ολικής έντασης υποθέτουν ότι όλα τα είδη cDNA μέσα σε ένα
δείγμα απορροφούν ίση ποσότητα βαφής ανά mole cDNA και ότι άλλες παράμετροι,
όπως η χωροθέτηση και η συνολική ένταση, δεν συμβάλουν στην απόκλιση λόγω βαφής
εντός του slide. Αυτή η προσέγγιση είναι υπερ-απλουστευμένη όταν έχουμε να
αντιμετωπίσουμε πολλών ειδών συστηματικά λάθη που σχετίζονται με πειράματα
μικροσυστοιχίας. Οι ανομοιογένειες αυτές γίνονται εμφανείς στα self-self πειράματα,
όπως αυτά περιγράφονται από τους Dudoit et al 2002 [12]. Ένα άλλο πείραμα το οποίο
χρησιμοποιεί apo AI knockout και άγριου τύπου ποντίκια [13] αποδεικνύει ότι υπάρχει
μία εντασο-εξαρτώμενη εύνοια (bias) προερχόμενη από τη χρωστική ουσία, όπως μπορεί
να παρατηρηθεί από την MA-plot (Εικόνα 25 – προσαρμογή από τους Yang et al, 2002
[10]).




Εικόνα 25. Within-slide κανονικοποίηση. (Α) Η ανάγκη για within-print tip group
κανονικοποίηση γίνεται εμφανής από την MA-plot. (Β) Το γράφημα της MA-plot μετά από την
within-print tip group κανονικοποίηση. Και τα δύο γραφήματα παρουσιάζουν τις loess
προσεγγίσεις (f = 40%), για κάθε ένα από τα 16 print-tip groups.

Οι διαφορές που παρατηρούνται στα print-tips μπορεί να υφίστανται εξαιτίας των
μικρών αποκλίσεων στη διάμετρο του ανοίγματος του tip, όπως επίσης και στη σχετική
αλλοίωση μετά από πολύωρη εκτύπωση (printing). Οι συστοιχίες στο πείραμα apo AI
τυπώθηκαν με μία κεφαλή 4 X 4 print-tips. Mε αυτόν τον τρόπο κάθε loess προσέγγιση
στην Εικόνα 25 ανταποκρίνεται στα spots (κηλίδες) που τυπώθηκαν με ένα και μόνο
print-tip.

23
Τα boxplot γραφήματα των λογαριθμικών λόγων του Μ για κάθε print-tip group
δείχνουν ότι τα print-tip groups από 13 ως 16 έχουν τη μεγαλύτερη διασπορά στους
λόγους των λογαρίθμων τους (Εικόνα 26Α και 26Β). Τέτοιες διαφορές στη διασπορά
μπορεί να οδηγήσουν σε παρεκκλίνουσα πρόβλεψη των γονιδίων που εκφράζονται
διαφοροποιημένα μεταξύ ποντικών με εξάλειψη γονιδίου (knockout) και ποντικών
ελέγχου. Αυτό είναι ενδεικτικό της αναγκαιότητας για διαβαθμισμένη κανονικοποίηση ή
κανονικοποίηση κλίμακας (scale) των print-tip groups (Εικόνα 26C).





Εικόνα 26. Within-slide κανονικοποίηση. Τα boxplot γραφήματα εμφανίζουν την κατανομή του
λογαριθμικού λόγου έντασης για κάθε ένα από τα 16 print-tip groups πρίν και μετά από
διαφορετικές διαδικασίες κανονικοποίησης. Η μικροσυστοιχία τυπώθηκε χρησιμοποιώντας μία 4
x 4 κεφαλή και τα print-tip groups αριθμούνται καταρχήν από αριστερά προς τα δεξιά και στη
συνέχεια από πάνω προς τα κάτω, αρχίζοντας από την πάνω αριστερή (Α) Πριν την
κανονικοποίηση. (Β) Μετά από χωρική κανονικοποίηση (θέσεως) σε within-print tip group, αλλά
πριν την αναπροσαρμογή με τη διαβάθμιση. (C) Μετά από κανονικοποίηση κλίμακας των print-tip
groups (αναπαραγωγή από τους Yang et al, 2002 [10]).
3.2 Ενσωμάτωση Plug-in Κανονικοποίησης στο Γονιδιακό ΠΣ
Για το PrognoChip αποφασίστηκε να χρησιμοποιηθεί η Print-tip Loess – No
Background Correction κανονικοποίηση, η οποία είναι υλοποιημένη μέσα στα
καινούργια R-plugins που πρόσφατα δημοσιεύτηκαν σε μία μελέτη των Ameur et al,
2006 [14], και χρησιμοποιήθηκαν στο LCB Data WareHouse (LCB-DWH) σύστημα για
την ανάλυση δεδομένων πειραμάτων μικροσυστοιχιών. Το R είναι ένα στατιστικό
λογισμικό, διαθέσιμο δωρεάν, το οποίο παρέχει διάφορες ρουτίνες κανονικοποίησης που
βρίσκονται στις εξειδικευμένες για πειράματα μικροσυστοιχιών, βιβλιοθήκες λογισμικού.
Οι συγκεκριμένες ρουτίνες έχουν ενταχθεί σε μία μελέτη για την ανάπτυξη λογισμικού
που θα κατευθύνεται στην ανάλυση δεδομένων μικροσυστοιχιών, το οποίο καλείται
Bioconductor (http://www.bioconductor.org/
).
Το Γονιδιακό ΠΣ επιτρέπει την άμεση ενσωμάτωση αυτών των ρουτινών. Έτσι ο
χρήστης μπορεί να κανονικοποιήσει τα αρχικά δεδομένα πειραμάτων μικροσυστοιχιών,
τα οποία βρίσκονται στη βάση του συστήματος, βάσει της επιθυμητής διαδικασίας
κανονικοποίησης, δηλ. την Print-tip Loess – No Background Correction.


Οπτικοποίηση

Τα εργαλεία οπτικοποίησης είναι ιδιαίτερα χρήσιμα στην περίπτωση που μία ολική
εικόνα των δεδομένων είναι αναγκαία. Στο plug-in οπτικοποίησης, τα παραγόμενα

24
γραφήματα περιγράφουν foreground και background εντάσεις, όπως επίσης και flag
values (τιμές σηματοδότησης) πάνω σε μία συστοιχία με print-tip groups. Έτσι, τα
γραφήματα αυτά μπορούν να φανούν χρήσιμα στην ανίχνευση και τον προσδιορισμό της
ποιότητας των δεδομένων, όπως επίσης και στην επισήμανση συστηματικών
διακυμάνσεων. Συγκεκριμένα, παράγονται τα παρακάτω γραφήματα:

1) Γραφήματα έντασης – οι εντάσεις από τα ch1 και ch2 απεικονίζονται πάνω στη
συστοιχία.
2) Background plots – οι background εντάσεις των ch1 και ch2 απεικονίζονται πάνω
στη συστοιχία.
3) Γραφήματα των Μ-value - log
2
(ch1/ch2) απεικονίζονται πάνω στη συστοιχία.
4) Flag plots – Τα Flag values απεικονίζονται πάνω στη συστοιχία.
5) ΜΑ-plots με loess καμπύλες για κάθε print-tip group.
6) Γραφήματα για κάθε print-tip group.
7) Γραφήματα πυκνότητας – Κατανομές των Μ-values.

Επίσης, παράγεται ένα συγκεντρωτικό γράφημα των Μ-values για όλες τις
διακεκριμένες αλληλουχίες.
Διαθέσιμοι παράμετροι υπό καθορισμό είναι:

• Κατασκευή περιορισμένου αριθμού γραφημάτων: Στην περίπτωση αυτή,
παράγονται μόνο κάποια από τα γραφήματα 1-7.
• Καθορισμός των διαστάσεων της συστοιχίας (Specify array layout dimensions):
Θα πρέπει να επιλεγεί μόνο όταν οι διαστάσεις της συστοιχίας δεν έχουν εισαχθεί
στη βάση δεδομένων σε πιο πρώιμο στάδιο.
• Δίκτυο γραμμών ανά slide, Δίκτυο κολώνων ανά slide, γραμμές από spot ανά
print-tip group, Κολώνες από spot ανά print-tip group: Πληροφορίες για τη
διάταξη της συστοιχίας πρέπει να παρέχονται μόνο όταν η «Select array layout
dimensions» έχει επιλεχθεί.

Κανονικοποίηση

Το Print-tip Loess – No Background Correction plug-in κανονικοποιεί αρχικά δεδομένα
από ένα σύνολο από πλακίδια μικροσυστοιχίας. Κάθε πλακίδιο μικροσυστοιχίας
κανονικοποιείται ανεξάρτητα από τα υπόλοιπα, χρησιμοποιώντας μία από τις παρακάτω
μεθόδους από την «normalizeWithinArrays» συνάρτηση, όπως αυτή βρίσκεται στο
πακέτο limma της Bioconductor βιβλιοθήκης (http://www.bioconductor.org/
).

Διαθέσιμοι παράμετροι υπό καθορισμό είναι:

• Μέθοδος κανονικοποίησης: Η μέθοδος που επιλέγεται είναι μία από τις
«Median», «Global», «Print-tip loess», «Composite» or «Robust spline».
Περισσότερες πληροφορίες για τις μεθόδους κανονικοποίησης βρίσκονται στο
documentation του normalizeWithinArrays (http://www.bioconductor.org/
) .
• Καθορισμός των διαστάσεων της συστοιχίας: Θα πρέπει να επιλεγεί μόνο όταν
οι διαστάσεις της συστοιχίας δεν έχουν εισαχθεί στη βάση δεδομένων σε πιο
πρώιμο στάδιο. Οι διαστάσεις της συστοιχίας έχουν σημασία όταν η «Print-tip
loess» μέθοδος έχει επιλεγεί.
• Δίκτυο γραμμών ανά slide, Δίκτυο κολώνων ανά slide, γραμμές από spot ανά
print-tip group, Κολώνες από spot ανά print-tip group: Αυτές είναι πληροφορίες
για τη διάταξη της συστοιχίας και πρέπει να παρέχονται μόνο όταν η δυνατότητα
«Select array layout dimensions» έχει επιλεχθεί.

25
• Συσχέτιση των ποιοτικών βαρών με τις flag values: Τα βάρος ποιότητας θα
πρέπει να συσχετίζεται με τις flag values. Το βάρος ποιότητας είναι ένας
αριθμός στο διάστημα [0,1], ο οποίος αναπαριστά το μέγεθος της συμμετοχής
ενός spot στην κανονικοποίηση.
• Flag values με βάρη 0, 0.25, 0.5, 0.75: Η συσχέτιση των flag values με τα βάρη
χρησιμοποιείται μόνο αν έχει επιλεγεί η «Associate quality weights with flag
values» δυνατότητα. Για κάθε ένα από τα βάρη, τα flag που θα έχουν το
συγκεκριμένο βάρος, αποδίδονται ως strings διαχωριζόμενα με κόμμα. Βάρη
που δεν έχουν συσχέτιση με τα flags αποκτούν εξ’ ορισμού ως τιμή τη μονάδα.
3.3 Επικύρωση Αποτελεσμάτων
Προκειμένου να δοκιμαστούν τα plug-ins που εκ νέου προστέθηκαν, αποφασίσαμε να
χρησιμοποιήσουμε ένα σύνολο δεδομένων από πειράματα μικροσυστοιχιών για τoν
καρκίνο του μαστού, δημοσιευμένο από τους Perou et al 2000 [15]. Το σύνολο των
δεδομένων αποτελείται από 9.216 αναγνωρισμένα γονίδια, όλα εκ των οποίων
εισήχθησαν επιτυχώς στο Γονιδιακό ΠΣ, χρησιμοποιώντας την “Mass data import”
επιλογή. Τα Screen shots απεικονίζουν τις διαφορετικές μεθόδους.

Εικόνα 27. Median-ολική κανονικοποίηση – όπου το median των λογαριθμικών λόγων
προσεγγίζει το 0. Αυτή η μέθοδος δεν λαμβάνει υπ’ όψιν τις εντασο-εξαρτώμενες διακυμάνσεις
στις log
2
(ratio) τιμές.

26

Εικόνα 28. Ολική Loess – ο όρος “ολική” αναφέρεται στο γεγονός ότι χρησιμοποιείται ολόκληρο
το σύνολο δεδομένων για να πραγματοποιηθεί η κανονικοποίηση και όχι ένα φυσικό υποσύνολο
των δεδομένων.


Εικόνα 29. Print-tip Loess – Για αυτή τη μέθοδο, εφαρμόστηκε “τοπική” παρά “ολική”
κανονικοποίηση κατά loess, σε κάθε μία ομάδα στοιχείων της συστοιχίας τα οποία προήλθαν από
ένα και μόνο print-tip group.

27
Τα συγκεκριμένα screen shots παρουσιάζουν την επίδραση στους λογαριθμικούς
λόγους, η οποία γίνεται προφανής από τις loess καμπύλες στα MA-γραφήματα και στη
διασπορά των print-tip groups, όπως φαίνεται στο γράφημα boxplot. Καθώς προχωρούμε
από μία γενική median κανονικοποίηση σε μία print-tip loess κανονικοποίηση η οποία
λαμβάνει υπ’ όψιν την ένταση, όπως επίσης και τα χωρικά εξαρτώμενα αποτελέσματα
στις τιμές του log
2
(ratio), παρατηρούμε εξομάλυνση των loess καμπυλών και της
διασποράς των τιμών. Μία λεπτομερέστερη ανάλυση επί τούτων δίνεται στην επόμενη
ενότητα – Συζήτηση και Συμπεράσματα.
3.4 Συζήτηση και Συμπεράσματα
Για να συγκρίνουμε τις διαφορετικές μεθόδους κανονικοποίησης, πρέπει να λάβουμε
υπόψη την επήρεια τους στη θέση και στη κλίμακα των λογαριθμικών λόγων Μ. Επειδή
έχει ήδη δημοσιευθεί παρόμοια εργασία [9], εμείς παρουσιάζουμε μία ανασκόπηση αυτής
της εργασίας για να πιστοποιήσουμε την επιλογή μας να χρησιμοποιηθεί η Print-tip
Loess – No Background Correction κανονικοποίηση στο PrognoChip. Η Εικόνα 30Α
(αναπαραγωγή από τους Yang et al, 2002 [10]) παρουσιάζει γραφήματα πυκνότητας των
λογαριθμικών λόγων για τις διαφορετικές μεθόδους κανονικοποίησης. Χωρίς
κανονικοποίηση (κόκκινη καμπύλη) τα λογαριθμικά κλάσματα συγκεντρώνονται κοντά
στο -1, υποδεικνύοντας μεροληψία για την πράσινη χρωστική (Cy3). Μια γενική
κανονικοποίηση της διάμεσης τιμής (κίτρινη καμπύλη) μετακινεί το κέντρο της
κατανομής του λογαριθμικού λόγου στο μηδέν, αλλά δεν επηρεάζει το εύρος. Επίσης
υπάρχει ακόμη η συνάρτηση (εξάρτηση) του λογαριθμικού λόγου Μ στην ολική ένταση
Α. Και οι δύο μέθοδοι κανονικοποίησης, εντασο-εξαρτώμενοι (μπλέ καμπύλη) και print-
tip group (πράσινη καμπύλη), μειώνουν το εύρος των λογαριθμικών κλασμάτων
συγκριτικά με τη γενική κανονικοποίηση. Μία κανονικοποίηση κλίμακας (scale) τύπου
print-tip group (μαύρη καμπύλη) περαιτέρω μειώνει ελάχιστα το εύρος.
Οι διαφορετικές μέθοδοι αξιολογήθηκαν και ανάλογα με την ικανότητά τους να
αναγνωρίζουν γονίδια για τα οποία ήδη γνωρίζουμε ότι έχουν διαφορετική έκφραση. Για
το πείραμα με το γονίδιο apo AI, το γονίδιο εξαλείφθηκε σε οχτώ ποντίκια που έλαβαν
θεραπεία, άρα είναι αναμενόμενο η στατιστική t να έχει μεγάλες αρνητικές τιμές για αυτό
το γονίδιο. Η Εικόνα 30Β παρουσιάζει ένα μέρος του γραφήματος των στατιστικών για
κάθε μία από τις μεθόδους. Οι μέθοδοι κανονικοποίησης ολικής μεσαίας τιμής, εντασο-
εξαρτώμενης και θέσεως print-tip group φαίνεται να είναι οι κάλλιστες σε σχέση με την
ικανότητά τους να εντοπίζουν τα τρία αντίγραφα του γονιδίου apo AI που εξαλείφθηκε.
Μία καλή μέθοδος θα επέτρεπε ένα ξεκάθαρο διαχωρισμό μεταξύ γονιδίων
διαφοροποιημένης και σταθερής έκφρασης, όπως αυτό αντικατοπτρίζεται στην t-
στατιστική, δηλ. κανείς θα περίμενε μία μεγάλη αλλαγή στην t-στατιστική μεταξύ της
ελάχιστης τιμής των γονιδίων με μικρότερη διαφοροποιημένη έκφραση και της μέγιστης
τιμής των υπολοίπων. Η μεγαλύτερη αλλαγή στις τιμές t παρατηρήθηκε για την
κανονικοποίηση print-tip loess. Άρα, στην περίπτωση αυτού του πειράματος, όπου οι
λογαριθμικοί λόγοι διαφορετικών μικροσυστοιχιών έχουν σχετικά παρόμοια διασπορά, η
μέθοδος κανονικοποίησης print-tip loess επιτρέπει τον καλύτερο διαχωρισμό μεταξύ
γονιδίων διαφοροποιημένης έκφρασης και θορύβου.








28









































Εικόνα 30. Within-slide κανονικοποίηση. (A) Γράφημα πυκνότητας λογαριθμικών λόγων για τις
διαφορετικές μεθόδους κανονικοποίησης. Χωρίς κανονικοποίηση (κόκκινη καμπύλη). Μια γενική
κανονικοποίηση της διάμεσης τιμής (κίτρινη καμπύλη), εντασο-εξαρτώμενη κανονικοποίηση
loess (μπλέ καμπύλη), print-tip group loess κανονικοποίηση (πράσινη καμπύλη) και
κανονικοποίηση κλίμακας (scale) τύπου print-tip group (μαύρη καμπύλη). (B) Γράφημα με τιμές
από t-στατιστική μετά από διαφορετικές μεθόδους κανονικοποίησης. Τα νούμερα 1-8
αντιπροσωπεύουν τα γονίδια με διαφοροποιήση στην έκφρασή τους [10, 12]. Οι αριθμοί 1-3 είναι
τα 3 apo AI γονίδια και οι άδειοι κύκλοι αντιπροσωπεύουν τα υπόλοιπα 6.376 γονίδια όπου δεν
αναμένεται κάποια αλλαγή στην έκφραση τους. Μόνο t τιμές κάτω από -4 παρουσιάζονται εδώ.




29



Βιβλιογραφία

1. Alizadeh, A.A., Eisen, M.B., Davis, R.E., Ma, C., Lossos, R. I.S., A., Boldrick,
J.C., Sabet, H., Tran, T., X. Yu, Powell, J.I., Yang, L., Marti, G.E., Moore, T., J.
Hudson, Jr., Lu, L., Lewis, D.B., Tibshirani, R., G. Sherlock, Chan, W.C.,
Greiner, T.C., Weisenburger, et al. (2000) Distinct types of diffuse large B-cell
lymphoma identified by gene expression profiling. Nature, 403: p. 503-511.
2. Cleveland, W.S. (1979) Robust locally weighted regression and smoothing
scatterplots. J. Amer. Stat. Assoc, (74): p. 829–836.
3. Marton, M.J., DeRisi, J.L., Bennett, H.A., Iyer, V.R., Meyer, R. M.R., C.J.,
Stoughton, R., Burchard, J., Slade, D. D., H., Bassett, D.E., Jr., Hartwell, L.H.,
Brown, P.O., and S.H. and Friend (1998) Drug target validation and
identification of secondary drug target effects using DNA microarrays. Nat. Med,
4: p. 1293-1301.
4. Roberts, C.J., Nelson, B., Marton, M.J., Stoughton, R., M.R. Meyer, Bennett,
H.A., He, Y.D., Dai, H., Walker, H. W.L., T.R., Tyers, M., Boone, C., and
Friend, and S.H. (2000) Signaling and circuitry of multiple MAPK pathways
revealed by a matrix of global gene expression profiles. Science, 287: p. 873-880.
5. Welsh, J.B., Sapinoso, L.M., Su, A.I., Kern, S.G., Wang-, J. Rodriguez,
Moskaluk, C.A., Frierson, H.F., Jr., and, and G.M. Hampton (2001) Analysis of
gene expression identifies candidate markers and pharmacological targets in
prostate cancer. Cancer Res, (61): p. 5974-5978.
6. Yue, H., Eastman, P.S., Wang, B.B., Minor, J., Doctolero, N. M.H., R.L., Stack,
R., Becker, J.W., Montgomery, and V. J.R., M., and Johnston, R. (2001) An
evaluation of the performance of cDNA microarrays for detecting changes in
global mRNA expression. Nucl. Acids Res., 29: p. E41.
7. Tseng, G.C., Oh, M.K., Rohlin, L., Liao, J.C., and Wong, and W.H. (2001) Issues
in cDNA microarray analysis: quality filtering, channel normalization, models of
variations and assessment of gene effects. Nucl. Acids Res., (29): p. 2549-2557.
8. Yang, M.C., Ruan, Q.G., Yang, J.J., Eckenrode, S., Wu, and M. S., R.A., and
She, J.X. (2001) A statistical method for flagging weak spots improves
normalization and ratio estimates in microarrays. Physiol. Genomics., (7): p. 45-
53.
9. Yang, I.V.e.a. and (2002) Within the fold: assessing differential expression
measures and reproducibility in microarray assays. Genome Biol, 3: p.
research0062.1–0062.12.
10. Yang, Y.H.e.a. (2002) Normalization for cDNA microarray data: a robust
composite method addressing single and multiple slide systematic variation.
Nucleic Acids Res, (30): p. e15.
11. Quackenbush, J. (2002) Microarray data normalization and transformation.
Nature Genetics Supplement, 32: p. 496-501.
12. Dudoit, S., Yang,Y.H., Callow,M.J. and Speed,T.P. (2002) Statistical methods
for identifying genes with differential expression in replicated cDNA microarray
experiments. Stat. Sin.
13. Callow, M.J., Dudoit,S., Gong,E.L., Speed,T.P. and Rubin,E.M. (2000)
Microarray expression profiling identifies genes with altered expression in HDL-
deficient mice. Genome Res., 10: p. 2022–2029.

30
14. Ameur, A., Yankovski, Vladimir., Enroth, Stefan., Spjuth, Ola., and
Komorowski, Jan. (2006) The LCB DataWareHouse. Bioinformatics, 22 (8): p.
1024–1026.
15. Perou, C.M., Sørlie, T., Eisen, M. B., van de Rijn, M., Jeffrey, S. S., Rees, C. A.,
Pollack, J. R., Ross, D. T., Johnsen, H., Akslen, L. A., et al. (2000) Molecular
portraits of human breast tumours. Nature, 406(747–752).
16. L. H. Saal, C. Troein, J. Vallon-Christersson, S. Gruvberger, Å. Borg, and C.
Peterson (2002), BioArray Software Environment: A Platform for Comprehensive
Management and Analysis of Microarray Data, Genome Biology, 3(8):
software0003.1-0003.6.


Ευχαριστίες: Το έργο PrognoChip έχει χρηματοδοτηθεί από τη Γενική Γραμματεία
Έρευνας και Τεχνολογίας.