Πλατφόρμα ςυςχϋτιςησ φυλογενετικών προφύλ με μεταβολικϊ ...

yakcombsΒιοτεχνολογία

29 Σεπ 2013 (πριν από 3 χρόνια και 10 μήνες)

5.120 εμφανίσεις



ΑΡΙ΢ΣΟΣΕΛΕΙΟ ΠΑΝΕΠΙ΢ΣΗΜΙΟ ΘΕ΢΢ΑΛΟΝΙΚΗ΢

ΠΟΛΤΣΕΧΝΙΚΗ ΢ΧΟΛΗ

ΣΜΗΜΑ ΗΛΕΚΣΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ

ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΣΡΟΝΙΚΩΝ ΤΠΟΛΟΓΙ΢ΣΩΝ

Σομϋασ Ηλεκτρονικόσ και Τπολογιςτών

Εργαςτόριο Επεξεργαςύασ
Πληροφορύασ και Τπολογις
μ
ών (ΕΠΤ)



Πλατφόρμα ς
υςχϋτιςη
σ

φυλογενετικών
προφύλ

με μεταβολικϊ μονοπϊτια
,

για την
εξαγωγό εξελικτικών μοτύβων









Δ
ιπλωματικό εργαςύα του

Χατζηχρήστου Χρήστου

ΑΕΜ 5907








Τπό την επύβλεψη του Καθηγητό








κ. Περικλή

Α. Μήτκα


Θεςςαλονύκη
,
Ιούλιοσ

2012



Correlation platform

of phylogenetic profiles
with

metabolic pathways
,

in order to extract evolutionary motives


i

C.ChatzichristosAUTH 2012

Abstract


Title:
Correlation platform
of phylogenetic profiles
with

metabolic
pathways
,

in order to extract evolutionary motives
.


Background
:
With the ongoing
technological evolution
,

computers (both pcs and super computers) have infiltrated most of the
sciences. Inevitably, Biology among the others has been “updated”
,

with
computers being an
imp
ortant tool and an integral part of labs, creating
new fields of technology
,

such
as
computa
tional Biology and
Bioinformatics. More specifically, the last decades the usage of new
technologies, has resulted in new successes, such as the recording
of
a
large amount of fully sequenced proteins. The large amounts of
information being produced and th
e effort for their organization and
usage, have resulted in the creation of the databases. Beyond databases
and data mining techniques, which have been invented,
computers
,

in
conjunction with appropriate algorithms
,

can lead to conclusions
,

that
theoretic
al biology would be difficult to distinguish.Research that once
took place in a laboratory
,
now is being done by the
computer
,

as
scientists search databases for informa
tion that may lead to new
cases.I
n the same way
that
comp
uters
have
replaced the
typewriter of

the author and the abacus of the student
,nowadays
tendto replace the
Biologist tube

a
s well
.


As t
he fully sequenced genomes of numerous organisms offer large
amounts of information,
η
t is a central challenge of bioinformatics
,

to use
this information in discovering the function of proteins.
For the prediction
of the gene function
,

many computational methods have been
suggested.
One such approach is that
,

of phylogenetic profiles. In this
method
,

a gene is described by its phylo
genetic profile
,

that is a vector
which includes
the information of the presence

or absence of a gene in
other genomes. This vector is then used to search for ot
her genes with
similar profiles
,

or for the prediction of the function of a protein with a
simi
lar phylogenetic profile.


i i
Correlation platform

of phylogenetic profiles
with
metabolic pathways
,

in order to extract evolutionary motives

C.ChatzichristosAUTH 2012

Results
:
In this diploma theses
,

a web based application, which
enables

the user to connect to three different databases, is introduced.
With the hel
p of this application, datasets
,composed by proteins and
genomes, which are
functionally linked, are created. As a first step
,

the
user gives a list of genomes


organisms and the function of the
organism, he wishes to examine, and receives as an output the genes
participating in the function. Then
,

he gives them as an input in th
e
second database and gets the proteins coded by them. At the end of the
procedure , the proteins are being submitted at
Profuse Database
and,their phylogenetic profiles are received,
as an output.


With the usage of clustering algorithms
,

we evaluate th
e
phylogenetic profiles and their similarities. With evaluation of the
datasets and the results of the clustering
,

we try to support the
hypothesis that functionally linked proteins, evolve in a correlated
fashion and therefore similar phylogenetic profile
s. This hypothesis can
lead to the usage of phylogenetic profiles
, as a way of recognizing

proteins with similar function.















Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ


i i i

Σ.Σαηδερξήζηνο
AUTH 2012


Περύληψη


Σίτλοσ :
Ππζρέηηζε θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά
κνλνπάηηα γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ.


Τπόβαθρο
:
Κ
ε ηε

ζπλερή ηερλνινγηθή πξφνδν
,
o
ειεθηξνληθφο
ππνινγηζηήο
,

ηφζν κε ηελ κνξθή πξνζσπηθνχ ππνινγηζηή φζν θαη κε
απηή ησλ ππεξππνινγηζηψλ
,

έρεη δηεηζδχζεη ζρεδφλ ζε θάζε
επηζηήκε.Αλαπφθεπθηα

θαη

ε Βηνινγία

αλάκεζα ζηηο άιιεο
,

έρεη
πξνζαξκνζηεί ζηα λέα απηά δεδνκέλα, κε ηνπο ππνινγηζηέο λα απνηεινχλ
ζεκαληηθφ εξγαιεί
ν θαη αλαπφζπαζην θνκκάηη ησλ εξγαζηεξίσλ,
δεκηνπξγψληαο κάιηζηα λένπο θιάδνπο
,

φπσο ε ππνινγηζηηθή Βηνινγία
θαη ε Βηνπιεξνθνξηθή.Ξην ζπγθεθξηκέλα
,

ηηο ηειεπηαίεο δεθαεηίεο
,

ε
ρξήζε λέσλ ηερλνινγηψλ νδήγεζε ζε λέεο επηηπρίεο
,

φπσο ε θαηαγξαθή
φιν θαη πεξηζ
ζφηε
ξσλ πξσηετλψλ
.
O
η κεγάιεο πνζφηεηεο πιεξνθνξίαο
πνπ
άξρηζαλ λα παξάγνληαη
θαη ε πξνζπάζεηα
γηα νξγάλσζε θαη εθκεηάιιεπζή
ηνπ
ο νδήγεζαλ ζηελ δεκηνπξγία ησλ Βάζεσλ Γεδνκέλσλ. Ξέξα φκσο απφ
ηηο Βάζεηο Γεδνκέλσλ θαη ηηο ηερληθέο πνπ έρνπλ αλαπηπρζεί γηα ηελ

εμφξπμε ρξήζηκσλ πιεξνθνξηψλ, νη ππνινγηζηέο
,

ζε ζπλδπαζκφ κε
θαηάιιεινπο αιγφξηζκνπο
,

κπνξνχλ λα νδεγήζνπλ ζε ζπκπεξάζκαηα
,

πνπ ε ζεσξεηηθή Βηνινγία ζα ήηαλ δχζθνιν λα δηαθξίλεη.
Έξεπλα ε νπνία
θάπνηε γηλφηαλ κέζα ζε εξγαζηήξην ηψξα

γ
ίλεηαη ζε ππνινγηζηή,

θαζψο
επηζηήκνλεο εξεπλνχλ ηηο βάζεηο δεδνκέλσλ γηαπιεξνθνξίεο πνπ κπνξεί

λ
α νδεγήζνπλ ζε λέεο ππνζέζεηο.Δ
ηζη
,

νη ππνινγηζηέο
,

φπσο
αληηθαηέζηεζαλ ηε γξαθνκεραλή ηνπ ζπγγξαθέα

θαη ηνλ άβαθα ηνπ
καζεηή, ηείλνπλ λα αληηθαηαζηήζνπλ

θαη ην

δνθηκαζηηθφ ζσιήλα ηνπ
Βηνιφγνπ.

H

ραξηνγξάθεζε φιν

θαη πεξηζζνηέξσλ γνληδησκάησλ θαη ην πιήζνο
ησλ πιεξνθνξηψλ πνπ πξνζθέξνπλ, δεκηνπξγνχλ κηα κεγάιε πξφθιεζε
γηα ηελ επηζηήκε ηεο Βηνπιεξνθνξηθήο
,

θαζψο ε
πξφβιεςε ηεο
ιεηηνπξγίαο ησλ γνληδίσλ απφ γνληδηα
θέο αθνινπζίεο
,

είλαη έλαο
απφ ηνπο
βαζηθνχ
ο ζηφρν
π
ο
ηεο. Γηα ηελ πξφβιεςε ηεο ιεηηνπξγίαο ησλ γνλη
δίσ
λ
έρνπλ πξνηαζεί πνιιέο κέζνδνη ζχγθξηζεο.
Κηα ηέηνηα πξνζέγγηζε είλαη
απηή ηνπ θ
πινγελεηηθνχ πξνθίι. Πε απηή ηε

κέζνδν
,

έλα γνλίδην
i v
Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ

Σ.Σαηδερξήζηνο
AUTH 2012

αληηζηνηρίδεηαη ζην θπι
νγελεηηθφ ηνπ πξνθίι
,

ην νπνίν είλαη έλα άλπζκα
πνπ πεξηέρεη ηελ πιεξνθνξία ηεο παξνπζίαο ή απνπζίαο ηνπ γνληδίνπ ζε
άιια
γνληδηψκ
αηα. Απηφ ην άλπζκα
,

ρξεζηκνπνηείηαη κεηά
,

γηα ηελ
αλίρλεπζε άιισλ γνληδίσλ κε παξφκνηα πξνθίι

ή

γηα ηελ πξφβιεςε ηεο
ιεηηνπξγ
ίαο γνληδίσλ
κε παξφκνηα πξνθίι.


Αποτελέςματα:
Πηελ παξνχζα δηπισκαηηθή εξγαζία
παξνπζηάδεηαη κηα εθαξκνγή
webbased
,
ε νπνία δίλεη ζην ρξήζηε ηε
δπλαηφηεηα ζχλδεζεο κε ηξεηο βάζεηο δεδνκέλσλ. Κε

ηε βνήζεηα απηήο
ηεο εθαξκνγήο,
δεκηνπξγνχληαη ζεη δεδνκέλσλ
απφ πξσηείλεο θαη γνλίδηα
πνπ ζπκκεηέρνπλ ζε θνηλέο ιεηηνπξγίεο ησλ νξγαληζκψλ. Αξρηθά
,

ν
ρξήζηεο
,αθνχ δψζεη σο είζνδν ηα γν
ληδηψκαηα


νξγαληζκνχο θαη ηε
ιεηηνπξγία ηνπ νξγαληζκνχ πνπ επηζπκεί λα εμεηάζεη
,

ιακβάλ
εη ηα γνλίδηα
πνπ ζπκκεηέρνπλ ζ
ηή ιεηηνπξγί
α

απηή
. Πηε ζπλέρεηα
,

ηα ππνβά
ι
ιεη ζε
δεχηεξε βάζε δεδνκέλσλ
,

απφ φπνπ παίξλεη ηηο πξσηείλεο πνπ
θσδηθνπνηνχλ απηά ηα γνλίδηα. Ρέινο
,

νη πξσηείλεο ππνβάι
ι
νληαη ζηε
βάζε δεδνκέλσλ
Profuse
θαη παίξλνπκε ην θπινγελεηηθφ ηνπο πξνθί
ι.


Κε ηε ρξήζε αιγνξίζκσλ
clustering
,
αμηνινγ
o
χκε ηα θπ
ινγελ
εηηθά
ηνπο
profile
θαη ηηο νκνηφηεηέ
ο ηνπο. Βάζεη

απηήο ηεο αμηνιφγεζεο ησλ
δεδνκέλσλ θαη ηνπ
clustering
πνπ γίλεηαη ζηα θπινγελεηηθά πξνθί
ι
,

πξνζπαζνχκε λα ππνζηεξίμνπκε ηελ ππφζεζε
,

φηη νη πξσηείλεο πνπ είλαη
ιεηηνπξγηθά
ζπ
λδεδεκέλεο, έρνπλ παξφκνηα γε
λεηηθή εμέιημε
, άξα θαη
παξφκνηα θπι
νγελεηηθά πξνθηι. Απηή ε ππφζεζε κπνξεί λα ν
δεγήζεη
ζηελ αμηνπνίεζε ηνπ θπι
νγελεηηθνχ πξνθηι
,

γ
ηα λα βξνχκε πξσηείλεο κε
πηζαλή

φκνηα ιεηηνπξγία.






Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ


v

Σ.Σαηδερξήζηνο
AUTH 2012

Ευχαριςτύεσ


Θα ήζεια λα επραξηζηήζσ ην
λ Θαζεγεηή
θ.
Ξεξηθιή Α. Κήηθα γηα ηελ
εκπηζηνζχλε

πνπ κνπ έδεημε κε ηελ αλάζεζε ηεο δηπισκαηηθήο εξγαζίαο
κνπ
, ηελ θαζνδήγεζή ηνπ θαη ηε ζπλνιηθή επίβιεςή ηνπ θαηά ηε δηάξθεηα
εθπφλεζεο ηεο
.

Ρν Γξ. Φψηε Τσκφπνπιν
γηα ηελ άξηζηε ζπλεξγαζία πνπ εί
ρακε
θαηά η
ε δηάξθεηα ηεο εθπφλεζεο ηεο δηπισκαηηθεο εξγαζίαο κνπ, θαζψο
θαη γηαηί ζ
πλέβαιε ζην κέγηζην βαζκφ, κε ηελ πνιχηηκε

βνήζεηα, ηελ
κεγάιε ππνκνλή ηνπ

θαη ηηο ρξήζηκεο γλψζεηο πνπ πξνζέθεξε
, ζηελ
νινθιήξσζε ηεο.

Ρέινο, ζα ήζεια λα επραξηζηήζσ ηελ

νηθνγέλεηά κ
νπ, ηνπο γνλείο
κνπ, ηνλ αδεξθφ κνπ θαη ην ζείν κνπ, Κηράιε Κνπζηάθα, γηα ηελ
ακέξηζηε
αγάπε

θαη ζπκπαξάζηαζε ηνπο, εζηθή θαη πιηθή, θαζ’ φιε ηε
δηάξθεηα ηεο πνξείαο κνπ ηφζν ζηελ εθπαίδεπζε, φζν θαη γεληθά ζηε δσή
κνπ.

















v i
Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ

Σ.Σαηδερξήζηνο
AUTH 2012

Περιεχόμενα

Abstract


................................
................................
..................

i

Ξεξίιεςε

................................
................................
................
iii

Δπραξηζηίεο

................................
................................
.............

v

Ξεξηερφκελα

................................
................................
...........

vi

Ιίζηα ζρεκάησλ

................................
................................
.....

viii

Ιίζηα πηλάθσλ

................................
................................
........

xi

Θεθάιαην 1. Δηζαγσγή

................................
..............................

1

1.1

Βηνπιεξνθνξηθή

................................
..........................

1

1.2

Πηφρνη ηεο δηπισκαηηθήο

................................
...............

2

1.3

Κεζνδνινγία

................................
...............................

3

1.4

Ξεξηερφκελα

................................
...............................

3

Θεθάιαην 2. Ξεξηγξαθή ηνπ πξνβιήκαηνο

................................
...

5

2.1

Genomes


Proteins


Gens

................................
..........

5

2.2

Κεηαβνιηθά Κνλνπάηηα

................................
.................

8

2.3

Αλάγθε θαηεγνξηνπνίεζεο πξσηετλψλ

.............................

9

2.4

Φπινγελεηηθφ πξνθίι

................................
.................

11

Θεθάιαην 3. Ξεξηγξαθή εθαξκνγήο
GenomeWebApp

...................

15

3.1

Αξρηηεθηνληθή.

................................
..........................

15

3.2

Βάζεηο Γεδνκέλσλ.

................................
....................

20

3.2.1 KEGG

................................
................................
...........

20

3.2.2
NCBI

................................
................................
............

23

3.2.3
Profuse

................................
................................
.........

25

3.3

Κεηαηξνπή απνηειεζκάησλ.

................................
........

26

3.4

Εεηήκαηα απφδνζεο.

................................
..................

29

3.4.1
KEGG

................................
................................
...........

29

3.4.2
NCBI

................................
................................
............

30

3.4.3
CogentProfuse
.

................................
..............................

30

3.4.4 Ππλνιη
θή αληαπφθξηζε εθαξκνγήο.

................................
..

30

3.5

Ξαξάδεηγκα πιήξνπο αλαδήηεζεο βήκα
-

βήκα.

.............

34

Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ


v i i

Σ.Σαηδερξήζηνο
AUTH 2012

Θεθάιαην 4. Αιγφξηζκνη
clustering.

................................
..........

37

4.1

Clustering
αιγφξηζκνη ζηε βηβιηνγξαθία.

.......................

37

4.2

Αιγφξηζκνη πνπ ρξεζηκνπνηήζακε.

...............................

41

4.2.1 Θ
-
means

................................
................................
.......

41

4.2.2 EM

44

4.2.3 DB scan

................................
................................
........

49

4.2.4 Hierarchical clustering

................................
....................

53

Θεθάιαην 5. Ξεηξάκαηα


Απνηειέζκαηα

................................
....

56

5.1.1

ΓΔΗΓΚΑ ΞΟΥΡΝ 10
GENOMES

................................
.....

56

5.1.2

ΓΔΗΓΚΑ ΓΔ΢ΡΔΟΝ 50
GENOMES

................................
...

75

5.2

ΔΚ ζε
pathways

................................
........................

92

5.2.1

Dataset
Βαθηεξί
σλ.

................................
...................

92

5.2.2

Dataset
Φπηψλ
.

................................
........................

104

Θεθάιαην 6. Ππκπεξάζκαηα
-
Κειινληηθέο επεθηάζεηο

.................

107

6.1

Ππκπεξάζκαηα

................................
........................

107

6.2

Κειινληηθέ
ο Δπεθηάζεηο

................................
............

107

Βηβιηνγξαθία

................................
................................
.......

109

ΞΑΟΑΟΡΖΚΑΡΑ

................................
................................
....

111

Ξαξάξηεκα A:

Νδεγίεο
ρξήζεο
GenomeWebApp

........................

112

Κεηαηξνπή αξρείνπ απνηειεζκάησλ

................................
........

125

Ξαξάξηεκα B:

Source files
εθαξκνγήο.

................................
...

128

Ξαξάξηεκα C: Νδεγίεο εγθαηάζηαζεο
ρξήζεο
Weka

θαη
Ucinet
.

..

132

C.1
Weka

132

C.2Ucinet

................................
................................
............

138

Ξαξάξηεκα D:

MCL

................................
..............................

142

D
.1 Ξεηξάκαηα ζηνλ
MCL
.

................................
......................

146

Ξαξάξηεκα E: Δθαξκνγή ΢πφινηπσλ Αιγνξίζκσλ.

....................

147

Ξαξάξηεκα F: Ππγθξεηηθνί πίλαθεο
DBscan
50
genomes.

..........

161




v i i i
Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ

Σ.Σαηδερξήζηνο
AUTH 2012


Λύςτα ςχημϊτων


Πρήκα 2.1

Γνκηθέο

θαηεγνξίεο πξσηετλψλ αλάινγα κε ηελ ηάμε ηνπο.

10

Πρήκα 3.1

Αξρηηεθηνληθή 1

................................
..........................

16

Πρήκα 3.2

Αξρηηεθηνληθή 2

................................
..........................

17

Πρήκα
3.3

Γηάγξακκα ζπζηαηηθψλ ηεο εθαξκνγήο.

..........................

18

Πρήκα 3.4

Γηάγξακκα ξνήο αιγνξίζκνπ

................................
.........

19

Πρήκα 3.5

Σξφλνο εθηέιεζεο ζε ζπλάξεζε κε ην πιήζνο ησλ
genomes

..



................................
................................
.........

31

Πρήκα 3.6

Ξιήζνο
genes

ζε ζπλάξηεζε κε ην πιήζνο ησλ
genomes

εηζφδνπ.

................................
................................
.....

32

Πρήκα 3.7

Σξφλνο εθηέιεζεο ζε ζπλάξηεζε κε ην πιήζνο
genomes
,
profiles
.

................................
................................
.....

33

Πρήκα 4.1

Γηαθνξά Ηεξαξρηθήο θαη Γηακεξηζηηθήο Ππζηαδνπνίεζεο

....

39

Πρήκα 4.2

Ξαξάδεηγκα
k
-
means

................................
...................

43

Πρήκα 4.3

Ρα δεδνκέλα απνηεινχληαη απφ 3 δείγκαηα


ζεκεία πνπ
έρνπλ παξζεί απφ θάζε κηα απφ ηηο 2 θαηαλνκέο (ηα νπνία
παξνπζηάδνληαη κε θχθινπο θαη ηξίγσλα). Ν
η κέζεο ηηκέο ησλ
θαηαλνκψλ είλαη
-
2 θαη 2 αληίζηνηρα.

.............................

46

Πρήκα 4.4

Ζ πξαγκαηηθή θαηαλνκή πηζαλφηεηαο δεδνκέλνπ ησλ δχν
κέζσλ φξσλ ζ
1 θαη ζ2 ησλ δεδνκέλσλ ηνπ ζρήκαηνο 4.3.

46

Πρήκα 4.5

Αθξφηαηα

................................
................................
...

48

Πρήκα 4.6

Γηαρσξηζκφο ζεκείσλ ζηνλ
DBscan

................................

50

Πρήκα 4.7

(α)Απφζηαζε δχν νκάδσλ αιγνξίζκνπ
single
-
linkage

(
b
)
Απφζηαζε δχν νκάδσλ αιγνξίζκνπ
completelinkage

(
c
)
Απφζηαζε δχν νκάδσλ αιγνξίζκνπ
average

-
linkage

.......

55

Πρήκα 5.1

Taxonomytree

ηνπ πξψηνπ δέηγκαηνο.

............................

57

Πρήκα

5.2

Οπζκίζεηο

kmeans.

................................
.......................

58

Πρήκα

5.3

Visualization kmeans.

................................
..................

58

Πρήκα

5.4

Οπζκίζεηο

DBscan.

................................
.......................

60

Πρήκα

5.5

Visualization DBscan.

................................
...................

60

Πρήκα

5.6

Unclusterd Instances Dbscan

................................
........

63

Πρήκα 5.7

Οπζκίζεηο
EM.

................................
.............................

64

Πρήκα

5.8

Visualization EM.

................................
.........................

64

Πρήκα

5.9

Οπζκίζεηο

Hierarchical.

................................
.................

66

Πρήκα

5.10

Γέλδξν

Hierarchical.

................................
....................

66

Πρήκα

5.11

Visualization Hierarchical.

................................
.............

67

Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ


i x

Σ.Σαηδερξήζηνο
AUTH 2012

Πρήκα 5.12

Taxonomytree

ηνπ δεχηεξνπ δέηγκαηνο.

.........................

76

Πρήκα 5.13

Οπζκίζεηο
kmeans
.

................................
.......................

77

Πρήκα 5.
14

Visualization kmeans.

................................
..................

77

Πρήκα

5.15

Unclusterd Insances DBscan.

................................
........

83

Πρήκα

5.16

Οπζκίζεηο
DBscan

................................
.........................

83

Πρήκα

5.17

Visualization DBscan

................................
....................

84

Πρήκα

5.18

ΟπζκίζεηοΔΚ

................................
...............................

87

Πρήκα

5.19

Visualization
ΔΚ

................................
..........................

87

Πρήκ
α

5.20

Ρ
axonomy

δείγκαηνο Βαθηεξίσλ

................................
...

95

Πρήκα

5.21

Ρ
axonomy

δείγκαηνο Φπηψλ.

................................
.....

105

Πρήκα Α.1

Αξρηθή ζειίδα εθαξκνγήο.

................................
..........

113

Πρήκα Α.2

Γξαθηθή δηεπαθή Βάζεο Γεδνκέλσλ
KEGG
.

...................

114

Πρήκα Α.3

Δηζαγσγή κεκνλσκέλνπ ζηνηρείνπ γηα αλαδήηεζε κφλν ζηελ
Β.Γ.
KEGG
.

................................
...............................

114

Πρήκα Α.4

Δπηηπρήο ππνβνιή
Pathway
.

................................
........

115

Πρήκα Α.5

Ρέινο ππνινγηζκνχ

................................
....................

115

Πρήκα Α.6

Κεηαθφξησζε αξρείνπ απνηειεζκάησλ.

........................

116

Πρήκα Α.7

Section

επηινγήο αξρείνπ δεδνκέλσλ εηζφδνπ.
...............

117

Πρήκα Α.8

Δπηινγή αξρείνπ κε ιίζηα απφ
pathways
.

......................

118

Πρήκα Α.9

Δπηηπρήο ππνβνιή αξρείνπ.

................................
.........

118

Πρήκα Α.10

Αλαδήηεζε κεκνλσκέλνπ ζηνηρείνπ ζε φιεο ηηο Β.Γ. ζεηξηαθά.



................................
................................
.....

120

Πρήκα Α.11

Πχλδεζκνο γηα ηελ αλαδήηεζε ελφο
map
.

......................

120

Πρήκα Α.12

Δξγαιείν αλαδήηεζεο
maps
..

................................
......

121

Πρήκα Α.13

Δπηινγή επηζέκαηνο.

................................
..................

121

Πρήκα Α.14

Δπηηπρήο ππνβνιή.

................................
....................

122

Πρ
ήκα Α.15

map

έηνηκν γηα ππνβνιή ζηελ
KEGG
.

...........................

123

Πρήκα Α.16

Γξαθηθή δηεπαθή
NCBI
.

................................
..............

124

Πρήκα Α.17

Γξαθηθή Γηεπαθή
ProfUse
.

................................
..........

124

Πρήκα Α.18

Panel

κεηαηξνπήο αξρείνπ απνηειεζκάησλ

....................

125

Πρήκα Α.19

Δπηινγή αξρείνπ απνηειεζκάησλ.

................................

126

Πρήκα Α.20

Δπηηπρήο αλάξηεζε.

................................
...................

126

Πρήκα Α.21

Κήλπκα ζθάικαηνο

................................
...................

127

Πρήκα
B
.1

Δθθίλεζε πξνγξάκκαηνο εγθαηάζηαζεο.

.......................

132

Πρήκα
B
.2

Άδεηα ρξήζεο.

................................
...........................

133

Πρήκα
B
.3

Δγθαηάζηαζε αξρείσλ.

................................
...............

133

Πρήκα
B
.4

Δπηινγή θαθέινπ εγθαηάζηαζεο.

................................
.

13
4

Πρήκα
B
.5

Θαζνξηζκφο ζπληνκεχζεσλ

................................
.........

134

Πρήκα
B
.6

Δγθαηάζηαζε.

................................
...........................

135

Πρήκα
B
.7

Αξρηθή νζφλε ινγηζκηθνχ.
................................
...........

135

Πρήκα
B
.8

Δπηθάλεηα εξγαζίαο ινγηζκηθνχ.

................................
..

136

x
Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ

Σ.Σαηδερξήζηνο
AUTH 2012

Πρήκα
B
.9

Δπηινγή αιγνξίζκνπ.

................................
...................

137

Πρήκα
B
.10 Δθθίλεζε πξνγξάκκαηνο εγθαηάζηαζεο.

........................

138

Πρήκα
B
.11

Δπηινγή θαθέινπ εγθαηάζηαζεο.

................................
..

139

Πρήκα
B
.12

Θαζνξηζκφο ζπληνκεχζεσλ

................................
..........

139

Πρήκα
B
.13

Δπηθάλεηα εξγαζίαο ινγηζκηθνχ.

................................
....

140

Πρήκα
B
.14

Δπεμεξγαζία δεδνκέλσλ κε ηνλ
Matrixeditor
.

.................

141

Πρήκα
B
.15

Γεδνκέλα

................................
................................
.

141

Πρήκα D.1

Γξάθνο 1

................................
................................
.

142

Πρ
ήκα D.2

Γξάθνο 2

................................

144

Πρήκα D.3

Γξαθηθή αλαπαξάζηαζε ηνπ
MCL

.

...............................

145




























Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ


x i

Σ.Σαηδερξήζηνο
AUTH 2012

Λύςτα πινϊκων


Ξίλαθαο 2.1

Κέγεζνο Γνληδησκάησλ. [10]

................................
.......

6

Ξίλαθαο 2.2

Ακηλνμέα πνπ ζπκκεηέρνπλ ζην ζρεκαηηζκφ πξσηετλψλ

...

7

Ξίλαθαο 2.3

Ρα πξψηα 120 είδε κε ηελ επηζηεκνληθή ηνπο νλνκαζία θαη
κε ηελ αληίζηνηρε ζεηξά, απφ πάλσ πξνο ηα θάησ θαη απφ
ηελ
αξηζηεξφηεξε ζηελ δεμηφηεξε ζηήιε.

.....................

13

Ξίλαθαο 2.4

Ρα ππφινηπα 123 είδε κε ηελ επηζηεκνληθή ηνπο νλνκαζία
θαη κε ηελ αληίζηνηρε ζεηξά
, απφ πάλσ πξνο ηα θάησ θαη
απφ ηελ αξηζηεξφηεξε ζηελ δεμηφηεξε ζηήιε.

...............

14

Ξίλαθαο 3.1

Β
άζεηο

ηεο
KEGG

θαη πιήζνο δεδνκέλσλ πνπ πεξηέ
ρνπλ.

21

Ξίλαθαο 3.2

Θπξηφηεξεο β
άζεηο

ηεο
NCBI

θαη είδνο δεδνκέλσλ πνπ
πεξηέρνπλ.

................................
..............................

24

Ξίλαθαο 3.3

Δπηζηξνθή απνηειεζκάησλ απφ ηελ
KEGG
.

..................

29

Ξίλαθαο 3.4 Δπηζηξνθή απνηειεζκάησλ απφ ηελ
NCBI
.

.......................

30

Ξίλαθαο 3.5

Ππλνιηθφο ρξφλνο εθηέιεζεο ζπλαξηήζεη αξηζκνχ
Genes
,
Genomes

θαη
Profiles

................................
................

31

Ξίλαθαο 5.1

Ιίζηα νξγαληζκψλ πξψηνπ δείγκαηνο 10
genomes
.

.......

56

Ξίλαθαο 5.2

kmeans 10 genomes
.

................................
...............

59

Ξίλαθαο 5.3

Αλαιπηηθφο πίλαθαο θαηαλνκήο
kmeans

10
genomes

....

59

Ξίλαθαο 5.4

DBscan

10
genomes
.

................................
...............

61

Ξίλαθαο 5.5

Αλαιπηηθφο πίλαθαο θαηαλνκήο
DBscan

10
genomes
.

....

62

Ξίλαθαο 5.6

EM 10 genomes
.

................................
......................

65

Ξίλαθα
ο

5.7

std mean
θαη

std deviation EM 10 genomes.

................

65

Ξίλαθαο

5.8

Hierarchical 10 genomes.

................................
.........

67

Ξίλαθαο 5.9

Ππγθξηηηθφο πίλαθαο
DbscanvsEM

10
genomes
.

...........

69

Ξίλαθαο 5.10

Ππγθξηηηθφο πίλαθαο Δ
MvsKmeans

10
genomes
.

...........

70

Ξίλαθαο 5.11

Ππγθξηηηθφο πίλαθαο Δ
MvsHierarchical

10
genomes
.

.....

70

Ξίλαθαο 5.12

Ππγθξηηηθφο πίλαθαο
HierarchicalvsKmeans

10
genomes
.

..



................................
................................
....

71

Ξίλαθαο 5.14

Ππγθξηηηθφο πίλαθαο
DbscanvsHierarchical

10
genomes
.

..



................................
................................
....

73

Ξίλαθαο 5.14

Ππγθξηηηθφο πίλαθαο
Dbscanvsk
-
means

10
genomes
.
...

74

Ξίλαθαο 5.15

Ιίζηα νξγαληζκψλ δεχηεξνπ δείγκαηνο 50
genomes
.

....

75

Ξίλαθαο

5.17

kmeans 50 genomes.

................................
...............

78

Ξίλαθαο

5.17

Αλαιπηηθφο πίλαθαο
distribution

50
genomes
.

..............

82

Ξίλαθαο

5.18

DBscan 50 genomes.

................................
...............

86

Ξίλαθαο

5.19

EM 50 genomes.

................................
......................

88

Ξίλα
θαο

5.20

std mean
θαη

std deviation EM 50 genomes.

................

89

x i i
Ξιαηθφξκα ζ
πζρέηηζε
ο

θπινγελεηηθψλ πξνθίι κε κεηαβνιηθά κνλνπάηηα
,

γηα ηελ εμαγσγή εμειηθηηθψλ κνηίβσλ

Σ.Σαηδερξήζηνο
AUTH 2012

Ξίλαθαο 5.21

Ξίλαθαο ζχγθξηζεο
EMvsKmeans

50
genomes
.

............

91

Ξίλαθαο 5.23

Γείγκα Βαθηεξίσλ.

................................
...................

93

Ξίλαθαο

5.23

Αλαιπηηθφ

Distribution EM Glycolysis/ Gluconeogenesis.

98

Ξίλαθαο

5.24

Αλαιπηηθφ

Distrib
ution EM Citrate cycle

......................

99

Ξίλαθαο

5.25

Αλαιπηηθφ

Distribution EM Cysteine and methionine
metabolism

................................
...........................

101

Ξίλαθαο

5.26

Αλαιπηηθφ

Distribution EM Valine, Leucine and isoleucine
biosynthesis

................................
..........................

102

Ξί
λαθαο

5.27

Αλαιπηηθφ

Distribution EM Lysine biosynthesis

...........

103

Ξίλαθαο 5.
28

Γείγκα Φπηψλ.

................................
......................

104

Ξίλαθαο 5.29

EM

ζην
pathway

ησλ Φπησλ.

................................
...

106

Ξίλαθαο
D
.1

Ξίλαθαο ξνήο

................................
........................

143

Ξίλαθαο
D
.2

Αξρηθφο πίλαθαο παξαδείγκαηνο
MCL

........................

144

Ξίλαθαο
D
.3

Αξρηθφο πίλαθαο παξαδείγκαηνο
MCL

........................

145

Ξίλαθαο
D
.
4

MCL

10
genomes
.

................................
..................

146

Ξίλαθαο
D
.
5

MCL

10
genomes
.

................................
..................

146

Ξίλα
θαο

E.1

k
-
means
Glycolysis / Gluconeogenesi
βαθηεξίσλ
.

.....

147

Ξίλαθαο

E.2

k
-
means
Citrate cycle
βαθηεξίσλ
.

...........................

148

Ξίλαθαο

E.3

k
-
means
Cysteine and methionine metabolism
βαθηεξίσλ
.

................................
................................
...........

149

Ξίλαθαο

E.4

k
-
means
Valine, leucine and isoleucine
biosynthesis
βαθηεξίσλ
.

................................
..........

150

Ξίλαθαο

E.5

k
-
means
Lysine biosynthesis
βαθηεξίσλ
.

..................

151

Ξίλαθαο

E.6

k
-
means
Glucosinolate biosynthesis
επθαξπσηηθψλ
.

...

152

Ξίλαθαο

E.7

Hierarchical
Glucosinolate biosynthesis
επθαξπσηηθψλ
.

152

Ξίλαθαο
E
.8

DBscan
Glucosinolatebiosynthesis

επθαξπσηηθψλ
.

.......

153

Ξίλαθαο

E.9

DBscan
Glucosinolate biosynthesis
βαθηεξίσλ
.

..........

154

Ξίλαθαο

E.10

DBscan
Citrate cycle
βαθηεξίσλ
.

..............................

156

Ξίλαθαο

E.11

DBscan

Cysteine and methionine metabolism

βαθηεξίσλ
.

................................
................................
...........

157

Ξίλαθαο

E.12

DBscan
Valine, leucine and isoleucine biosynthesis
βαθηεξίσλ
.

................................
...........................

159

Ξίλαθαο
E
.13

DBscan
Lysinebiosynthesis

βαθηεξίσλ
.

......................

160

Ξίλαθαο

F.1

DBscan

vs 50 kmeans 50 genomes.

.........................

169

Ξίλαθαο

F.2

DBscan

vs EM 50 genomes.

................................
....

174







Κεφϊλαιο 1.
Ειςαγωγό



1.1

Βιοπληροφορική


Ζ κεγαιχηεξε βηνινγηθή αλαθάιπςε ηνπ 20νπ αηψλα, ε αλαθάιπςε
δειαδή ηεο δηπιήο έιηθαο ηνπ DNA ην 1953 απφ ηνπο James D. Watson
θαη Francis Crick θαη ε γελεηηθή επαλάζηαζε πνπ αθνινχζεζε απφ ηελ
απνθξππηνγξάθεζή

ηνπ, έκειε λα γίλεη ε αθνξκή γηα ηε γέλλεζε ε
λφο
λένπ επηζηεκνληθνχ θιάδνπ, ν νπνίνο πξνέθπςε απφ ηε ζπλεξγαζία ησλ
επηζη
εκψλ ηεο

κνξηαθήο βηνινγίαο

θαη
ηεο

πιεξνθνξηθήο, ηεο
βηνπιεξνθνξηθήο.
Ζ ζπιινγή, ε επεμεξγαζία θαη ε αλάιπζε ζπγθξίζηκσλ
δεδνκέλσλ απφ δηάθνξα θπηηαξηθά πξνθίι απαηηεί γλψζε απφ π
νιιά
δηαθνξεηηθά επηζηεκνληθά πεδία πνπ «δηαπεξλνχλ» ηα παξαδνζηαθά
ζχλνξα αλάκεζα ζηηο επηκέξνπο εηδηθφηεηεο, φπσο κεραληθή θαη επηζηήκε
ησλ ππνινγηζηψλ, ζηαηηζηηθή θαη εθαξκνζκέλα καζεκαηηθά, θαζψο θαη
ρεκεία, θπζηθή θαη βηνινγία. Έηζη κε ηελ απμαλφκελε
ρξήζε ππνινγηζηψλ
απφ βηνιφγνπο
,

ε Βηνπιεξνθνξηθή εδξαηψζεθε σο θιάδνο ηεο Βηνινγίαο.


Ν φξν
ο Bioinformatics (Βηνπιεξνθνξηθή
) ρξεζηκνπνηήζεθε γηα
πξψηε θνξά ην 1978 απφ ηνπο Paulien Hogeweg

and Ben Hesper θαη
απνηειεί πιένλ ηελ επηζηήκε ηεο έξεπλαο θαη αλά
πηπμεο κεζφδσλ κε
ζθνπφ ηελ δηεξεχλεζε, αλάιπζε θαη θαηαγξαθή ησλ βηνινγηθψλ
δεδνκέλσλ πνπ παξάγνληαη κε θαηαηγηζηηθφ ξπζκφ. Ζ επηζηήκε ησλ
ππνινγηζηψλ ε νπνία πξνζθέξεη ηελ ππνινγηζηηθή ηζρχ γηα ηε δηεμαγσγή
πεηξακάησλ θαη νη αιγφξηζκνη αλάιπζεο δεδνκέλσλ

πνπ ρξεζηκνπνηνχληαη
«δεκηνχξγεζαλ» έλα λέν ηξφπν δηεμαγσγήο πεηξακάησλ. Κέρξη
πξφζθαηα
,

ηα δχν γλσζηά είδε ήηαλ ηα πεηξάκαηα in vivo , ησλ νπνίσλ ε
δηεμαγσγή γηλφηαλ απεπζείαο ζε νξγαληζκνχο θαη ηα in vitro πνπ
πξαγκαηνπνηνχηαλ ζηνπο δνθηκαζηηθνχο ζσιήλε
ο ζηα εξγαζηήξηα ησλ
επηζηεκψλ. Ξιένλ
,

ε ρξήζε ησλ ππνινγηζηψλ εηζήγαγε θαη ηα πεηξάκαηα
in silico (απφ ηε ζηιηθφλε πνπ είλαη θηηαγκέλα ηα chips ησλ
κηθξνεπεμεξγαζηψλ), ηα νπνία αλαθέξνληαη ζε απηά πνπ
πξαγκαηνπνηνχληαη εμνινθιήξνπ κε ρξήζε ειεθηξνληθψλ ππ
νινγηζηψλ.

2

Θ ε θ ά ι α η ν 1
ν

Σ.Σαηδερξήζηνο
AUTH 2012

Ζ ζπλερφκελε παξαγσγή πιεξνθνξηψλ θαη ν ηεξάζηηνο φγθνο
δεδνκέλσλ
,

είρε ζαλ απνηέιεζκα ηε δεκηνπξγία πνιιψλ βάζεσλ
δεδνκέλσλ
,

γηα ηελ θαιχηεξε απνζήθεπζε αλαδήηεζε θαη νξγάλσζε
απηψλ ησλ πιεξνθνξηψλ. Θάπνηεο απφ ηηο ζεκαληηθφηεξεο βάζεηο
δεδνκέλ
σλ ζη
νλ ηνκέα
, ηηο νπνίεο ζα ρξεζηκνπνηήζνπκε ζηα
πιαίζηα

ηεο
δηπισκαηηθήο είλαη νη:


• KEGG

(Kyoto Encyclopedia of Genes and Genomes).
Κηα
ειεθηξνληθή βάζε δεδνκέλσλ κε βηνρεκηθά κνλνπάηηα
,

ε νπνία
αλαπηχρζεθε σο κέξνο ελφο πξνγξάκκαηνο ηνπ Θέληξνπ
Βηνπιεξνθνξηθήο ηνπ Ξαλεπηζηεκίνπ ηνπ
Θηφην
.

• NCBI
(National

Center for Biotechnology
Information)
.
Ρν NCBI
(Δζληθφ Θέληξν Βηνηερλνινγίαο ηεο Ακεξηθήο) είλαη κία πεγή
πιεξνθνξηψλ κνξηαθήο
βηνινγίαο θαη πεξηιακβάλεη έλα ζχζηεκα
αλαδήηεζεο θαη αλεχξεζεο βηβιηνγξαθίαο θαη αξζξνγξαθίαο απφ
επηζηεκνληθά πεξηνδηθά απφ ηηο θπξηφηεξεο βάζεηο δεδνκέλσλ, ζηηο νπνίεο
πεξηιακβάλνληαη νη θάησζη: PubMed, Nucleotide θαη Protein Sequences,
Protein Structur
es, Complete Genomes, Taxonomy, θαη άιιεο.

• COGENT (COmplete GENome Tracking). Βάζε δεδνκέλσλ ε νπνία
θαηαγξάθεη ηελ θάζε
πξσηεΐλε

κε ην έηνο
δεκνζίεπζή
ο

ηεο.


Όπσο ήηαλ θπζηνινγηθφ
,

νη ηερληθέο εμφξπμεο δεδνκέλσλ γλψξηζαλ
επξεία εθαξκνγή θαη ζηηο βάζεηο
δεδνκέλσλ ηεο
Βηνπιεξνθνξηθήο.Ζ

εμφξπμε δεδνκέλσλ αλαθέξεηαη ζηελ εμαγσγή γλψζεο κέζα απφ ηεξάζηηα
πνζά πιεξνθνξίαο. Ξεξηιακβάλεη ηερληθέο φπσο αλαγλψξηζε πξνηχπσλ,
λεπξσληθά δίθηπα, επεμεξγαζία εηθφλσλ θαη ζεκάησλ, θαη άιιεο. Δίλαη
πξνθαλέο ινηπφλ πσο ν η
εξάζηηνο φγθνο δεδνκέλσλ πνπ αλαθέξζεθε
παξαπάλσ απνηειεί έλα ηδαληθφ πεξηβάιινλ εμφξπμεο δεδνκέλσλ.
΢πάξρνπλ ήδε πνιιά παξαδείγκαηα εθαξκνγήο ησλ ηερληθψλ εμφξπμεο
δεδνκέλσλ ζε πνιιά είδε δεδνκέλσλ πνπ πξνέξρνληαη απφ ηνλ ρψξν ηεο
Βηνπιεξνθνξηθήο


1.2

΢τόχοι

τησ διπλωματικήσ


Πηφρνο ηεο δηπισκαηηθήο εξγαζίαο είλαη ε ζπζρέηηζε ησλ
θπινγελεηηθψλ πξνθίι κε ηα κεηαβνιηθά κνλνπάηηα (
metabolic
pathways
)
,

ζηα νπνία ζπκκεηέρνπλ ηα αληίζηνηρα γνλίδηα. Πηε βηνρεκεία,
έλα κεηαβνιηθφ κνλνπάηη είλαη κηα αιιεινπρία ρεκηθψλ
αληηδξάζεσλ, νη
νπνίεο ιακβάλνπλ ρψξα εληφο ελφο θπηηάξνπ. Πε θάζε κνλνπάηη νξίδεηαη
έλα θεληξηθφ (ή πξσηεχνλ) ρεκηθφ ζπζηαηηθφ, ην νπνίν ζηε ζπλέρεηα
Δ η ζ α γ σ γ ή

3

Σ.Σαηδερξήζηνο
AUTH 2012

κεηαβάιιεηαη απφ αληηδξάζεηο πνπ θαηαιχνληαη απφ έλδπκα θαη απαηηνχλ
ζπρλά ηελ χπαξμε επηπξφζζεησλ ζηνηρε
ίσλ (φπσο κεηαιιηθά ζηνηρεία,
βηηακίλεο, ακηλνμέα θ.α.)


Κε ηελ εηζαγσγή απηή ηεο γλψζεο ζην ζχζηεκα, θαη επνκέλσο
εθαξκφδνληαο έλα
λ

παξάγνληα πεξηνξηζκνχ ηεο ειεπζεξίαο ηνπ
ζπζηήκαηνο, είλαη δπλαηή ε νκαδνπνίεζε ησλ θπινγελεηηθψλ πξνθίι ζε
επίπεδν κεηαβνι
ηθψλ κνλνπαηηψλ, επηηξέπνληαο έηζη ηελ εμαγσγή
ελδ
ηαθεξφ
λησλ ζπκπεξαζκάησλ.


1.3

Μεθοδολογία


H

κέζνδνο πνπ
αλαπηχρζεθε ζηα πιαίζηα ηεο

παξνχζα
ο

δηπισκαηηθή
ο

βαζίδεηαη ζηελ ππφζεζε φηη πξσηεΐλεο κε κεγαιχηεξν βαζκφ
νκνηφηεηαο έρνπλ θαη απμεκέλεο πηζαλφηεηεο λα

έρνπλ θνηλή εμειηθηηθή
πνξεία θαη θαη’ επέθηαζε παξφκνηεο ιεηηνπξγηθέο ηδηφηεηεο.
Ζ πξνζέγγηζε
απηή αμηνπνηεί ην θπινγελεηηθφ πξνθίι σο ηξφπν έθθξαζεο ησλ
πξσηετληθψλ δεδνκέλσλ. Έλα θπινγελεηηθφ πξνθίι
,

ελ ζπληνκία
,

είλαη
έλα ραξαθηεξηζηηθφ δηάλπζκα θάζε πξσηεΐλεο πνπ πεξηγξάθεη ζε πνηα
γνληδηψκαηα εκθαλίδεηαη ε πξσηεΐλε θαη ζε πνηα φρη.



Υο είζνδνη αξρηθά ιακβάλνληαη ηα genomes πνπ ζπκκεηέρνπλ ζε
θάπνην κνλνπάηη path, ή
ράξηε

map απφ ηελ βάζε KEGG, ζηε ζπλέρεηα
ππ
νβάιινληαη

ζηελ NCBI ψζηε λα πάξνπκε ηελ αληίζηνηρε
πξσηεΐλε

θαη
ηέινο αληηζηνηρίδνληαη απφ ηελ βάζε Profuse ηα αληίζηνηρα
θπινγελεηηθάπξνθίι
. Απφ ηα
θπινγελεηηθάπξνθίι

ησλ
πξσηετλψλ

πνπ
ζπκκεηέρνπλ ζε ζπγθεθξηκέλν κνλνπάηη
,

κε ηε ρξήζε ησλ αιγνξίζκσλ
ΔΚ(E
xpectation
-
Maximization Algorithm)
, DBscan, Kmeans, Hierarchical
θαη MCL (Markov Cluster Algorithm)
,

πξνρσξάκε ζηελ νκαδνπνίεζε ησλ
απνηειεζκάησλ.


1.4

Περιεχόμενα


Ρν ππφινηπν ηεο δηπισκαηη
θήο αθνινπζεί ηελ παξαθάησ δνκή
:

Πην 2
ν

θεθάιαην γίλεηαη ν πξνζδηνξηζ
κφο θαη ε πεξηγξαθή ηνπ
πξνβιήκαηνο πνπ θαιείηαη λα απαληήζεη ε εξγαζία θαη αλαθέξεηαη ζε
δηάθνξεο κεζφδνπο πνπ έρνπλ ήδε εθαξκνζηεί.

4

Θ ε θ ά ι α η ν 1
ν

Σ.Σαηδερξήζηνο
AUTH 2012

Πην 3
ν

θεθάιαην πεξηγξάθεηαη ε εθαξκνγή
GenomeWebApp
,

νη
βάζεηο δεδνκέλσλ πνπ ρξεζηκνπνηήζεθαλ
,
ν ηξφ
πνο κε ηνλ νπνίν έγηλ
ε ε
ζχλδεζή

ηνπο κε ην πξφγξακκα γηα ηελ εμφξπμε ησλ επηζπκεηψλ
δεδνκέλσλ
,
θαζψο θαη ε γεληθή αξρηηεθηνληθή θαη απφδνζε ηεο
εθαξκνγήο.

Πην
4
ν

θεθάιαην πεξηγξάθνληαη νη αιγφξηζκνη πνπ ρξεζηκνπνηήζεθαλ
θαη γεληθά νη
clustering
αιγφξηζκνη

Πην
5
ν

θεθάιαην παξνπζηάδνληαη πεηξάκαηα πνπ πξαγκαηνπνηήζεθαλ
γηα ηνλ έιεγρν ηνπ
βέιηηζηνπ
αιγφξηζκνπ.

Πην
6
ν

θεθάιαην θαηαγξάθνληαη ηα ζπκπεξάζκαηα πνπ πξνθχπηνπλ
απφ ηελ κειέηε. Δπηπιένλ
,

αλαθέξνληαη πεξηπηψζεηο επέθηαζεο θαη
βειηίσζεο ηεο κεζφδνπ.

Αθνινπζεί ε βηβιηνγξαθία θαη ηα παξαξηήκαηα.

Ξ
αξάξηεκα
Α
απνηειεί ην
manual

ρξήζεο ηεο εθαξκνγήο.

Ξαξάξηεκα
B
απνηεινχλ ηα
sourcefiles

ηεο εθαξκνγήο.

Ξαξάξηεκα
C

νη νδεγίεο
ρξήζεο θαη
εγθαηάζηαζεο ησλ
WEKA
θαη
UCINET
.

Ξαξάξηεκα
D

απνηειεί ν αιγφξηζκνο
MCL
θα
η ηα πεηξάκαηα πνπ
έγηλαλ κε απηφλ.

Ξαξάξηεκα
E
ελαιιαθηηθνί αιγφξηζκνη
clustering
ζηα
maps
ησλ
πεηξακάησλ ηνπ Θεθαιαίνπ 5
.


Ξαξάξηεκα F
ζπ
γθξηηηθν
ί

πίλαθεο DBscan.





Κεφϊλαιο 2.
Περιγραφό του προβλόματοσ



2.1

Genomes


Proteins


Gens


Ρνλ 5ν
π.ρ.

αηψλα ν

Ηππνθξάηεο

ρξεζηκνπνίεζε γηα πξψηε θνξά
ηνπο φξνπο «γφλνο» θαη «γέλνο»
,

φηαλ
,

κηιψληαο γηα ηελ επηιεςία
(θείκελν «Ξεξί Ηεξήο Λφζνπ»), ήζειε λα δηεπθξηλίζεη φηη δελ επξφθεηην γηα
ζεφζηαιηε λφζν αιιά γηα θιεξνλνκηθά κεηαβηβαδφκελε («σο ν γφλνο
έξρεηαη παληφζελ ηνπ ζψκαηνο, απφ ηε ησλ πγηεξψλ πγηεξφο θαη απφ ησλ
λνζεξψλ λνζεξφο»).
Πηε

ζπλέρεηα
,
ν φξνο γνλίδην (gene) θαζηεξψζεθε ην
1902 απφ ηνλ Γαλφ βνηαλνιφγν Wilhelm Johannsen, σο ην «φρεκα»
κεηαβίβαζεο θιεξνλνκηθψλ ραξαθηεξηζηηθψλ φπσο απηή θαζνξηδφηαλ απφ
ηνπο λφκνπο ηνπ πξσηνπφξνπ βνηαλνιφγνπ Mendel (1865). Ρν λφεκα ηνπ
γνληδίνπ
-
gen
e

βέβαηα
,

ηφηε
,

ζηηο αξρέο ηνπ 20νπ αηψλα
,

ήηαλ ζα ιέγακε
«αθεξεκέλν», νξηδφκελν κελ απφ ηα θαηλφκελα θιεξνλνκηθφηεηαο πνπ
εξκήλεπε, αιιά ρσξίο «εηθφλα» ηεο πιηθήο ηνπ ππφζηαζεο θαη αζθαιψο
πνιχ καθξηλφ αθφκε απφ νπνηαδήπνηε έλλνηα άκεζεο παξέκβαζεο ζηε
θχ
ζε θαη ηε δξάζε ηνπ εθ κέξνπο ηνπ αλζξψπνπ. Ζ ηφηε επηζηεκνληθή
παξέκβαζε αθνξνχζε επηινγή ησλ θαηάιιεισλ γφλσλ πξνο δηαζηαχξσζε
κε ζθνπφ ηνλ επηζπκεηφ θαηλφηππν
.


Ν φξνο
γνληδίσκα


genome
, αλαθέξεηαη ζε νιφθιεξε ηελ
αθνινπζία ηνπ DNA ελφο δσληαλνχ νξγαληζκνχ
φζν θαη
ζ
ηηο κε
θσδηθνπνηεκέλεο αθνινπζίεο
DNA

θαη θαηεπζχλεη ηε θπζηθή αλάπηπμε θαη
ηε ζπκπεξηθνξά ηνπ.

Ν φξνο πξνηάζεθε γηα πξψηε θνξά ην 1920 απφ ηνλ
θαζεγεηή ηνπ παλεπηζηεκίνπ ηνπ
Ακβνχξγνπ,
HansWinkler
θαη
,

ζχκθσλα
κε ην ιεμηθφ ηεο Νμθφξδεο
,

πξνθχπηεη σο ζχλζεζε ησλ φξσλ γνλίδην θαη
ρξσκφζσκα. Πηνπο επθαξησηηθνχο νξγαληζκνχο
,

ν φξνο γνληδίσκα
αλαθέξεηαη κφλν ζην ζηηο πιεξνθνξίεο απφ ην ρξσκνζσκηθφ
DNA
.


T
α γνληδηψκαηα ησλ δηαθφξσλ
νξγαληζκψλ
εκθαλίδνπλ
ζεκαληηθή
πνηθηινκνξθία. Ζ πνηθηινκνξθία δελ αθνξά κφλν ην κέγεζνο ηνπ
genome
,
αιιά

θαη ηνλ ηξφπν απνζήθεπζεο ηεο πιεξνθνξίαο, είηε σο
6

Θ ε θ ά ι α η ν 2
ν

Σ.Σαηδερξήζηνο
AUTH 2012

κνλφθισλν
,
είηε σο
δίθισλν
DNA
ή
RNA
. Δπηπιένλ
,

κεξηθά
γν
λη
δη
ψκαηα

είλαη γξακκηθά (φπσο πρ ζηα ζειαζηηθ
ά)
,

ελψ άιια θπθιηθά (πρ ζηα
βαθηήξηα). Δλψ ην κέγεζνο ησλ βαθηεξηαθψλ γνληδησκάησλ ζπζρεηίδεηαη
άκεζα κε ην επίπεδν γελεηηθήο πνιππινθφηεηαο, ζηα επθαξπσηηθά
ελδέρεηαη λα ππάξρνπλ κεγάιεο αθνινπζίεο
,

πνπ δε ζρεηίδνληαη κε ηελ
θσδηθνπνίεζε
πξσηετλψλ

ή
κνξί
σλ

ηνπ
RNA
.
Έη
ζ
η
,

νξγαληζκνί πνπ
κνηξάδνλη
αη ηηο ίδηεο βαζηθέο ιεηηνπξγίε
ο
,

κπνξεί λα έρνπλ κεγά
ιε πνηθηιία
ζην κέγεζνο ηνπ γνλη
δηψκαηνο. Γηα παξάδεηγκα
,

ηα ζπνλδπισηά κε ηε
κεγαιχηεξε πνζφηεηα
DNA
αλά

θχηηαξν είλ
αη ηα ακθίβηα θαη ηα
γνληδηψκαηά

ηνπο θαιχπη
νπλ κηα ηεξάζηηα γθάκα απφ
700
Mbp
έσο

θαη
πάλσ απφ 80.000
Mbp

(δεχγε
βάζεσλ
,
basepairs
)
,
εληνχηνηο είλαη ζίγνπξα
ιηγφηεξν ζχλζεηνη νξγαληζκνί απφ ηνλ άλζξσπν.




ΟΡΓΑΝΙ΢ΜΟ΢



ΑΡΙΘΜΟ΢ ΕΔΤΓΩΝ
ΒΑ΢ΔΩΝ (
basepairs
)



ΑΡΙΘΜΟ΢
ΓΟΝΙΓΙΩΝ

HIV

9.749

7

Αλζξψπηλν
κηηνρφλδξην
=
NSKRSV
=

=
䕳捨敲i捨ca=捯汩
=
QKSPVKOON
=
㐮㐰Q
=
䅲Abid潰oi猠瑨a汩ana=⠱F
=
ㄮㄷN


8

25.498

Άλζξσπνο
=
㌮㈠


9

34.000

Πηηάξη
=
ㄶN


9

30.000

Marbled Lungfish (2)

130 x
10
9



Πίλαθαο
2.
1

Μέγεζνο Γνληδηωκάηωλ.
[10
]

(1). Ρν πξψην θπηφ πνπ απνθξππηνγξαθήζεθε ην 2000.

(2). Ρν κεγαιχηεξν γλσζηφ καο γνληδίσκα.



Ν
η
πξσηεΐλεο
απνηεινχλ
ηα πην δηαδεδνκέλα θαη πνιπδηάζηαηα
καθξνκφξηα
,

ηφζν ζηε κνξθή
,

φζν θαη ζηε ιεηηνπξγία ηνπο. Αθφκε θα
η ζε
έλα απιφ θχηηαξν βαθηεξίνπ είλαη δπ
λαηφλ

λα εληνπηζηνχλ εθαηνλ
ηάδεο
δηαθνξεηηθέο πξσηεΐλεο, ελψ ζην αλζξψπηλν ζψκα ππάξρνπλ
πεξηζζφηεξεο απφ ηξηάληα ρηιηάδεο δηαθνξεηηθέο
πξσηεΐλεο
.
Απνηεινχλ
δνκηθά ζπζηαηηθά

ηνπ θπηηάξνπ
θαη

ζπλεξγνχλ ζε δηαδηθαζίεο ιεηηνπξγίαο
ηνπ.
Ν
δηαρσξηζκφ
ο
ηνποζενκάδε
ογίλεηαηκεδηάθνξαθξηηήξηα
.
Κ
ε βάζε ηε

ζχλζεζή ηνπο δηαθξίλνληαη ζε απιέο (
όζεο απαξηίδνληαη κόλν από
ακηλνμέα
) θαη ζε ζχλζεηεο (
όηαλ ζην κόξηό

ηνπο πεξηιακβάλνλ
ηαη θαη
ηκήκαηα όπωο κέηαιια, ιί
πε θ.α.
). Κ
ε βάζε ηε ιεηηνπξγία
ηνπο,

ρσξίδνληαη ζε δνκηθέο θαη ιεηηνπξγηθέο. Ν ξφινο ηνπο είλαη ζχλζεηνο θαη
Ξ ε ξ η γ ξ α θ ή π ξ ν β ι ή κ α η ν ο

7

Σ.Σαηδερξήζηνο
AUTH 2012

πνιππνίθηινο,
θαζψο
ζπκκεηέρνπλ σο έλδπκα
,

θαηαιχνληαο βηνρεκηθέο
αληηδξάζεηο δσηηθήο ζεκαζίαο
,

ζην κεηαβνιηζκφ

κεηαμχ άιισλ
.


Ππγθεθξηκέλα
,
ν
η πξσηεΐλεο ραξαθηεξίδνληαη σο κεγάια ζχλ
ζεηα
βηνκφξηα, κε κνξηαθφ βάξνο πνπ κπνξεί λα μεπεξλάεη ην έλα εθαηνκκχξην
.
Ξαξάγνληαη ζην
θπηφπιαζκα,

θαη ζπγθεθξηκέλα ζηα ξηβνζψκαηα
,

θαη
απνηεινχληαη απφ κηα ε παξαπάλσ
πνιππηπηεδηθέο

αιπζίδεο
ακηλνμέσλ.Μ
εθηλνχλ σο απιέο
,

κε δηαθιαδσκέλεο αιιεινπρίεο ακ
ηλνμέσλ
,

ρξεζηκνπνηψληαο πιεξνθνξίεο θσδηθνπνηεκέλεο ζηα
γνλίδηα.
Θ
άζε
πξσηεΐλε
έ
ρεη ηε δηθή ηεο κνλαδηθή αθνινπζία ακηλνμέσλ
, πνπ
πξνζδηνξίδεηαη απφ ηε

λνπθιενηηδηθή αθνινπζία ηνπ γνληδίνπ πνπ πα
ξάγεη
ηελ ζπγθεθξηκέλε πξσηεΐλε. Πηα θχηηαξα έρνπλ αληρλεπζε
ί 170
δηαθνξεηηθά ακηλνμέα
,

εθ ησλ νπνίσλ κφλν είθνζη απνηεινχλ ζπλήζσο
ζπζηαηηθά ησλ πξσηετλψλ.
Κηα αθνινπζία πξσηεΐλεο µπνξεί λα ζεσξεζεί
σο µηα
ζπκβνινζεηξά
, απφ έλα αιθάβεην
ησλ
20
απηψλ
ραξαθηήξσλ

ησλ
ακηλνμέσλ
, Π= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, G
ly, Hsi,Ile, Leu, Lys,
Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.



























Πίλαθαο
2.
2

Ακηλνμέα πνπ ζπκκεηέρνπλ ζην ζρεκαηηζκό πξωηεϊλώλ


8

Θ ε θ ά ι α η ν 2
ν

Σ.Σαηδερξήζηνο
AUTH 2012

Ρα
γνλίδηα


genes
απνηεινχλ ηηο βαζηθέο
κνλάδεο ηεο
θιεξνλνκηθφηεηαο,
έ
λα γνλίδην θσδηθνπνηεί
-
encodes µία πξσηεΐλε
,

αθνχ
απνζεθεχεη ηηο απαξαίηεηεο πιεξνθνξίεο γηα ηελ θαηαζθεπή
ηεο.


2.2

Μεταβολικά Μονοπάτια


Πηε

Βηνινγία
,

κε ηνλ φξν

κεηαβνιηζκφο

ραξαθηεξίδεηαη ην αζξνηζηηθφ
ζχλνιν ησλ βηνρεκηθψλ δηεξγαζηψλ πνπ γίλνληαη
ζηα

θχηηαξα

ελφο
δσηθνχ ή θπηηθνχ

νξγαληζκνχ. Νη δηαδηθαζίεο απηέο επηηξέπνπλ ηελ
αλάπηπμε θαη ηελ αλαπαξαγσγή ησλ νξγαληζκψλ, ηε δηαηήξεζε ησλ
δνκψλ ηνπο θαη ηελ πξνζαξκνγή ηνπο ζε εμσηεξηθά εξεζίζκαηα θαη
πεξηβαιινληηθέο ζπλζήθεο. Ππλεπψο
,

ν κεηαβνιηζκφο

πεξηιακβάλεη φιεο
εθείλεο ηηο βηνρεκηθέο δηαδηθαζίεο πνπ εκπιέθνληαη ζηελ παξαγσγή θαη
απειεπζέξσζε ηεο ελέξγεηαο, θαζψο θαη ζηελ αχμεζε. Έηζη
,

εθ ηνπ
παξαπάλσ πξνζδηνξηζκνχ
,

νη δηαδηθαζίεο απηέο κπνξεί λα είλαη:

είηε
αλαβνιηθέο
, φπσο είλαη ε παξαγσγή πξσ
ηετλψλ (ζηνρεχνπλ ζηε ζχλζεζε
νπζηψλ), είηε θαηαβνιηθέο φπσο είλαη ε θπηηαξηθή αλαπλνή (πνπ
ζηνρεχνπλ ζηε δηάζπαζε νξγαληθψλ πιψλ γηα ηελ παξαγσγή ελέξγεηαο).

Κηα αθνινπζία ελδπκηθψλ αληηδξάζεσλ, θαηά ηελ νπνία ην πξντφλ
ηεο κηαο ελδπκηθήο αληίδξαζεο ρξεζη
κεχεη σο ππφζηξσκα ηεο άιιεο θαη
έλα ρεκηθφ ζπζηαηηθφ «κεηακνξθψλεηαη» κέζα απφ κηα ζεηξά απφ βήκαηα
ζε κηα άιιε ρεκηθή νπζία, νλνκάδεηαη κεηαβνιηθφ
κνλνπάηη

(pathway). Ρα
κεηαβνιηθά κνλνπάηηα ζπρλά ζεσξνχληαη φηη θηλνχληαη πξνο κία κφλν
θαηεχζπλζε. Αλ θαη

φιεο νη ρεκηθέο αληηδξάζεηο είλαη ζεσξεηηθά
αληηζηξέςηκεο, νη ζπλζήθεο κέζα ζην θχηηαξν είλαη ηέηνηεο
,

ψζηε είλαη
ζεξκνδπλακηθά επλντθφηεξν
,

ε ζπγθφιιεζε ησλ αληηδξάζεσλ λα γίλεηαη
πξνο κία κφλν θαηεχζπλζε. Γηα παξάδεηγκα, έλα κνλνπάηη κπνξεί λα είλαη
ππε
χζπλν γηα ηελ ζχλζεζε ελφο ζπγθεθξηκέλνπ ακηλνμέσο, αιιά ε
δηάζπαζε ηνπ ίδηνπ ακηλνμέσο γίλεηαη απφ έλα αλεμάξηεην κνλνπάηη.
Κηα
εμαίξεζε απηνχ ηνπ θαλφλα είλαη ν κεηαβνιηζκφο ηεο γιπθφδεο. Ζ
Glycolysis
(
ε νπνία ήηαλ ην πξψην κεηαβνιηθφ κνλνπάηη πνπ
αλαθαιχ
θζεθε)
,

έρεη ζαλ απνηέιεζκα ηελ απνζχλζεζε ηεο γιπθφδεο
,

φκσο πνιιέο αληηδξάζεηο ζην
pathway
ηεο
glycolysis
είλαη αληηζηξέςηκεο
θαη ζπκκεηέρνπλ ζηελ επαλαζχλζεζε ηεο γιπθφδεο.


Ρα έλδπκα παίδνπλ ζεκαληηθφ ξφιν ζηελ επηηέιεζε ησλ κεηαβνιηθψλ
κνλνπαηηψλ
, δηφηη ειέγρνπλ θαη θαζνξίδνπλ ηε ζεηξά κε ηελ νπνία
γίλνληαη νη αληηδξάζεηο, ζπγθξαηψληαο ηα πξντφληα ησλ πξνεγνχκελσλ
Ξ ε ξ η γ ξ α θ ή π ξ ν β ι ή κ α η ν ο

9

Σ.Σαηδερξήζηνο
AUTH 2012

αληηδξάζεσλ θνληά ην έλα ζην άιιν, ψζηε λα ιάβνπλ κέξνο ζηελ επφκελε
αληίδξαζε θαη νχησ θαζεμήο. Πε
έλα κεηαβνιηθφ κνλνπάηη

ε ζπζζψξεπζ
ε
ηνπ ηειηθνχ πξντφληνο κπνξεί λα πξνθαιέζεη αλαζηνιή ζηε δξάζε ηνπ
αξρηθνχ ελδχκνπ.


Ρα κεηαβνιηθά κνλνπάηηα πνπ ππάξρνπλ ζε θάζε δσληαλφ νξγαληζκφ
είλαη απηά ηεο
Glycolysis
,
ηεο
Αεξφβηαο

ε Αλαεξφβηαο
Αλαπλνήο

(
Aerobic
/

Anaerobic respiration)
, ηνπ Θχθινπ
ηνπ
ΘηηξηθνχΝμέσο
(
CitricAcidCycle
)θαη
ε Νμεηδσηηθή Φ
σζθνξπιίσζε

(
Oxidative phosphorylation
).


2.3

Ανάγκη
κατηγοριοποίηςησ πρωτεΰνών


Ζ πιήξεο
απνθσδηθνπνίεζε

ησλ γνληδησκάησλ πνιιψλ νξγαληζκψλ
πξνζθέξεη ηεξάζηην πινχην πιεξνθνξηψλ θαη κεγάινο ζηφρνο
είλαη

ε
ρ
ξεζηκνπνίεζε απηψλ ησλ πιεξνθνξηψλ γηα ηελ πιήξε απνθσδηθνπνίεζε
ηεο ιεηηνπξγίαο ησλ
πξσηετλψλ

ζε έλα νξγαληζκφ θαη θαη’ επέθηαζε ηελ
θαηαλφεζε η
σλ κνξηαθψλ κεραληζκψλ ηεο δσήο
. Ζ αιιεινπρία δεθάδσλ
ρηιηάδσλ πξσηετλψλ έρεη κειεηεζεί ηα ηειεπηαία ρξφληα
,

θα
ζψο επίζεο θαη
ε δνκή ρηιηάδσλ απφ απηέο. Ξαξ’φια απηά
,

νη πεηξακαηηθέο κέζνδνη γηα
ηελ εχξεζε ηεο αθξηβνχο ιεηηνπξγίαο πξσηετλψλ κε γλσζηή αιιεινπρία
θαη δνκή είλαη αθφκα ηδηαηηέξσο δχζθνιεο θαη απαηηεηηθέο
,

ζε ρξφλν θαη
νηθνλνκηθφ θφζηνο. Ξνιιέο
πξσηεΐλε
ο
κνηξάδνληαη δνκηθά ζηνηρεία θαη
νκνηφηεηεο πνπ αληαλαθινχλ, ζε θάπνηεο πεξηπηψζεηο, ηελ εμειηθηηθή ηνπο
πξνέιεπζε.
Γηαηελ«πξφβιεςε
»

ηεο ιεηηνπξγίαο ησλ πξσηετλψλ
,
είλαη

αλαγθαία ε
θαηεγνξηνπνίεζε

ησλ
πξσηετλψλ
.


Βιοχημική καηηγοπιοποίηζη
:



Πθαηξηθέο ΢δαηνδηαιπηέο
Ξξσηεΐλεο
.



Κεκβξαληθέο
Ξξσηεΐλεο
.



Ηλψδεηο
Ξξσηεΐλεο
.
,



«Κηθηέο»
Ξξσηεΐλεο
.

Γομική καηηγοπιοποίηζη
:


Ζ ίδηα
ε

δηαδηθαζία ηεο εμέιημεο πεξηιακβ
άλεη αληηθαηαζηάζεηο,
εηζαγσγέο
ή
/
θαη αθαηξέζεηο ακηλνμέσλ απφ ηελ αθνινπζ
ία ησλ βηνινγηθψλ
καθξνκνξίσλ.
Γ
ηα παξάδεηγκα
,

νη ιεηηνπξγίεο νξηζκέ
λσλ πξσηετλψλ έρνπλ
ζπληεξεζεί,
ηα δνκηθά πεξηβάιινληα ησλ ακηλνμέσλ ησ
λ ελεξγψλ
θέληξσλ είλαη επίζεο δ
ηαηεξεκέλα.
Γ
ηα λ
α

θαηαλνήζνπκε ην ζχλνιν φισλ
1 0

Θ ε θ ά ι α η ν 2
ν

Σ.Σαηδερξήζηνο
AUTH 2012

απηψλ ησλ ηφζσλ δ
ηαθνξεηηθψλ κα θαη ηφ
ζσλ φκνησλ

ζε κεξηθέο
πεξηπηψζεηο δνκψλ, είλαη αλάγθε λα αληηπαξαβάιινπκε,

λα ζρνιηάζνπκε

θαη λα
νκαδνπνηήζνπκε

φιεο ηηο πξνζδηνξηζκέλεο πξσηεΐλεο.
Ρα πην
δηαδεδνκέλα
ζπζηήκαηα θαηεγνξηνπνίεζεο πξσηετληθψλ δνκψλ είλαη ε
βάζε
SCOP

(Structural Classification

of Proteins)
[
2
0]
θαη ε βάζε CATH
(
ClassArchitectureTopologyHomologussuperfamily
)
[21]
, πνπ δηαηεξείηαη
ζην Ξαλεπηζηήκην UCL. Ρα θχξηα θξηηήξηα πνπ ρξεζηκνπνηνχλ γηα ηε
δνκηθή θαηεγνξηνπνίεζε ησλ πξσηετλψλ είλαη ηα
εμήο
:




«Οικογένεια» (Family).

Νη πξσηεΐλεο νκαδνπνηνχληαη ζηελ ίδηα
νηθνγέλεηα κε βάζε
ηηο εμειηθηηθέο ηνπο ζπγγέλεηεο,

αλ δειαδή νη
ακηλνμηθέο αθνινπζίεο ησλ πξσηετλψλ είλαη φκνηεο κεηαμχ ηνπο ζε
πνζνζηφ κεγαιχηεξν απφ 30% (Sequence Identity >= 30%)
,

ηφηε
απνηεινχλ κέιε ηεο ίδηαο νηθ
ν
γέλεηαο
(
SCOP
,
CATH
)
.



«
Τπε
π
-

οικογένεια» (Superfamily).

Νη πξσηεΐλεο ηαμηλνκνχληαη
ζηελ ίδηα ππεξ
-
νηθνγέλεηα
,
αλ

κε βάζε ηα δνκηθά θαη ιεηηνπξγηθά
ραξαθηεξηζηηθά ηνπο κπνξνχκε λα ηνπο απνδψζνπκε θάπνηα θνηλή
εμειηθηηθή ζρέζε. (
SCOP
)



«Γίπλωμα» (Fold).

Ξξσηεΐλεο νη νπνίεο πξνέξρνληαη απφ
δηαθνξεηηθέο νηθνγέλεηεο ή/θαη ππεξ
-
νηθνγέλεηεο αλήθνπλ ζε κηα θνηλή
νκάδα (δηπιψκαηνο) εάλ έρνπλ ηα ίδηα ζηνηρεία δεπηεξνηαγνχο δνκήο
ζηελ ίδηα νξγάλσζε θαη κε ηελ ίδηα ηνπνινγία. (
SCOP)



«Σάξη» (Class).

Ρέζζεξηο θχξηε
ο δνκηθέο θαηεγνξίεο πξσηετλψλ
έρνπλ ηαπηνπνηεζεί κε βάζε ηνλ ηξφπν πνπ δηπιψλνπλ ηα ζηνηρεία
δεπηεξνηαγνχο δνκήο
ηνπο
(
SCOP
,
CATH
)
:












Σρήκα
2.
1

Γνκηθέο θαηεγνξίεο πξωηεϊλώλ αλάινγα κε ηελ ηάμε ηνπο.

Ξ ε ξ η γ ξ α θ ή π ξ ν β ι ή κ α η ν ο

1 1

Σ.Σαηδερξήζηνο
AUTH 2012

a) all
-
α
, ε δνκή
νπζηαζηηθά ζρεκαηί
δεηαη απφ α
-
έιηθεο

b) all
-
β
, ε δνκή απνηει
είηαη απφ β
-
πηπρσηέο επηθάλεηεο

γ) α/β
, α
-
έιηθεο θαη β
-
πηπρσηέο επηθάλεηεο ελαιιά
ζζνληαη
ζηελ δνκή ηεο πξσηεΐλεο

θαη

δ) α+β
, α
-
έιηθεο θαη β
-
πηπρσηέο επηθάλεηεο βξίζθνληαη
ζε
δηαθξηηέο πεξηνρέο ηεο

δνκήο
.



«Απχιηεκηονική» (Architecture)

πεξηγξάθεη ηελ νξγάλσζε ησλ
ζηνηρείσλ δεπηεξνηαγνχο δνκήο ρσξίο λα ιακβάλεηαη ππφςε ν
ηξφπνο κε ηνλ νπνίνλ απηά ζπλδένληαη (π.ρ. βαξέιη (barrel),
ζάληνπηηο (sandwich) θ.α.) (
CATH
)



«Σοπολογία» (Topology)

δίλεη κηα
πεξηγξαθή ηνπ νιηθνχ
ζρήκαηνο θαη ηνπ ηξφπνπ ζχλδεζεο ησλ ζηνηρείσλ δεπηεξνηαγνχο
δνκήο. Κε βάζε κηα ζεηξά απφ εκπεηξηθέο παξακέηξνπο θαη
ρξεζηκνπνηψληαο γξήγνξνπο αιγφξηζκνπο πνπ επηηπγράλνπλ ηελ
νιηθή ζχγθξηζε ησλ δνκηθψλ ζηνηρείσλ, νη πξσηεΐλεο νκαδνπνη
νχληαη
ζε δηαθνξεηηθέο θαηεγνξίεο ηνπνινγίαο. Γνκέο

πνπ θαηά ην 60%
κνηάδνπλ κε ηε κηθξφηεξε,

ηαμηλνκνχληαη ζην ίδην επίπεδν
ηνπνινγίαο. (
CATH
)
.


2.4

Υυλογενετικό προφίλ


Ν θαζνξηζκφο ηεο ιεηηνπξγίαο ησλ γνληδίσλ θαη ησλ πξσηετλψλ είλαη
έλαο απφ ηνπο θχξηνπο ζ
ηφρνπο ηεο βηνπιεξνθνξη
θήο. Αθφκα θαη γηα
«θαιά κειεηεκέλνπο» νξγαληζκνχο
,

νη ιεηηνπξγίεο θάπνησλ πξσηετλψλ
παξακέλνπλ άγλσζηεο. Νη πην απιέο θαη ζπλεζηζκέλεο ππνινγηζηηθέο
κέζνδνη επίιπζεο απηνχ ηνπ πξνβιήκαηνο
,

βαζίδνληαη ζηνλ εληνπηζκφ
γνληδηψλ κε ηελ ί
δηα αθνινπζία.
H
ρξήζε ηνπ θπινγελεηηθνχ
πξνθίι

σο
ζπγθξηηηθή κέζνδνο γηα ηελ θαιχηεξε θαηαλφεζε ηεο ιεηηνπξγίαο ησλ
πξσηετλψλ
,

πξ
νηάζεθε γηα πξψηε θνξά ην 1999 [15]

θαη ε
ππφζεζε πίζσ
απφ απηή ηε

κέζνδν είλαη
,

φηη νη πξσηεΐλεο πνπ ζπκκεηέρνπλ ζε έλα θνηλφ
δνκηθφ
ζχκπιεγκα ή κηα κεηαβνιηθή

νδφ
,

εμειίζζνληαη κε παξφκνην ηξφπν
θαη γηα απηφ ην ιφγν πξέπεη λα είλαη παξνχζεο ζηνπο ίδηνπο νξγαληζκνχο.
Γεληθά δεχγε ιεηηνπξγηθά ζπλδεδεκέλσλ δελ έρνπλ ακηλνμέα κε παξφκνηεο
αθνινπζίεο
, γηα
ην ιφγν

απηφ,

δε κπνξεί λα ρ
ξεζηκνπνηεζνχλ θαη νη
παξαδνζηαθέο κέζνδνη ζχγθξηζεο
sequence


alignment
.


Πηελ απινχζηεξε κνξθή ηνπ
,

ην θπινγελεηηθφ πξνθίι ελφο γνληδίνπ
είλαη έλα άλπζκα
n
θαηαρσξήζεσλ, φπνπ
n
ν αξηζκφο ησλ γνληδησκάησλ
(243 γηα ηελ παξνχζα δηπισκαηηθή)
,

ε
θάζε

κηα απφ ηηο νπνίεο

θαηαδεηθλχεη η
ελ παξνπζία ή ηελ απνπζία ελφο νκνιφγνπ

ζε έλαλ
1 2

Θ ε θ ά ι α η ν 2
ν

Σ.Σαηδερξήζηνο
AUTH 2012

δηαθνξεηηθφ νξγαληζκφ.
Π
πγθεθξηκέλα
,

ην 1 αληηζηνηρεί ζηελ παξνπζία
ηνπ νκνιφγνπ
,

ελψ ην 0 ζηελ απνπζία ηνπ.
Απ
φ ηε ζηηγκή πνπ ηα
θπινγελεηηθά πξνθίι γηα φια ηα γνλίδηα ελφο
δεδνκέλνπ ππνινγίζηεθαλ,
ε ιεηηνπξγία ελφο γνληδίνπ κπνξεί λα πξνθχςεη
,

θαηά κηα έλλνηα
,

απφ ηελ
εμέηαζε ησλ ιεηηνπξγηψλ άιι
σλ γνληδίσλ κε παξφκνηα πξνθίι.Νη
πξσηεΐλεο

θαη ηα γνλίδηα κε παξφκνηα θπινγελεηηθά πξνθίι έρνπλ
κεγάιεο πηζαλφηεηεο λα είλαη
ιεηηνπ
ξγηθά

ζπλδεδεκέλεο.
Ρν κέγεζνο
ινηπφλ ηνπ θπινγελεηηθνχ πξνθίι
,

φπσο είλαη ινγηθφ
,

εμαξηάηαη απφ ην
ζχλνιν ησλ
γνληδησκ
άησλ πνπ είλαη ραξηνγξαθεκέλα.


Γηα ηε βειηίσζε ηεο κεζφδνπ
,

πξνηάζεθαλ πνιιέο αθφκα εθδνρέο
ηεο ηερληθήο. Γηα παξάδεηγκα
,

ε ρξήζε πην ζ
χλζεησλ ινγηθψλ θαλφλσλ
ζχγθξηζεο ησλ
profiles

[2]
,
ή ρξήζε ζπγθεθξηκέλνπ κέξνπο ησλ πξνθίι
αληί γηα
νιφθιεξε

ηελ αθνινπζία [14]

θ
αη ε βειηίσζε ηνπ αιγνξίζκνπ
[18]
. Ξαξά ην γεγνλφο φηη ε κέζνδνο ηνπ
θπινγελεηηθνχ

πξνθίι κπνξεί
λα βειηησζεί ζε φιεο ηηο πεξη
πηψζεηο
,

ε πνηφηεηα ηεο
πξφβιεςε
ο

βαζίδεηαη
ζε δπν ζεκαληηθνχο παξάγνληεο. Ξξψηνλ
,

ζηελ επηινγή ηνπ δείγκαηνο
αλαθνξάο ησλ εηδψλ θαη
δεχηεξνλ
,

ζηνλ θαζνξηζκφ πνηεο
πξσηεΐλεο

είλαη
νκφινγεο θαη πνηεο φρη. Ρν πξφβιεκα ηνπ
δείγκαηνο

αλαθνξάο ιχλεηαη (ή
έζησ
κ
ηθξαίλεη
)
,
πξνζζέηνληαο

ζπλερψο
λέα

είδε

γνληδηψκαηα. Υζηφζν
,

ππάξρνπλ ζεκαληηθά πξνβιήκαηα ζηνλ θαζνξηζκφ ησλ νκνιφγσλ θαη
εηδηθά ν δηαρσξηζκφο ηνπ απφ ηα «παξάινγα» (γνλίδηα πνπ εμάγνληαη απφ
ην ίδην γνλίδην ην νπνίν δηπιαζηάζηεθε κέζα ζε έλα γνληδίσκα)
.


Πη
ε παξνχζα δηπισκαηηθή
,

γίλεηαη ρξήζε δεδνκέλσλ απφ ηε βάζε
Prof
u
se
,

ε νπνία πεξηέρεη 243 δηαθνξεηηθά
γνληδηψκ
αηα.
Θαηά ζπλέπεηα
,

θάζε θπινγελεηηθφ πξνθίι πνπ ρξεζηκνπνηείηαη
,

είλαη έλα 243
-
δηάζηαην
άλπζκα
,

απνηεινχκελν απνθιεηζηηθά απφ άζζνπο θαη κεδεληθά.
Α
πηφ
ζεκαίλεη
,

πσο ζηε βάζε δεδνκέλσλ
CoGenT

θαζψο θαη ζηε
λProf
u
se
,

ππάξρνπλ 243 θαηαγεγξακκέλα
γνληδηψκ
αηα
,

κε ζπλνιηθά 915.554
πξσηεΐλεο, ε θάζε κηα κε ην αληίζηνηρν θπινγελεηηθφ πξνθίι
,

αιιά θαη
άιιεο π
ιεξνθνξίεο.
Νη άζζνη θαη ηα κεδεληθά δε ζα ζήκαηλαλ πξνθαλψο
ηίπνηα
,

αλ δελ ππήξρε θάπνηα ινγηθή θαη θάπνηα πξνθαζνξηζκέλε ζεηξά
αλαθνξάο. Ππγθεθξηκέλα
,

θάζε ζέζε ζην άλπζκα απηφ
,

αληηζηνηρίδεηαη ζε
έλα απφ ηα ραξηνγξαθεκέλα
γνληδηψκ
αηα ηεο βάζεο θαη έηζη
ππνδειψλεη
ηελ απνπζία ή παξνπζία ηνπ ζε απηφ. Ρα παξαθάησ ζρήκαηα πεξηέρνπλ κε
ηε ζεηξά ηα είδε πνπ αληηζηνηρνχλ ζε θάζε ζέζε ηνπ αλχ
ζκαηνο ησλ
θπινγελεηηθψλ πξνθίι
.
Πε

πεξίπησζε ραξηνγξάθεζεο πεξηζζνηέξσλ
γνληδησκ
άησλ ζην θπινγελεηηθφ πξνθίι
,

ζα πξνζηεζν
χλ ηφζεο δηα
ζηάζεηο
(άζζνη ή κεδεληθά
)
,

φζα θαη ηα λέα
γνληδηψκ
αηα.


Ξ ε ξ η γ ξ α θ ή π ξ ν β ι ή κ α η ν ο

1 3

Σ.Σαηδερξήζηνο
AUTH 2012


Πίλαθαο
2.
3

Ρα πξψηα 120 είδε κε ηελ επηζηεκνληθή ηνπο νλνκαζία θαη κε ηελ αληίζηνηρε ζεηξά,
απφ πάλσ πξνο ηα θάησ θαη απφ ηελ αξηζηεξφηεξε ζηελ δεμηφηεξε ζηήιε.


Haemophilus influenzae

Ureaplasma urealyticum

Corynebacterium efficiens

Mycoplasma genitalium

Halobacterium sp.

Thermoanaerobacter tengcongensis

Synechocystis sp.

Arabidopsis thaliana

Methanosarcina mazei

Methanococcus jannaschii

Mesorhizobium loti

Xanthomonas campestris pv. campestris

Mycoplasma pneumoniae

Escherichia coli O157:H7

Chlorobium tepidum

Saccharomyces cerevisiae

Mycobacterium leprae

Buchnera aphidicola

Helicobacter
pylori

Escherichia coli 0157:H7

Staphylococcus aureus MRSA

Escherichia coli

Pasteurella multocida

Xanthomonas axonopodis pv. citri

Methanobacterium thermoautotrophicum

Caulobacter crescentus

Streptococcus pyogenes M3

Bacillus subtilis

Streptococcus
pyogenes M1

Yersinia pestis

Archaeoglobus fulgidus

Staphylococcus aureus MRSA

Streptococcus agalactiae

Borrelia burgdorferi

Staphylococcus aureus VRSA

Thermosynechococcus elongatus

Aquifex aeolicus

Mycobacterium tuberculosis

Oceanobacillus iheyensis

Pyrococcus horikoshii

Lactococcus lactis

Brucella suis

Mycobacterium tuberculosis

Mycoplasma pulmonis

Plasmodium falciparum

Treponema pallidum

Sulfolobus solfataricus

Anopheles gambiae

Chlamydia trachomatis

Streptococcus pneumoniae

Shewanella oneidensis

Rickettsia prowazekii

Sinorhizobium meliloti

Bifidobacterium longum

Caenorhabditis elegans

Clostridium acetobutylicum

Shigella flexneri (serotype 2a)

Helicobacter pylori

Agrobacterium tumefaciens

Streptococcus mutans

Chlamydia pneumoniae

Streptococcus

pneumoniae

Wigglesworthia glossinidia brevipalpis

Aeropyrum pernix

Rickettsia conorii

Streptococcus agalactiae

Thermotoga maritima

Sulfolobus tokodaii

Mycoplasma penetrans

Deinococcus radiodurans

Yersinia pestis

Pseudomonas putida

Thermoplasma
volcanium

Salmonella enterica serovar Typhimurium

Escherichia coli

Pyrococcus abyssi

Listeria monocytogenes

Bradyrhizobium japonicum

Campylobacter jejuni

Listeria innocua

Buchnera aphidicola

Neisseria meningitidis

Anabaena sp.

Xylella fastidiosa

Chlamydia pneumoniae

Ralstonia solanacearum

Clostridium tetani

Chlamydia trachomatis

Brucella melitensis

Drosophila melanogaster

Lactobacillus plantarum

Clostridium perfringens

Vibrio parahaemolyticus

Tropheryma whipplei

Pyrobaculum aerophilum

Salmonella enterica

Neisseria meningitidis

Schizosaccharomyces pombe

Bacteroides thetaiotaomicron

Bacillus halodurans

Corynebacterium glutamicum

Enterococcus faecalis

Chlamydia pneumoniae

Fusobacterium nucleatum

Chlamydophila caviae

Xylella fastidiosa

Streptococcus pyogenes M18

Streptomyces avermitilis"

Vibrio cholerae

Methanopyrus kandleri

Coxiella burnetii

Pseudomonas aeruginosa

Encephalitozoon cuniculi

Leptospira interrogans

Buchnera sp.

Methanosarcina acetivorans

Neurospora crassa

Thermoplasma
acidophilum

Streptomyces coelicolor

Shigella flexneri

1 4

Θ ε θ ά ι α η ν 2
ν

Σ.Σαηδερξήζηνο
AUTH 2012

Πίλαθαο
2.
4

Ρα ππφινηπα 123 είδε κε ηελ επηζηεκνληθή ηνπο νλνκαζία θαη κε ηελ αληίζηνηρε
ζεηξά, απφ πάλσ πξνο ηα θάησ θαη απφ ηελ αξηζηεξφηεξε ζηελ δεμηφηεξε ζηήιε.

Haemophilus influenzae

Ureaplasma urealyticum

Corynebacterium efficiens

Mycoplasma genitalium

Halobacterium sp.

Thermoanaerobacter tengcongensis

Synechocystis sp.

Arabidopsis thaliana

Methanosarcina mazei

Methanococcus jannaschii

Mesorhizobium loti

Xanthomonas campestris pv. campestris

Mycoplasma pneumoniae

Escherichia coli O157:H7

Chlorobium tepidum

Saccharomyces cerevisiae

Mycobacterium leprae

Buchnera aphidicola

Helicobacter pylori

Escherichia coli 0157:H7

Staphylococcus aureus MRSA

Escherichia coli

Pasteurella multocida

Xanthomonas axonopodis pv. citri

Methanobacterium thermoautotrophicum

Caulobacter crescentus

Streptococcus pyogenes M3

Bacillus subtilis

Streptococcus pyogenes M1

Yersinia pestis

Archaeoglobus fulgidus

Staphylococcus aureus MRSA

Streptococcus agalactiae

Borrelia burgdorferi

Staphylococcus aureus VRSA

Thermosynechococcus elongatus

Aquifex aeolicus

Mycobacterium tuberculosis

Oceanobacillus iheyensis

Pyrococcus horikoshii

Lactococcus lactis

Brucella suis

Mycobacterium tuberculosis

Mycoplasma pulmonis

Plasmodium falciparum

Treponema pallidum

Sulfolobus solfataricus

Anopheles gambiae

Chlamydia trachomatis

Streptococcus pneumoniae

Shewanella oneidensis

Rickettsia prowazekii

Sinorhizobium meliloti

Bifidobacterium longum

Caenorhabditis elegans

Clostridium acetobutylicum

Shigella flexneri (serotype 2a)

Helicobacter pylori

Agrobacterium tumefaciens

Streptococcus mutans

Chlamydia pneumoniae

Streptococcus pneumoniae

Wigglesworthia glossinidia
brevipalpis

Aeropyrum pernix

Rickettsia conorii

Streptococcus agalactiae

Thermotoga maritima

Sulfolobus tokodaii

Mycoplasma penetrans

Deinococcus radiodurans

Yersinia pestis

Pseudomonas putida

Thermoplasma volcanium

Salmonella enterica serovar
Typhimurium

Escherichia coli

Pyrococcus abyssi

Listeria monocytogenes

Bradyrhizobium japonicum

Campylobacter jejuni

Listeria innocua

Buchnera aphidicola

Neisseria meningitidis

Anabaena sp.

Xylella fastidiosa

Chlamydia pneumoniae

Ralstonia solanacearum

Clostridium tetani

Chlamydia trachomatis

Brucella melitensis

Drosophila melanogaster

Lactobacillus plantarum

Clostridium perfringens

Vibrio parahaemolyticus

Tropheryma whipplei

Pyrobaculum aerophilum

Salmonella enterica

Neisseria meningitidis

Schizosaccharomyces pombe

Bacteroides thetaiotaomicron

Bacillus halodurans

Corynebacterium glutamicum

Enterococcus faecalis

Chlamydia pneumoniae

Fusobacterium nucleatum

Chlamydophila caviae

Xylella fastidiosa

Streptococcus pyogenes M18

Streptomyces
avermitilis"

Vibrio cholerae

Methanopyrus kandleri

Coxiella burnetii

Pseudomonas aeruginosa

Encephalitozoon cuniculi

Leptospira interrogans

Buchnera sp.

Methanosarcina acetivorans

Neurospora crassa

Thermoplasma acidophilum

Streptomyces coelicolor

Shigella flexneri



X.
Σαηδερξήζηνο
AUTH

2
012


Κεφϊλαιο 3.
Περιγραφό
εφα
ρ
μογόσ

GenomeWebApp


Ζ εθαξκνγή
GenomeWebApp
έρεη ζρεδηαζηεί
,

ψζηε σο επί ην πιείζηνλ
λα ιεηηνπξγεί απνκαθξπζκέλα, κέζσ δηαδηθηχνπ κε ηελ ρξήζε νπνηνπδήπνηε
θπιινκεηξεηή, φπσο ν
InternetExplorer
θαη ν
MozillaFirefox
.
Ζ πινπνίεζε
έγηλε κε ηελ ρξήζε
webservices
ζε πεξηβάιινλ
.
net
.
H
γιψζζα ηεο
πινπνίεζεο είλαη θαηά βάζε
ε
C
#
, ελψ γηα ζπγθεθξηκέλεο πηπρέο ηεο
ιεηηνπξγηθφηεηαο ηεο εθαξκνγήο ρξεζηκνπνηήζεθε
HTML
,
CSS
,
JavaScript

θαη
ASP
.
NET
.

Γηα ηελ εθηέιεζε ηεο εθαξκνγήο είλαη απαξαίηεηνο έλαο εμππεξεηεηήο
πνπ λα είλαη ζε ζέζε λα εθηειέζεη .
net
εθαξκνγέο. Απηήλ ηελ δπλαηφηεηα
έρεη ν
IISwebserver
,
πνπ κπνξεί είηε λα εγθαηαζηαζεί θαη λα ξπζκηζηεί
απηφλνκα ζην κεράλεκα
-
host
είηε κπνξεί λα ρξεζηκνπνηεζεί ν
ελζσκαησκέλνο
IIS
ηνπ
VisualStudio

.
NET
,
πνπ είλαη θαη ην
IDE
πνπ
ρξεζηκνπνηήζεθε γηα ηελ αλάπηπμε
ηεο εθαξκνγήο (έθδνζε
teamsystem

2008


architectureedition
). Πε θάζε πεξίπησζε
,

πξέπεη λα είλαη
εγθαηεζηεκέλν θαη ην
.
NETframework

(
εθδφζεηο 3.5 ή θαη λεφηεξεο).


SourceFiles
ηεο εθαξκνγήο
,

κε πεξηζζφηεξεο επεμεγήζεηο γηα ηνλ ηξφπν
ιεηηνπξγίαο, βξίζθνληαη ζην Ξαξάξηεκα Β.


3.1

Αρχιτεκτονική.


Ζ εθαξκνγή
GenomeWebApp
φπσο πξναλαθέξζεθε, είλαη κηα
Web
-
based
εθαξκνγή πνπ ζπλίζηαηαη ζηελ ππνβνιή αηηεκάησλ απφ ηελ πιεπξά
ηνπ ρξήζηε θαη ζηελ επηζηξνθή α
πνηειεζκάησλ ζε κνξθή δνκεκέλσλ
αξρείσλ απφ ηελ πιεπξά ηεο εθαξκνγήο. Ζ ινγηθή ηελ εθαξκνγήο θαίλεηαη
ζην παξαθάησ ζρήκα.




1 6

Θ ε θ ά ι α η ν 3
ν

Σ.Σαηδερξήζηνο
AUTH 2012





Σρήκα 3.
1

Αξρηηεθηνληθή

1



Ν ρξήζηεο επηθνηλσλεί κε ηελ εθαξκνγή πνπ θηινμελείηαη ζε έλαλ
δηθηπαθφ εμππεξεηεηή. ΢πνβά
ι
ιεη αηηήκαηα
,

είηε νιφθιεξα αξρεία
δεδνκέλσλ. Ζ εθαξκνγή επ
ηθνηλσλεί θαη ιακβάλεη δεδνκέλα

απφ 3 Βάζεηο
Γεδνκέλσλ θαη επηζηξέθεη ηα απνηειέζκαηα κνξθνπνηεκέλα, ζε αξρεία
θεηκέλνπ, θαηά ην πξφηππν
CommaSeparatedValues

(
CSV
)
.

Ν ρξ
ήζηεο επηθνηλσλεί κε ηελ εθαξκνγή κέζσ
HTTP
αηηεκάησλ
(
requests
)
.
Ξξαθηηθά, απηφ ζεκαίλεη φηη ε εθαξκνγή εθηειείηαη ζε
πεξηβάιινλ θπιινκεηξεηή (
browser
)
.
Ζ εθαξκνγή
GenomeWebApp
είλαη
εγθαηεζηεκέλε ζε έλαλ
HTTP
εμππεξεηεηή θαη παξέρεη έλα αξζξσηφ,
HTML
/
ASP
.
NET
interface
γηα ηνλ ρξήζηε.


Ξ ε ξ η γ ξ α θ ή Δ θ α ξ κ ν γ ή ο
G e n o m e W e b A p p

1 7

Σ.Σαηδερξήζηνο
AUTH 2012



΢ρήκα 3.
2

Αξρηηεθηνληθή

2



Πην παξαπάλσ ζρήκα θαίλεηαη ε
αξζξσηή

ζρεδίαζε ηεο εθαξκνγήο.
Πην πξψην επίπεδν βξίζθεηαη ε
δηαδηθηπαθή
, γξαθηθή δηεπαθή. Απηφ είλαη θαη
ην κφλν επίπεδν ζην νπνίν έρεη
πξφζβαζε ν ρξήζηεο ηεο εθαξκνγήο










1 8

Θ ε θ ά ι α η ν 3
ν

Σ.Σαηδερξήζηνο
AUTH 2012





΢ρήκα 3.
3

Γηάγξακκα ζπζηαηηθώλ ηεο εθαξκνγήο.


Ρα αηηήκαηα ιακβάλνληαη απφ
eventhandlers
πνπ είλαη ζε ζέζε λα
ρξεζηκνπνηήζνπλ ην εηδηθφ
API
ηεο εθαξκνγήο θαη ην νπνίν νπζηαζηηθά
θάλεη
φινπο ηνπο ππνινγηζκνχο, ζπγθεληξψλεη ηα δεδνκέλα θαη ηα απνηειέζκαηα,
ηα ζπγθεληξψλεη ζε αξρεία θαη ηα επηζηξέθεη ζην ρξήζηε.

Όπσο έρεη γίλεη ήδε αληηιεπηφ,
ην θάζε βήκα
εθηέιεζεο θαη
ππνινγηζκνχ ζηελ εθαξκνγή, ζπλίζηαηαη θαηά ζεηξά:

1)

Πηελ είζνδν δε
δνκέλσλ απφ πιεπξάο ρξήζηε.

2)

Πηελ αλαδήηεζε ζε κηα (ή πεξηζζφηεξεο Βάζεηο Γεδνκέλσλ).

3)

Πηελ επηζηξνθή ησλ απνηειεζκάησλ.

4)

Πηελ απηφκαηε αιιαγή ηεο δνκήο ησλ απνηειεζκάησλ (πξναηξεηηθφ
βήκα).


X.
Σαηδερξήζηνο
AUTH

2
012


΢ρήκα 3.
4

Γηάγξακκα ξνήο αιγνξίζκν
π
2 0

Θ ε θ ά ι α η ν 3
ν



X.
Σαηδερξήζηνο
AUTH

2
012


Κε ηελ εηζαγσγή ζηελ εθαξκνγή, ν ρξήζηεο θαηεπζχλεηαη ζε κηα
αξρηθή ζειίδα απφ ηελ νπνία έρεη 4 δπλαηέο επηινγέο: λα θαηεπζπλζεί ζην
εξγαιείν αλαδήηεζεο ζηελ ΒΓ
KEGG

(
KEGGPanel
)
,
λα θαηεπζπλζεί ζην
εξγαιείν αλαδήηεζεο ζηελ ΒΓ
NCBI

(
NCBIPanel
)
,
λα θαηεπζπλζεί

ζην
εξγαιείν αλαδήηεζεο ζηελ ΒΓ
ProfUse

(
ProfUsePanel
)
ή λα ρξεζηκνπνηήζεη
ην εξγαιείν κεηαηξνπήο ελφο αξρείνπ απνηειεζκάησλ ζε κνξθή αμηνπνηήζηκε
απφ ηα ινγηζκηθά
WEKA
θαη
UCINET

(Ξαξάξηεκα Β).


3.2

Βάςεισ Δεδομένων.


Όπσο αλαθέξζεθε
,

θαηά ηε δηάξθεηα ηεο εθη
έιεζεο ηεο εθαξκνγήο
,

έρνπκε
ζχλδεζε

κε ηξεηο δηαθνξεηηθέο βάζεηο δεδνκέλσλ.



3.2.1
KEGG


HKEGG

(
KyotoEncyclopediaofGenesandGenomes
)
είλαη
έλαζχζηεκα
β
άζεσλ
δεδνκέλσλ
.
Ζ ζεκαληηθφηεξε απφ απηέο είλαη ε
Pathway
,
ενπνία
απνηειείηαη απφ γξαθηθά δηαγξάκκαηα βηνρεκηθψλ
κνλνπαηηψλ θαη πεξηέρεη ηα πεξηζζφηεξα απφ ηα γλσζηά
κεηαβνιηθά
κνλνπάηηα θαη θάπνηα

απφ ηα «ξπζκηζηηθά κνλνπάηηα»
(
regulatory
pathways). Δίλαη έλα απφ ηα ρξεζηκφηεξα εξγαιεία γλψζεο γηα ηε
ζπζηεκαηηθή αλάιπζε

ησλ ιεηηνπξγηψλ ησλ γνληδίσλ
,

φζν αθνξά
ζ
ηα δίθηπα
ησλ γνληδίσλ θαη ησλ κνξίσλ. Νη πιεξνθνξίεο ησλ κνλνπαηηψλ
παξνπζηάδνληαη

επίζεο
θαη ζε πίλαθεο νκνιφγσλ,

νη νπνίνη πεξηέρνπλ ηηο
νξζφινγεο θαη παξάινγεο νκάδεο
γνληδίσλ

κεηαμ
χ δηαθνξεηηθψλ
νξγαληζκψλ.
Ζ
K
EGG
δηαηεξεί θαη ηε βάζε
GENES
κε ηνπο θαηαιφγνπο ησλ
γνληδίσλ φισλ ησλ νξγαληζκψλ κε «νινθιεξσκέλν» γνληδίσκα θαη θάπνησλ
κε «κεξηθψο νινθιεξσκέλν» γνληδίσκα (ν φξνο νινθιεξσκέλν αλαθέξεηαη
ζηελ

νινθιήξσζε ηεο απνθξππηνγξάθεζή
ο ηνπ). Θάζε θαηάινγνο γνληδίσλ
ζπλδέεηαη κε ηνλ αληίζηνηρν ράξηη


map
. Ζ βάζε θαη
KEGG
πξνζθέξεη πνιιά
εξγαιεία γηα ηελ αλαθαηαζθεπή βηνρεκηθψλ
κνλνπαηηψλ

απφ ηελ πιήξε
αιιεινπρία ηνπ γνληδηψκαηνο θ
αη γηα ηελ πξφβιεςε γνληδηαθψλ

ξπζκηζηηθψλ
δηθηχσλ απφ ηα

πξνθίι ηεο γνληδηαθήο έθθξαζεο.
To
ζχλνιν ησλ εξγαιείσλ
,

θαζψο θαη νη ηξφπνη ζχλδεζεο κε ηε βάζε
KEGG
,
κπνξνχλ λα κειεηεζνχλ απφ
ην
api
ην νπνίν δηαλέκεηαη
δσξεάλ
http://www.genome.jp/kegg/so
ap/doc/keggapi_manual.html

Ξ ε ξ η γ ξ α θ ή Δ θ α ξ κ ν γ ή ο
G e n o m e W e b A p p

2 1

Σ.Σαηδερξήζηνο
AUTH 2012

Ζ Θ
EGG
ελεκεξψλεηαη θαζεκεξηλά θαη ην πιήζνο ησλ δεδνκέλσλ ησλ
βάζεσλ

ηεο ζπλερψο απμάλεηαη. Πηε ζπλέρεηα
,

θαίλεηαη ην
κέγεζφ
ο
ηνπο,

ζηηο
27 Ηνπλίνπ ηνπ 2012.


Πίλαθαο
3
.
1

Β
άζεηο
ηεο
KEGG

θαη π
ιήζνο
δεδνκέλσλ πνπ πεξηέρνπλ
.

Πηελ εθαξκνγή καο γηα έλαλ πιήξε ππνινγηζκφ, ην
KEGGPanel

είλαη ην
πξψην βήκα ηνπ ρξήζηε. Δδψ,νη παξερφκελεο
δπλαηφηεη
εο

είλαη νη εμήο:

1.

Ζ εηζαγσγή ελφο ζηνηρείνπ θαη ε αλαδήηεζε ζηελ
KEGG
.

2.

Ζ εηζαγσγή πνιιαπιψλ ζηνηρείσλ θαη ε αλαδ
ήηεζε ζηελ
KEGG
.

3.

Ζ εηζαγσγή ελφο ζηνηρείνπ θαη ε αλαδήηεζε ζηηο
KEGG
/
NCBI
/
ProfUse

ζεηξηαθά
.

4.

Ζ εηζαγσγή πνιιαπιψλ ζηνηρείσλ θαη ε αλαδήηεζε ζηηο
KEGG
/
NCBI
/
ProfUse

ζεηξηαθά
.

5.

Ζ επηινγή θαη αλαδήηεζε ελφο ζηνηρείνπ ηχπνπ
map
,
ζηελ
KEGG
.

6.

Ζ επηινγή θαη αλαδήηεζε ελφο ζηνηρείνπ ηχπνπ
map
,

ζηηο
KEGG
/
NCBI
/
ProfUse

ζεηξηαθά
.


2 2

Θ ε θ ά ι α η ν 3
ν

Σ.Σαηδερξήζηνο
AUTH 2012

Πηελ πξψηε ιεηηνπξγία
, ν ρξήζηεο πιεθηξνινγεί ην ζηνηρείν πνπ
αλαδεηά θαη παηάεη ην αληίζηνηρν πιήθηξν. Ρν ζηνηρείν απηφ είλαη έλα
entry
_
id
ηεο Βάζεο Γεδνκέλσλ
KEGG

(πρ
path
:
eco
00086
). Έλαο
C
#
eventhandler
ιακβάλεη ην ζηνηρείν ζε κνξθή αιθαξηζκεηηθνχ θαη ην
ηξνθνδνηεί ζην
webservice
,
πνπ έρεη θαηαζθεπαζηεί

εηδηθά γηα ηα αηηήκαηα
πξνο ηε

ΒΓ
KEGG
.
Απηφ γίλεηαη κε ηελ δεκηνπξγία ελφο ζηηγκηφηππνπ ηνπ
KEGGWebService
θαη ζηε ζπλέρεηα

κε ηελ θιήζε ηεο κεζφδνπ
SingleSearch().
Ζ ζπγθεθξηκέλε κέζνδνο πξαγ
καηνπνηεί ηελ επηθνηλσλία κε
ηε

ΒΓ ηεο
KEGG
,
σο εμήο: δεκηνπξγεί έλα ζηηγκηφηππν ηεο θιάζεο
KEGG
,
ειέγρεη ην πξφζεκα ηνπ
entry
_
id
θαη αλάινγα κε ηνλ ηχπν ηνπ
,

θαιεί ηελ
αληίζηνηρε κέζνδν. Γ
ηα παξάδεηγκα, γηα ην πξφζεκα
path
,
θαιείηαη ε
get_genes_by_pathway()
. Πθνπφο ηεο θιήζεο είλαη ε επηζηξνθή ελφο
ζπλφινπ, αλ ππάξρεη, απφ
genes
,

απφ ηα νπνία απνηειείηαη ν ζπγθεθξηκέλνο
νξγαληζκφο. Γηα ην πξφζεκα
ko
,
θαιείηαη ε
get_genes_by_ko()
.
Towebservic
e
κε ηε

ζεηξά ηνπ εξση
ά ηε

ΒΓ γηα

ην
ζπγθεθξηκέλν ζηνηρείν, κε ηε

ρξήζε θιήζεσλ πνπ παξέρεη ην
KEGGAPI
,
πνπ
έρεη θαηαζθεπαζηεί απφ ηελ νκάδα αλάπηπμεο ηεο ΒΓ.

Ρα απνηειέζκαηα επηζηξέθνληαη ζε κνξθή ζπλφινπ αιθαξηζκεηηθψλ