Πρώτη Παρουσίαση

gumneckgargleΗλεκτρονική - Συσκευές

7 Οκτ 2013 (πριν από 3 χρόνια και 11 μήνες)

153 εμφανίσεις

Ανάκτηση

Πληροφορίας

Διδάσκων
:

Μακρής

Χρήστος

Γραφείο
:


Π
502

(ΠΡΟΚΑΤ)

e
-
mail
:



makri@ceid
.
upatras
.
gr

Διδασκαλία
:

Τρίτη
:


19
:
00
-
21
:
00

Β
4



Παρασκευή
:


1
1
:
00
-
1
3
:
00


Π
200


Διαδικαστικά


Εξέταση

(
γρα
π
τή
)


Εργασία

(
σε

ομάδες

1
-
2
ατόμων
)
:


Βιβλιογραφική


Υλο
π
οίηση
/
Πειράματα


Θεωρητική

μελέτη




Τελικός

Βαθμός
:

Ημιάθροισμα

αν

βαθμός

εξέτασης

>= 5

Εισαγωγικά


ΑΠ
:
ανα
π
αράσταση
,
α
π
οθήκευση
,
οργάνωση

και

π
ροσ
π
έλαση

σε

αντικείμενα

π
ληροφορίας



Ε
π
ίκεντρο

η

π
ληροφοριακή

ανάγκη

του

χρήστη



Πληροφοριακή

ανάγκη

χρήστη
:


Εντό
π
ισε

όλα

τα

κείμενα

με

π
ληροφορίες

σχετικά

με

φοιτητές

π
ου

(1)
φοιτούν

σε

κά
π
οια

σχολή

π
ληροφορικής
,

(2)
συμμετέχουν

σε

κά
π
οιο

αθλητικό

σύλλογο


Έμφαση

δίνεται

στην

ανάκτηση

π
ληροφορίας

και

όχι

δεδομένων

Εισαγωγικά


Ανάκτηση

Δεδομένων


Ποια

κείμενα

π
εριέχουν

ένα

σύνολο

keywords
?


Καλά

ορισμένη

σημασιολογία


Ελάχιστα

λανθασμένη

α
π
άντηση

συνιστά

α
π
οτυχία
!


Ανάκτηση

Πληροφορίας


Το

ερώτημα

είναι

ασαφές


Η

σημασιολογία

είναι

συχνά

ελλι
π
ής


Μικρά

λάθη

είναι

ανεκτά


Σύστημα

ΑΠ
:


Ερμηνεύει

π
εριεχόμενα

αντικειμένων

π
ληροφορίας


Παράγει

μία

κατάταξη

π
ου

ανα
π
αριστά

σχετικότητα


Έννοια

σχετικότητας

π
ιο

σημαντική

α
π
ό

ακριβές

ταίριασμα

Εισαγωγικά



ΑΠ

τα

τελευταία

30
χρόνια
:


Ταξινόμηση

(
classification
)

και

κατηγοριο
π
οίηση

(
categorization
)
κειμένων


Συστήματα

Βιβλιοθήκης

και

γλώσσες


Διε
π
αφή

χρηστών

και

ο
π
τικο
π
οίηση




Εντούτοις

η

π
εριοχή

θεωρείτο

στενού

ενδιαφέροντος



Με

την

έλευση

του

Διαδικτύου
:


Παγκόσμια

α
π
οθήκη

γνώσης



Ελεύθερη

(
χαμηλού

κόστους
)
π
ροσ
π
έλαση


Πολλά

π
ροβλήματα

:
ΑΠ

π
ροσφέρει

λύσεις

Πεδία Εφαρμογής


Web

Search

Engines



Ψηφιακές

Βιβλιοθήκες

(
Digital

Libraries)


Ανάκτηση

Πληροφορίας

σε

Peer

to

Peer

Περιβάλλοντα


Βιοπληροφορική


Συστήματα

Προσαρμοστικών

Πολυμέσων/Υπερμέσων





Γειτονικές Περιοχές


Βάσεις

Δεδομένων


Τεχνητή

Νοημοσύνη


Εξόρυξη

Δεδομένων

(
Data

Mining)


Γλωσσική

Τεχνολογία/Επεξεργασία

Φυσικής

Γλώσσας


Τεχνικές

Μοντελοποίησης


Δομές

Δεδομένων


Αλγόριθμοι

(συμπίεση

κειμένων,

συμπίεση

Δομών

Δεδομένων)

Σειρά Μαθημάτων

1.
Εισαγωγή

2.
Μετρικές

+

Μοντελοποίηση

3.
Κλασσικά

Μοντέλα

(
Vector

Space

Model,

Boolean

Model,

Πιθανοτικό)

4.
Εναλλακτικά

Μοντέλα

(
Fuzzy

Boolean,Extended

Boolean,

Generalized

V
.
S
.
)

5.
Latent

Semantic

Indexing

(
Λανθάνουσα

Σημασιολογική

Δεικτοδότηση)

6.
Αλγόριθμοι

Ανάκτησης

Πληροφορίας

στον

Παγκόσμιο

Ιστό

-

1

7.
Αλγόριθμοι

Ανάκτησης

Πληροφορίας

στον

Παγκόσμιο

Ιστό

-

2

8.
Δομές

Δεικτοδότησης

(Δέντρα

Επιθεμάτων/Ανεστραμμένα

Αρχεία)

9.
Δομές

Δεικτοδότησης

στη

Δευτερεύουσα

Μνήμη

10.
Συμπίεση

Κειμένων

και

Δομών

Δεικτοδότησης

11
.

Φιλτράρισμα

Πληροφορίας

12.
Εξειδικευμένα

Θέματα

(εναλλακτικά

μοντέλα,

υλοποίηση)

13.
XML

Indexing



Σειρά Φροντιστηρίων

1.
Ανεστραμμένα Αρχεία,
B
-

Δέντρα,
Perfect Hashing Structures

2.
Συμπιεσμένα Ανεστραμμένα Αρχεία

3.
Δημιουργία Ανεστραμμένων Αρχείων

4.
Αλγόριθμοι σε Ροές Δεδομένων

5.
Προχωρημένα θέματα αλγορίθμων ψαξίματος στον Παγκόσμιο Ιστό

6.
Ψάξιμο σε Συμπιεσμένες Αναπαραστάσεις Συμβολοσειρών 1

7.
Ψάξιμο σε Συμπιεσμένες Αναπαραστάσεις Συμβολοσειρών 2

8.
Ψάξιμο σε Ιεραρχίες Μνημών


9.
Web Services
και
XML Indexing



Ανάκτηση Πληροφορίας


Τα τελευταία 50
-
60 χρόνια ως επιστημονικό πεδίο


1945
: Vannenar Bush’s “As we may think”


1960+: Gerald Salton


1978:
Πρώτο
ACM SIGIR
συνέδριο


1992
:
Πρώτο
TREC
συνέδριο

Unstructured (text) vs. structured
(database) data in 1996

Unstructured (text) vs. structured
(database) data in 2006

Μαθημ
a
τικός Ορισμός Προβλήματος

Μιλώντας

σε

μαθηματική

ορολογία

το

πρόβλημα

που

θέτει

η

Ανάκτηση

Πληροφορίας

έγκειται

στον

καθορισμό

μίας

συνάρτησης
:


όπου

με

D

ορίζουμε

το

χώρο

των

documents
,

U

ορίζουμε

το

σύνολο

των

χρηστών

του

συστήματος

και

με

S

ορίζουμε

το

σύνολο

των

δυνατών

πληροφοριακών

αναγκών

των

χρηστών
.

Η

f

είναι

μια

συνάρτηση

με

την

οποία

κάθε

ένα

κείμενο

αντιστοιχεί

σε

ένα

πραγματικό

αριθμό,

ο

οποίος

δείχνει

κατά

πόσο

ένα

κείμενο

ανταποκρίνεται

σε

αυτό

που

θέλει

ο

χρήστης
.


Μέθοδοι Προσέγγισης


Computer

Centered

View

(Ανάκτηση

Πληροφορίας)


-

Κτίσιμο

δομών

δεικτοδότησης


-

Γρήγορη

επεξεργασία

ερωτημάτων


-

Ποιοτικοί

αλγόριθμοι

κατάταξης



Human

Centered

View

(Βιβλιοθοικονομία

και

Επιστήμη

Πληροφορήσης)



-

Μελέτη

βασικών

αναγκών

του

χρήστη


-

Καταγραφή

συμπεριφοράς

χρήστη


Βασικές

Έννοιες


Η Διεργασία του Χρήστη










Ανάκτηση (
Retrieval)


Φυλλομέτρηση (
Browsing
)


Συνδυασμός (
Hidden web)





Επεξεργασία Κειμένων


Σε τι
format
είναι
;


pdf/word/excel/html?


Σε τι γλώσσα είναι
;


Ποιο σύνολο χαρακτήρων χρησιμοποιεί
;


Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις




Τι είναι ένα μοναδιαίο κείμενο
;


ένα αρχείο
;


ένα
e
-
mail;


ένα

email
με

επισυνάψεις
;


o
μάδα αρχείων
;

Λογική

Όψη

Κειμένων


Η

ανα
π
αράσταση

των

κειμένων

(
λογική

όψη
)
μ
π
ορεί

να

π
άρει

διάφορες

μορφές

σε

μία

συνέχεια

ανα
π
αραστάσεων

Τεχνικά Θέματα


Μετέτρεψε όλα τα γράμματα σε μικρά


εξαίρεση
:
κεφαλαία

(
στη μέση της πρότασης)


γενικά είναι καλύτερο να μετατρέπεις όλα τα σύμβολα σε μικρά.



Με μία

stop list,

αποκλείεις όρους που
:


έχουν ασήμαντη συνεισφορά στη σημασιολογία
:
the, a, and, to, be


καταλαμβάνουν χώρο
: ~30%
σε
posting list


Συνήθως μεγάλες (200
-
300 όρους) ως μικρές (7
-
12) αλλά
:


αποδοτικές τεχνικές συμπίεσης καθιστούν δυνατή την αποθήκευση
τέτοιων όρων


καλές τεχνικές βελτιστοποίησης επιτρέπουν τη χρήση τους χωρίς να
επηρεάζεται ο χρόνος ερώτησης (σχέση
tf
-
idf)


Απαραίτητες για
:


Ερωτήσεις φράσεων
: “
καθηγητής στο Στάνφορντ



Τίτλους άρθρων ή τραγουδιών


Ερωτήσεις συσχέτισης
: “
πτήσεις προς Αθήνα


Αλγόριθμοι
Stemming


Porter’s algorithm (
αποτελείται από 5 φάσεις, οι φάσεις
εφαρμόζονται ακολουθιακά, κάθε φάση αποτελείται από ένα
σύνολο εντολών, γενικός κανόνας
:
από ένα σύνολο κανόνων
επέλεξε αυτόν που εφαρμόζεται στο μεγαλύτερο επίθεμα
)
.



Lovins stemmer



Paice stemmer


http://www.comp.lancs.ac.uk/computing/research/stemming/general/lovins.htm

http://www.cs.waikato.ac.nz/~eibe/stemmers

http://www.comp.lancs.ac.uk/computing/research/stemming






Δεικτοδότηση

Νόμος

του

Zipf
:


Θέματα Δεικτοδότησης


Δεικτοδότηση

φράσεων



Δεικτοδότηση

εννοιών




Πολυγλωσσική

ανάκτηση

(χρησιμοποίηση

λεξικών

και

μετάφρασης

με

χρήση

πιθανοτήτων,

tanslation

probabilities

trained

on

parallel

corpora
)

Διεργασία Ανάκτησης

Η

Διεργασία

Ανάκτησης

Διεπαφή

χρήστη

Πράξεις

στο

κείμενο

Πράξεις

στα

ερωτήματα

Δεικτοδότηση

Αναζήτηση

Κατάταξη

Μονάδα

Διαχείρισης

ΒΔ

Ευρετήριο

Ανάδραση

χρήστη

Ανακτημένα

κείμενα

Ερώτημα

Καταταγμένα

κείμενα

Πληροφοριακή

Ανάγκη

χρήστη

ΒΔ

Κειμένου

Λογική

Αναπαράσταση

Διαδικασία Ερώτησης


Boolean

logic


Proximity

(context

query)


Contiguous

Word

Phrases

(context

query)


Fuzzy

searches


Term

Masking


Numeric

and

Date

Ranges


Concept

and

Thesaurus

Expansion


Natural

Language

Queries


Multimedia

Queries


Βιβλιογραφία


R
.

Baeza
-
Yates,

B
.

Ribeiro
-
Neto,

Modern

Information

Retrieval,

Addison

Wesley,

1999

(second

edition,

2011
,

http
:
//mir
2
ed
.
org/

)


Stefan

Buttcher,

Charles

Clark,

Gordon

Cormack,

Information

Retrieval
:

Implementing

and

Evaluating

Search

Engines,

MIT

Press

2010
,

http
:
//www
.
ir
.
uwaterloo
.
ca/book/




W
.

Croft,

D
.

Metzler,

T
.

Strohman,

Search

Engines
:

Information

Retrieval

in

Practise,


Pearson

2010
,


http
:
//www
.
search
-
engines
-
book
.
com



Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to
Information Retrieval, Cambridge University Press, 2008.(
http://www
-
csli.stanford.edu/~hinrich/information
-
retrieval
-
book.html
)


Amy Langville, Carl Meyer,


Google's PageRank and Beyond, Princeton University
Press 2006


Ι
. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing
Documents and Images, Morgan Kaufmann Publishers, 1999.


G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York:
McGraw
-
Hill, 1983.


Van Reijsbergen, Information Retrieval, London: Butterworths, 1979


Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University
Press, 2005


W.B. Frakes, R. Baeza
-
Yates, Information Retrieval: Data Structures and
Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992.


Σημειώσεις

:
http://mmlab.ceid.upatras.gr/ir


Βιβλιογραφία


B. Allen, Information Tasks: Towards a Us
e
r
-
Centered Approach to
Information Systems. Academic Press, San Diego, CA, 1996.


M. Attalah ed., “
Algorithms and Theory of Computation Handbook” CRC
Press 1999.


D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Cambridge
University Press, 1997.


V
.
S
.
Subrahmanian
. “
Principles of Multimedia Database Systems
”, Morgan
Kaufmann, 1998.


Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes:
“Compressing and Indexing Documents and Images”, Morgan Kaufmann,
1999.


S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to
Semistructured Data and XML”, Morgan Kaufmann, 1999


Εργασίες



1
.

Συμ
π
ίεση

κειμένου

με

τη

μέθοδο

της

κωδικο
π
οίησης

Huffmann
.


Στην

π
αρούσα

εργασία

ζητείται

η

ε
π
ισκό
π
ηση

μιας

π
ολύ

διαδεδομένης

μεθόδου

κωδικο
π
οίησης

και

συμ
π
ίεσης
,

της

μεθόδου

Huffman
.

Η

μέθοδος

αυτή

δίνει

κωδικο
π
οίηση

συμβόλου

με

μέσο

μήκος

κώδικα
,

ίσο

με

την

εντρο
π
ία

της

κατανομής

εμφάνισης

των

συμβόλων

και

γι


αυτό

το

λόγο

είναι

βέλτιστη
.

Στην

π
αρούσα

εργασία

ζητείται

ε
π
ισκό
π
ηση

της

μεθόδου

και

των

π
αραλλαγών

της

με

έμφαση

στη

δυναμική

κωδικο
π
οίηση

Huffman
.

Προαιρετικά

μ
π
ορεί

να

γίνει

και

μια

υλο
π
οίηση

της

μεθόδου
.

Υλικό
:



Κεφάλαιο

7
από

το

βιβλίο


Modern Information Retrieval
”.


Κεφάλαιο 2 από το βιβλίο “
Managing Gigabytes
”.


Δημοσιεύσεις του
Jeff Vitter

για
Huffman Coding

(
http
://
www
.
cs
.
duke
.
edu
/~
jsv
/
Papers
/
catalog
/
).


Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation
Handbook”
,

CRC Press

1999.



Εργασίες



2
.

Συμ
π
ίεση

κειμένου

με

τη

μέθοδο

της

αριθμητικής

κωδικο
π
οίησης

.


Στην

παρούσα

εργασία

ζητείται

η

επισκόπηση

μιας

διαδεδομένης

μεθόδου

κωδικοποίησης

συμβόλων

και

συμπίεσης

κειμένων,

της

αριθμητικής

κωδικοποίησης
.

Ζητείται

η

επισκόπηση

της

μεθόδου

και

των

παραλλαγών

της

καθώς

και

παρουσίαση

των

πλεονεκτημάτων

ή

μειονεκτημάτων

που

τυχόν

αυτή

παρουσιάζει

σε

σχέση

με

άλλες

τεχνικές

κωδικοποίησης
.

Προαιρετικά

η

εργασία

μπορεί

να

συνοδευτεί

και

από

υλοποίηση

της

μεθόδου
.

Υλικό
:



Κεφάλαιο 7 από το βιβλίο «
Modern Information Retrieval
”.


Κεφάλαιο 2 από το βιβλίο «
Managing Gigabytes
”.


Δημοσιεύσεις του
Jeff
Vitter

για
Arithmetic Coding

(
http
://
www
.
cs
.
duke
.
edu
/~
jsv
/
Papers
/
catalog
/
) .


Kεφάλαιο 12 από το βιβλίο “Algorithms and Theory of Computation
Handbook” CRC Press 1999.



Εργασίες



3
.

Μέθοδοι

Συμπίεσης

με

χρήση

της

μεθόδου

Burrows
-
Wheeler

.


Ο

μετασχηματισμός

Burrows
-
Wheeler

μετασχηματίζει

την

ακολουθία

εισόδου

σε

μια

ακολουθία,

η

οποία

στη

συνέχεια

είναι

εύκολο

να

συμπιεστεί
.

Η

παρούσα

εργασία

αποσκοπεί

στην

μελέτη

της

μεθόδου

και

κάποιων

παραλλαγών

της
.

Υλικό
:



H
δημοσίευση

του

G. Manzini “An Analysis of the Burrows

Wheeler
Transform”, Journal of the ACM, 48:3, pp. 407
-
430.



Εργασίες



4
.

Τεχνικές

συμπίεσης

ανεστραμμένων

αρχείων

.


Αντικείμενο

αυτής

της

εργασίας

είναι

η

μελέτη

των

διαφόρων

τεχνικών

που

έχουν

προταθεί

για

την

συμπίεση

των

ανεστραμμένων

αρχείων

(
inverted

files
)
.

Τα

ανεστραμμένα

αρχεία

είναι

μια

από

τις

πιο

γνωστές

μεθόδους

αποθήκευσης

κειμένων

σε

συστήματα

ανάκτησης

πληροφορίας
.

Ζητείται

παρουσίαση

της

μεθόδου

και

κάποιων

από

τις

τεχνικές

για

την

συμπίεση

των

ανεστραμμένων

αρχείων
.

Εναλλακτικά

η

εργασία

μπορεί

να

παρουσιάσει

μια

συγκριτική

μελέτη

των

ανεστραμμένων

αρχείων

με

άλλες

γνωστές

τεχνικές,

όπως

είναι

τα

signature

files
.

Υλικό
:



Κεφάλαιο 3 από το βιβλίο “
Managing Gigabytes



Η δημοσίευση των Zobel J.R., Moffat A. and Ramamohanarao K., “Inverted
Files Versus Signature Files for Text Indexing”, ACM Trans. On Database
Systems, Vol. 23, No 4, pp. 863
-
896, 1998.




Εργασίες



5
.

Τεχνικές

δημιουργίας

ανεστραμμένων

αρχείων
.



Τα

ανεστραμμένα

αρχεία

είναι

μια

από

τις

πιο

διαδεδομένες

τεχνικές

δεικτοδότησης

κειμένων

και

η

λειτουργία

τους

βασίζεται

στην

αποθήκευση

των

λέξεων

και

των

εμφανίσεών

τους

σε

κείμενα,

αντί

για

την

αποθήκευση

κειμένων
.

Στην

παρούσα

εργασία

ζητείται

η

παρουσίαση

των

τεχνικών

που

έχουν

παρουσιαστεί

στη

βιβλιογραφία

για

την

κατασκευή

των

ανεστραμμένων

αρχείων

με

προαιρετική

συνοδεία

υλοποίησης

κάποιας

από

αυτές
.



Υλικό
:



Κεφάλαιο 5 από το βιβλίο “
Managing Gigabytes
”.


Κεφάλαιο 3 από το βιβλίο “Information Retrieval: Data Structures and
Algorithms”.


Κεφάλαιο 8 από το βιβλίο “Modern Information Retrieval”.


Εργασίες



6
.
Ανάκτηση

Πληροφορίας

με

τη

μέθοδο

της

Λανθάνουσας

Σημασιολογικής

Δεικτοδότησης

(Latent

Semantic

Indexing)
.

.


Η

Λανθάνουσα

Σημασιολογική

Δεικτοδότηση

είναι

μια

μέθοδος

δεικτοδότησης

και

αναπαράστασης

κειμένων,

βάσει

των

εννοιολογικών

συστάδων

που

προκύπτουν

στα

περιεχόμενα

των

κειμένων

και

όχι

της

απλής

λεκτικής

δεικτοδότησης

που

εφαρμόζεται

στο

μοντέλο

Διανυσματικού

Χώρου

(
Vector

Space
)
.

Η

αναπαράσταση

δανείζεται

τεχνικές

από

τη

γραμμική

άλγεβρα

και

συγκεκριμένα

την

Διάσπαση

Ιδιαζουσών

Τιμών

(
Singular

Value

Decomposition
)
.

Στην

εργασία

προτείνεται

παρουσίαση

της

μεθόδου

και

των

ιδιοτήτων

της,

καθώς

και

των

εφαρμογών

που

τυγχάνει
.

Υλικό
:



Δημοσιεύσεις σχετικά με το
LSI

από τη σελίδα της
Telcordia

(
http
://
lsi
.
research
.
telcordia
.
com
/
lsi
/
LSIpapers
.
html
) με σημείο εκκίνησης το
πρώτο
paper

για
LSI

από
Deerwester
,
S
.,
Dumais
,
S
.
T
.,
Landauer
,
T
.
K
.,
Furnas
,
G
.
W
. και
Harshman
,
R
.
A
. , "
Indexing by Latent Semantic Analysis
."
Journal of the Society for Information Science, 41(6), 391
-
407, 1990.


Δημοσιεύσεις σχετικά με το
LSI

από τη σελίδα
http
://
www
-
a
2
k
.
is
.
tokushima
-
u
.
ac
.
jp
/
member
/
kita
/
NLP
/
IR
.
html




Εργασίες



7
.

Τεχνικές

Μοντελοποίησης

Χρήστη

(User

Modeling)

για

Φιλτράρισμα

Πληροφορίας

(Information

Filtering)

Αντικείμενο

της

π
αρούσας

εργασίας

είναι

η

π
αρουσίαση

των

τεχνικών

για

την

π
ροσω
π
ο
π
οίηση

των

συστημάτων

ανάκτησης

π
ληροφορίας

και

συγκεκριμένα

συστημάτων

φιλτραρίσματος

π
ληροφορίας
,

με

τη

χρήση

π
ροσαρμοστικών

υ
π
ερμέσων
.


Υλικό
:



Κεφάλαιο

10
α
π
ό

το

βιβλίο


Modern Information Retrieval
”.


Ένα

κεφάλαιο

α
π
ό

το

βιβλίο


Adaptive Hypertext and Hypermedia
”.


H
δημοσίευση

της

Kjersti Aas “
A Survey on Personalized Information
Filtering Systems for the World Wide Web” December 1997

.


Εργασίες



8
.

Δεικτοδότηση

κειμένων

με

χρήση

Suffix

Trees

και

Suffix

Arrays

.


Δύο

εναλλακτικές

μέθοδοι

για

την

δεικτοδότηση

κειμένων

στην

κύρια

μνήμη
,

α
π
οτελούν

τα

Suffix

Trees

και

μια

π
αρόμοια

αλλά

π
ιο

α
π
οδοτική

σε

χώρο

π
αρόμοια

δομή
,

τα

Suffix

Arrays
.

Οι

μέθοδοι

αυτοί

έχουν

π
ροσελκύσει

μεγάλο

ενδιαφέρον

λόγω

των

αυξημένων

δυνατοτήτων

π
ου

π
αρουσιάζουν

για

α
π
οδοτική

διαχείριση

συμβολοσειρών
,

ταχύ

ταίριασμα

π
ροτύ
π
ου

(
pattern

matching
),

εύρεση

ε
π
αναλήψεων

κλ
π
.

Προτείνεται

η

συγκριτική

μελέτη

των

δύο

δομών

με

εστίαση

στα

π
λεονεκτήματα
-
μειονεκτήματα

π
ου

εμφανίζουν
.

Προαιρετικά

π
ροτείνεται

η

υλο
π
οίηση

suffix

arrays
.

Υλικό
:



Κεφάλαιο 11 από το βιβλίο “Algorithms and Theory of Computation
Handbook” CRC Press 1999.


Κεφάλαιο 5 από το βιβλίο “Ηandbook of Theoretical Computer Science:
Algorithms and Complexity, Volume A” Elsevier,1990.


Η δημοσίευση των Manbers, U. και Myers,
G.W
. “Suffix arrays: a new
method for on
-
line string searches”. SIAM J. Comput., 22, 935
-
948, 1993.




Εργασίες



9
.

Αλγόριθμοι

Ανάκτησης

Πληροφορίας

στο

Παγκόσμιο

Ιστό

.


Η

μεγαλύτερη

π
ρόκληση

για

τα

μοντέρνα

συστήματα

ανάκτησης

π
ληροφορίας
,

είναι

ο

χώρος

του

διαδικτύου

με

την

α
π
εραντοσύνη

και

την

χαοτική

δομή

π
ου

τον

διακρίνει
.

Κά
π
οια

α
π
ό

τα

ε
π
ιτυχημένα

μοντέλα

(
ένα

α
π
ό

αυτά

μάλιστα

χρησιμο
π
οιείται

α
π
ό

το

Google
)

για

την

α
π
οδοτική

ανάκτηση

π
ληροφορίας
,

ανάγουν

τη

δομή

του

διαδικτύου

σε

γράφημα

και

μελετούν

τις

φασματικές

ιδιότητές

τους
.

Στα

π
λαίσια

αυτής

της

εργασίας

π
ροτείνεται

η

συγκριτική

μελέτη

των

κυριότερων

αλγορίθμων

ανάκτησης

π
ληροφορίας

στο

διαδίκτυο

(
HITS
,

Pagerank
)
.

Προαιρετικά

η

άσκηση

μ
π
ορεί

να

συνοδεύεται

με

υλο
π
οίηση

ενός

εκ

των

δύο

αλγορίθμων
.

Υλικό
:



Οι δημοσιεύσεις του
Kleinberg

σχετικά με
Information Networks
, και οι
αντίστοιχες δημοσιεύσεις για το σύστημα
Clever

(
http
://
www
.
cs
.
cornell
.
edu
/
home
/
kleinber
/
,
http
://
www
.
almaden
.
ibm
.
com
/
cs
/
k
53/
clever
.
html

).


Δημοσιεύσεις σχετικά με τη μηχανή αναζήτησης
Google
.
(http://www7.scu.edu.au/programme/fullprog.html ).


Εργασίες



1
0
.

Αλγόριθμοι

ταιριάσματος

προτύπου



Στο

πρόβλημα

ταιριάσματος

προτύπου

δίνεται

ένα

πρότυπο

στην

είσοδο

και

μια

συμβολοσειρά

και

ζητείται

να

αναφερθεί

αν

υπάρχει

ταίριασμα

του

προτύπου

με

ένα

τμήμα

της

συμβολοσειράς

και

σε

ποιες

θέσεις
.

Σχετικοί

αλγόριθμοι

είναι

οι

Knuth
-
Morris
-
Pratt

και

Boyer



Moore
.

Μια

ενισχυμένη

εκδοχή

του

προβλήματος

είναι

το

ταίριασμα

συμβολοσειράς

με

πολλαπλά

πρότυπα

όπου

η

λύση

έχει

δοθεί

από

τους

Aho
-
Corasick
.

Αντικείμενο

αυτής

της

εργασίας

θα

είναι

η

μελέτη

των

αλγορίθμων

ταιριάσματος

προτύπου

που

έχουν

προταθεί
.

Προτείνεται

και

η

υλοποίηση

των

αλγορίθμων

και

πειραματική

μελέτη

των

αλγορίθμων

.

Υλικό
:



Η δημοσίευση των A. Aho and M. Corasick.
“Fast pattern matching: an aid to
bibliographic search.” Communications of the ACM, 18:333
-
340, 1975.


Η

δημοσίευση

των

Boyer R.S., Moore J.S., “A fast string searching
algorithm.” Communications of the ACM. 20:762
-
772, 1977.


Η

δημοσίευση

των

Knuth, D.E., Morris (Jr) J.H., Pratt, V.R., “Fast pattern
matching in strings”, SIAM Journal on Computing 6(1):323
-
350, 1977.



Εργασίες


1
1
.
Αλγόριθμοι

προσεγγιστικού

ταιριάσματος

συμβολοσειρών

(approximate

string

matching)

και

εφαρμογές

τους

Κατά

το

προσεγγιστικό

ταίριασμα

συμβολοσειρών

δίδεται

ένα

πρότυπο

P

μεγέθους

m
,

ένα

κείμενο

Τ

μεγέθους

n

και

ένας

αριθμός

k
.

Το

ζητούμενο

είναι

να

βρεθούν

όλες

οι

θέσεις

στο

κείμενο

που

εμφανίζεται

το

P

με

το

πολύ

k

λάθη,

δηλαδή

αποτυχίες

ταιριάσματος
.

Σκοπός

αυτής

της

εργασίας

είναι

να

παρουσιαστούν

κάποιες

από

τις

διαφορετικές

αποδοτικές

τεχνικές

για

προσεγγιστικό

ταίριασμα

.

Υλικό
:



To κεφάλαιο 13 από το βιβλίο “Algorithms and Theory of Computation
Handbook” CRC Press 1999.


Η δημοσίευση των Landau και Vishkin “Fast String Matching with k
Differences” Journal of Computer and System Sciences, 1988, pp.63
-
78.


H δημοσίευση των Landau και Vishkin “Fast Parallel and Approximate String
Matching” Journal of Algorithms 10, 1989, pp.157
-
169.


Εργασίες



1
2
.

Τεχνικές

Μοντελοποίησης

και

Διαχείρισης

Πολυμεσικών

Αντικειμένων

Πληροφορίας
.



Στα

συστήματα

πολυμεσικής

ανάκτησης

πληροφορίας

τα

δεδομένα

που

αποθηκεύονται

παρουσιάζουν

μεγάλο

βαθμό

ετερογένειας

και

γι’

αυτό

το

λόγο

τόσο

η

αποθήκευση

όσο

και

η

μοντελοποίηση

των

δεδομένων

και

η

μοντελοποίηση

του

τρόπου

υποβολής

ερωτημάτων

έχουν

ιδιαίτερη

σημασία
.

Αντικείμενο

αυτής

της

εργασίας

είναι

η

παρουσίαση

κάποιων

μοντέλων

και

τεχνικών

για

fuzzy

searching

και

content

based

υποβολή

ερωτημάτων

σε

πολυμεσικά

συστήματα

ανάκτησης

πληροφορίας

Υλικό
:



Κεφάλαια 11,12 από το βιβλίο “
Modern Information Retrieval
”.


Κεφάλαιο 9 από το βιβλίο “
Principles of Multimedia Database Systems
” του
V
.
S
.
Subrahmanian
.


H δημοσίευση των S. Marcus και V.S. Subrahmanian, “Foundations of
Multimedia Database Systems” Journal of the ACM 43(3):474
-
523, 1996



Εργασίες

1
3
.

Αλγόριθμοι

και

Τεχνικές

για

Text

Mining

και

Text

Categorization


Τόσο

η

κατηγοριοποίηση

κειμένων

όσο

και

η

εξόρυξη

πληροφορίας

από

κείμενα

είναι

περιοχές

μεγάλου

ενδιαφέροντος

στην

Ανάκτηση

Πληροφορίας
.

Και

οι

δύο

τομείς

αυτοί

έχουν

προσελκύσει

ιδιαίτερο

ενδιαφέρον

τελευταία

λόγω

του

μεγάλου

όγκου

των

δεδομένων

που

είναι

διαθέσιμα

ηλεκτρονικά,

σε

συστήματα

Ανάκτησης

Πληροφορίας

και

στο

Διαδίκτυο
.


Υλικό
:



Η

δημοσίευση

του

F. Sebastiani, “Machine learning in automated text
categorization”, ACM Computing Surveys, 34:1, pp.1
-
47, 2002,
διαθέσιμη

στο
:

http://portal.acm.org/ft_gateway.cfm?id=505283&type=pdf&coll=GUIDE&dl
=ACM&CFID=12688243&CFTOKEN=39196086


Οι

δημοσιεύσεις

της

Kjersti Aas “Pattern Recognition in Text Documents”,
June 2000, “Text categorization


A survey”, June 1999..



Εργασίες



1
4
.

A
λγόριθμοι

Επεξεργασίας

Συμβολοσειρών

με

Εφαρμογή

στη

Διαχείριση

Ακολουθιών

DNA
.


Είναι

γνωστό

ότι

το

DNA

είναι

μια

αλυσίδα

από

τα

νουκλεοτίδια

{
C
,
G
,
A
,
T
}
.

Με

αυτό

τον

τρόπο

η

ακολουθία

του

DNA

μπορεί

να

αναπαρασταθεί

ως

μια

συμβολοσειρά

στο

αλφάβητο

των

νουκλεοτιδίων
.

Πολλά

από

τα

προβλήματα

που

ανακύπτουν

στον

χώρο

της

Βιολογίας

αλλά

και

στην

επεξεργασία

του

DNA
,

μπορούν

να

επιλυθούν

με

αλγορίθμους

επεξεργασίας

συμβολοσειρών

που

έχουν

αναπτυχθεί

ειδικά

γι’

αυτό

το

σκοπό
.

Σκοπός

της

εργασίας

αυτή

είναι

να

εξετάσει

μερικούς

από

αυτούς

τους

αλγορίθμους
.

Υλικό
:



Τα

Κεφάλαια

10
και

17
από

το

βιβλίο

“Algorithms on Strings, Trees and
Sequences”, Cambridge University Press, 1997.


Η

δημοσίευση

των

Gerth Stølting Brodal, Rolf Fagerberg, and Christian N. S.
Pedersen. “Computing the Quartet Distance Between Evolutionary Trees in
Time O(nlogn)”, Algorithmica to appear,
από

την

διεύθυνση

http://www.brics.dk/~gerth/publications.html



Εργασίες

1
5
.

A
λγόριθμοι

και

Τεχνικές

για

Web

Mining
.


Το

Web

Mining

είναι

μια

επέκταση

του

κλασσικού

Data

Mining

για

την

εξόρυξη

πληροφορίας

που

αφορά

τη

δομή

του

παγκόσμιου

ιστού

και

κατά

κύριο

λόγο,

τις

πλοηγητικές

και

αγοραστικές

συνήθειες

των

επισκεπτών

του
.

Για

τον

σκοπό

αυτό,

χρησιμοποιούνται

μια

πλειάδα

από

τεχνικές

και

ευρετικές

μέθοδοι
.

Η

εργασία

αυτή

θα

παρουσιάζει

επιλεγμένες

τεχνικές

για

Web

Mining
.

Υλικό
:



Η

δημοσίευση

των

M.
-
S. Chen, J.S. Park, P.S. Yu, “Efficient Data Mining for
Path Traversal Patterns” , Knowledge and Data Engineering, 10:2, pp.209
-
221,
1998,
διαθέσιμη

από

http://citeseer.nj.nec.com/8204.html


Η

δημοσίευση

των

R. Srikant, Y. Yang, “Mining Web Logs to Improve
Website Organization”, WWW10, 2002.


Η

διδακτορική

διατριβή

του

R.W. Cooley, “Web Usage Mining: Discovery
and Application of Interesting Patterns from Web Data”, University of
Minnesota, 2000.


Εργασίες



1
6
.


Αλγόριθμοι

και

Τεχνικές

Αποθήκευσης,

Δεικτοδότησης

για

XML
-
κείμενα

Η

γλώσσα

XML

είναι

το

νέο

ε
π
ερχόμενο

π
ρότυ
π
ο

στην

α
π
οθήκευση

π
ληροφορίας
,

ό
π
ου

ε
π
ι
π
λέον

υ
π
άρχει

η

δυνατότητα

α
π
οθήκευσης

π
ληροφορίας

σχετικά

με

τη

δομή
.

Στα

π
λαίσια

αυτής

της

εργασίας

έχει

ενδιαφέρον

η

μελέτη

των

εφαρμογών

της

γλώσσας

XML

στον

χώρο

της

Ανάκτησης

Πληροφορίας

καθώς

και

των

μεθόδων

για

α
π
οθήκευση

και

δεικτοδότηση

XML

κειμένων
.

Υλικό
:



To XML tutorial
των

Anders Møller & Michael I. Schwartzbach,
από

την

διεύθυνση
:
http://www.brics.dk/~amoeller/XML/index.html
.


Η

δημοσίευση

των

F. Rizzolo, A. Mendelzon “Indexing XML Data with
ToXin”, 4
th

WebDB 2001,
από

τη

διεύθυνση
:
http://citeseer.nj.nec.com/rizzolo01indexing.html



H. Wang, S. Park, W. Fan, and P. S. Yu. “ViST: A dynamic index method for
querying XML data by tree structures.” In SIGMOD
, 2003, από τη διεύθυνση:
http
://
citeseer
.
nj
.
nec
.
com
/
wang
03
vist
.
html

Εργασίες



1
7
.

Social

networks

και

Ανάκτηση

Πληροφορίας


Στα

κοινωνιολογικά

Δίκτυα
,

π
αρατηρείται

εμ
π
ειρικά

το

φαινόμενο

της

δυνατότητας

ε
π
ικοινωνίας

δύο

π
αντελώς

αγνώστων

ανθρώ
π
ων
,

μέσω

μιας
,

μικρής

σε

μήκος
,

αλυσίδας

α
π
ό

γνωριμίες
.

Αυτό

το

φαινόμενο

ε
π
ιδέχεται

ερμηνείας

α
π
ό

τη

θεωρία

γραφημάτων

και

οι

συνέ
π
ειες

α
π
ό

την

εφαρμογή

σχετικών

μοντέλων
,

μ
π
ορούν

να

φανούν

χρήσιμες

σε

εφαρμογές

Ανάκτησης

Πληροφορίας
.

Υλικό
:



Δημοσίευσεις

του

J
.
Kleinberg
, σχετικά με
Small World Phenomena
,
http://www.cs.cornell.edu/home/kleinber/



Η

δημοσίευση

των

R. Kumar, S. Rajagopalan, P. Raghavan and A. Tomkins
“The web and social networks”, IEEE Computer, November 2002.


Η

δημοσίευση

των

M. Bawa, G.S. Manku and P. Raghavan, “SETS: Search
Enhanced by Topic Segmentation”. Proceedings of ACM SIGIR 2003.



18
.

Πολυγλωσσική

Ανάκτηση

Πληροφορίας

19
.

Κατανεμημένη

Ανάκτηση

Πληροφορίας

20
.

Νέα

Μοντέλα

Ανάκτησης

Πληροφορίας

21
.

Υλοποίηση

αλγορίθμων

stemming