Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2006-3
ΤίτλοςΒελτιστοποίηση Μεθόδων Εξόρυξης Γνώσης
ΣυγγραφέαςΣπύρος Πασσάς
Έτος2006
Λέξεις κλειδιάτύπου συνόλου, δεικτοδότηση συνόλων, ανεστραμμένα αρχεία, ερωτήματα υποσυνόλου-ισότητας-υπερσυνόλου
ΠερίληψηΤα πεδία τύπου συνόλου συναντώνται συχνά σε εφαρμογές βάσεων δεδομένων (π.χ αξιοποίηση εμπορικών συναλλαγών) και σε εφαρμογές ανάκτησης πληροφορίας (π.χ εξόρυξη κειμένων) με αποτέλεσμα να παρουσιάζει ενδιαφέρον η δεικτοδότησή τους. Η πρότασή μας είναι ένα υβριδικό ευρετήριο (ευρετήριο ΗΤΙ) το οποίο συνδυάζει δύο γνωστές λύσεις δεικτοδότησης, χρησιμοποιώντας ένα trie tree σαν δένδρο πρόσβασης για ένα ανεστραμμένο αρχείο που δεικτοδοτεί μια σχέση με πεδίο τύπου συνόλου. Πιο συγκεκριμένα το trie δημιουργείται μόνο για τα πιο συχνά αντικείμενα του λεξιλογίου της βάσης και παρέχει σημεία πρόσβασης στις ανεστραμμένες λίστες των συχνών αυτών αντικειμένων ενώ τα μη συχνά αντικείμενα οργανώνονται σαν τυπικό ανεστραμμένο αρχείο. Το ευρετήριο ΗΤΙ υλοποιήθηκε όπως επίσης υλοποιήθηκαν και αλγόριθμοι αποτίμησης για τα ερωτήματα τύπου υποσυνόλου, ισότητας και υπερσυνόλου. Η επίδοση του ΗΤΙ δοκιμάστηκε τοσο σε πραγματικά όσο και σε συνθετικά δεδομένα για ποικίλα μεγέθη βάσεων δεδομένων και λεξιλογίου. Η σύγκριση έγινε ως προς το ευρετήριο ανεστραμμένου αρχείου το οποίο αποτελεί τη βέλτιστη δομή ευρετηρίου για πεδία τύπου συνόλου, σύμφωνα με τη βιβλιογραφία. Η πειραματική αποτίμηση επικεντρώνεται στις απαιτούμενες προσπελάσεις στο δίσκο κατά τη διάρκεια της αποτίμησης και στο φορτίο της κύριας μνήμης που επιβάλει το HTI εξαιτίας της ύπαρξης του δένδρου πρόσβασης.
ΚατηγορίαData Mining
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα