Λεπτομέρειες

ΕίδοςΔιδακτορικό
ΚωδικόςPHD-2003-2
ΤίτλοςΔομές Αποθήκευσης, Επεξεργασία Επερωτήσεων και Υλοποίηση Συστημάτων Άμεσης Αναλυτικής Επεξεργασίας Δεδομένων
ΣυγγραφέαςΝίκος Καραγιαννίδης
Έτος2003
Λέξεις κλειδιάdata cube, OLAP, data warehouse, storage structures, star join, hierarchical clustering
ΠερίληψηΗ Άμεση Αναλυτική Επεξεργασία Δεδομένων (OLAP) έχει αλλάξει σημαντικά τον παραδοσιακό τύπο επερώτησης σε μια βάση δεδομένων. Οι επερωτήσεις OLAP είναι πιο σύνθετες και συνεπάγονται την επεξεργασία μεγάλου όγκου δεδομένων. Η ad hoc ανάλυση αποτελεί ένα ισχυρό εργαλείο στα πλαίσια της επιχειρησιακής νοημοσύνης (business intelligence). Η αποδοτική επεξεργασία των ad hoc επερωτήσεων OLAP είναι ο ακρογωνιαίος λίθος της ad hoc ανάλυσης. Συνήθως, ο μόνος τρόπος να αποτι-μηθεί μια τέτοια επερώτηση, είναι να προσπελαστούν άμεσα τα δεδομένα στο πιο λεπτομερές επίπεδο και να υπολογιστεί το αποτέλεσμα εκείνη την στιγμή (on the fly). Λαμβάνοντας υπ' όψιν τον όγκο των δεδομένων που αποθηκεύονται στις σύγχρονες αποθήκες δεδομένων (data warehouses), καθώς επίσης και το μέγεθος της επεξεργασίας που απαιτούν οι επερωτήσεις OLAP, μια τέτοια προσπάθεια θα μπο-ρούσε να αποβεί μη ρεαλιστική από την άποψη του χρόνου απόκρισης της επερώτησης. Εκτός αν, χρησιμοποιηθεί μια κατάλληλη δομή αποθήκευσης που εξασφαλίζει την φυσική συγκέντρωση (clustering) των δεδομένων μειώνοντας το κόστος προσπέλασης των δεδομένων στον δίσκο (I/O cost), σε συνδυασμό με μια εξειδικευμένη επεξεργασία της επερώτησης. Στη διατριβή αυτή προτείνουμε μια νέα δομή δεδομένων για την φυσική οργάνωση των δεδομένων στο πιο λεπτομερές επίπεδο ενός κύβου OLAP, την οποία ονομάζουμε Αρχείο ΚΥΒΟΥ (CUBE File). Πρόκειται για μια πολυδιάστατη δομή δεδομένων, η οποία υποστηρίζει απόλυτα την ύπαρξη ιεραρχιών στις διαστάσεις. Η δομή αυτή επιβάλλει μια ιεραρχική συγκέντρωση (hierarchical clustering) στα δε-δομένα και ως εκ τούτου, έχει σκοπό να επιταχύνει επερωτήσεις που περιέχουν περιορισμούς πάνω στην ιεραρχία των διαστάσεων. Οι επερωτήσεις αυτές αποτελούν το πιο τυπικό δείγμα επερωτήσεων OLAP. Επιπλέον, η δομή υιοθετεί μια συντηρητική κατανομή του διαθέσιμου αποθηκευτικού χώρου, στοχεύοντας σε μια υψηλή χρησιμοποίηση του υπάρχοντος χώρου και προσαρμόζεται τέλεια στην ε-κτεταμένη αραιότητα του χώρου δεδομένων (data space) ενός κύβου. Δεδομένου τέτοιων πολυδιάστατων δομών που επιβάλλουν ιεραρχική συγκέντρωση στα δεδομένα (ό-πως είναι και το Αρχείο ΚΥΒΟΥ), η επεξεργασία των ad hoc επερωτήσεων αστέρος (star queries) αλ-λάζει σημαντικά. Λαμβάνοντας υπ' όψιν την σημασία αυτού του είδους των επερωτήσεων, οι οποίες αποτελούν τον επικρατέστερο τύπο επερώτησης σε περιβάλλοντα αποθηκών δεδομένων, προτείνουμε ένα συνολικό πλαίσιο επεξεργασίας επερωτήσεων αυτού του τύπου πάνω από ιεραρχικά συγκεντρωμέ-νους κύβους. Επιπλέον, υλοποιούμε τις αφηρημένες λειτουργίες του πλαισίου σε αναφορά με τη δομή Αρχείο ΚΥΒΟΥ και παρουσιάζουμε συγκεκριμένους αλγορίθμους επεξεργασίας επερωτήσεων. Στοχεύοντας σε μια ρεαλιστική αξιολόγηση των προτάσεων μας, υλοποιήσαμε τις ιδέες μας σε ένα πραγματικό σύστημα OLAP, τον ΕΡΑΤΟΣΘΕΝΗ. Σε αυτή τη διατριβή παρουσιάζουμε την αρχιτεκτο-νική του συστήματος αυτού και περιγράφουμε την υλοποίηση διαφόρων θεμελιωδών τμημάτών του, όπως είναι ο διαχειριστής αποθήκευσης (storage manager) και η μηχανή επεξεργασίας (processing engine). Επιπλέον, παρουσιάζουμε την ενσωμάτωση της δομής Αρχείο ΚΥΒΟΥ ως πρωτεύουσα οργά-νωση για την αποθήκευση κύβων στον ΕΡΑΤΟΣΘΕΝΗ και συζητάμε σχετικές αποφάσεις σχεδίασης και επιλογές υλοποίησης. Με την εργασία μας αυτή, εισάγουμε ένα νέο παράδειγμα αποθήκευσης και επεξεργασίας πολυδιάστα-των δεδομένων με ιεραρχίες και ανοίγουμε επίσης τον δρόμο για νέες «προκλήσεις» στην επεξεργασία και στη βελτιστοποίηση επερωτήσεων. Η έμφαση έχει δοθεί στο πεδίο εφαρμογής της άμεσης αναλυ-τικής επεξεργασίας δεδομένων (OLAP) αλλά τα προκύπτοντα αποτελέσματα θα μπορούσαν ενδεχο-μένως να αξιοποιηθούν και σε άλλα πεδία εφαρμογής, όπου κεντρικό ρόλο παίζουν τα πολυδιάστατα δεδομένα με ιεραρχίες· για παράδειγμα, τα γεωγραφικά συστήματα πληροφοριών (GIS) και τα δεδομένα τύπου XML.
ΚατηγορίαOLAP
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα