Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2006-11
ΤίτλοςΕξαγωγή γεωγραφικής πληροφορίας από ημιδομημένο κείμενο
ΣυγγραφέαςΑλβέρτος-Δαυΐδ Άντζελ
Έτος2006
Λέξεις κλειδιάεξαγωγή γεωγραφικής πληροφορίας, γεωκωδικοποίηση, αλγόριθμοι προσεγγιστικού και φωνητικού ταιριάγματος, καθαρισμός δεδομένων, γεωγραφική αναζήτηση
ΠερίληψηΗ αναζήτηση, πλοήγηση, ευρετηριοποίηση, οργάνωση του παγκόσμιου ιστού μπορεί να γίνει πάνω σε διάφορους άξονες χαρακτηριστικών (π.χ. με λέξεις κλειδιά, τοπολογικά-μέσω υπερσυνδέσμων, θεματικά, χρονολογικά, γεωγραφικά). Στην διπλωματική εργασία αυτή, μελετώνται διάφορες προσεγγίσεις ανακάλυψης γεωγραφικής-χωρικής πληροφορίας σε ιστοσελίδες (geoparsing), και απόδοσης ακριβών συντεταγμένων στην πληροφορία αυτή (γεωκωδικοποίηση). Για την πραγματοποίηση των στόχων αυτών, απαιτούνται αποδοτικοί αλγόριθμοι προσεγγιστικού και φωνητικού ταιριάγματος συμβολοσειρών (για παράδειγμα, για το ταίριαγμα πιθανών τοπωνυμίων από μια ιστοσελίδα με μια μεγάλη βάση τοπωνυμίων, ή για τον καθαρισμό των δεδομένων στης βάσης αυτής). Γι'αυτό, εξετάζονται οι υπάρχοντες αλγόριθμοι ταιριάγματος, και προτείνονται νέοι, καθώς και παραλλαγές τους για την Ελληνική γλώσσα. Οι ιδιοτροπίες που προκύπτουν από την χρήση της τελευταίας (π.χ. ύπαρξη μεγάλου όγκου πληροφορίας σε greeklish), επισημαίνονται, παράλληλα με τους τρόπους αντιμετώπισής τους. Επίσης, για έναν τέτοιο στόχο, απαιτούνται υψηλής ποιότητας γεωγραφικά δεδομένα. Προτείνονται διάφορες μέθοδοι απόκτησης και καθαρισμού αυτών, προσαρμοσμένες στην Ελληνική πραγματικότητα. Τέλος, αναπτύσσουμε ένα πρωτότυπο εργαλείο για την γεωγραφική ευρετηριοποίηση του Ελληνικού ιστοχώρου, που υλοποιεί τις παραπάνω ιδέες, και προσφέρεται για ποικίλες εφαρμογές (π.χ. γεωγραφική αναζήτηση, εύρεση σημείων ενδιαφέροντος στην εγγύτητα κ.λ.π.)
ΚατηγορίαWWW and DBMS
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα