Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2007-9
ΤίτλοςΠληροφοριακό σύστημα ενημέρωσης δικτύου βιβλιογραφικών αναφορών από τον ιστό
ΣυγγραφέαςΓεώργιος Παπαδάκης
Έτος2007
Λέξεις κλειδιάεξαγωγή πληροφορίας,citation matching,name disambiguation,mixed citation problem,split citation problem,string distance metrics
ΠερίληψηΗ αξιολόγηση του ερευνητικού τους έργου και ο προσδιορισμός της απήχησης που αυτό έχει απασχολούσε ανέκαθεν τους επιστήμονες. Στα μέσα της δεκαετίας του 1950 προτάθηκε για το σκοπό αυτό η μέθοδος των βιβλιογραφικών αναφορών (citations), η οποία στις μέρες μας είναι καθολικά αποδεκτή ως η πιο αξιόπιστη. Απαιτείται ωστόσο ιδιαίτερη προσπάθεια και κόπος για να καταφέρει κανείς να συγκεντρώσει τα citations για όλες τις δημοσιευμένες εργασίες του, ακόμα και στην σημερινή εποχή του Διαδικτύου. Χρειάζεται άλλωστε να συνδυάσει πληροφορίες από πλήθος ετερογενών πηγών. Είναι επομένως επιτακτική η ανάγκη για αυτοματοποίηση της διαδικασίας αυτής. Από τις ιδιαίτερα αξιόλογες προσπάθειες που έχουν γίνει προς αυτή την κατεύθυνση, καμία δεν έχει καταφέρει να λύσει επιτυχώς το σύνολο των προβλημάτων που πρέπει να αντιμετωπίσει μια προσπάθεια αυτοματοποίησης. Σε αυτά συγκαταλέγονται η ελεύθερη πρόσβαση και επεξεργασία (parsing) των πρωτογενών πηγών πληροφοριών (εκδοτικοί οίκοι κλπ), το ταίριασμα των διαφορετικών βιβλιογραφικών αναφορών που αναφέρονται στην ίδια δημοσίευση (citation matching) και ο εντοπισμός των διαφορετικών επιστημόνων που συμμετέχουν στη συγγραφή ενός συνόλου δημοσιεύσεων (name disambiguation). Για την ακρίβεια, το name disambiguation επιμερίζεται στον εντοπισμό εκείνων των ονομάτων που, παρ’ όλο που ταυτίζονται, αντιστοιχούν στην πραγματικότητα σε διαφορετικούς επιστήμονες (mixed citation problem) και των ονομάτων που, παρ’ όλο που διαφέρουν, αντιστοιχούν στην πραγματικότητα στον ίδιο επιστήμονα (split citation problem). Αντικείμενο αυτής της διπλωματικής είναι η ανάπτυξη, με βάση τις αρχές της τεχνολογίας λογισμικού, ενός συστήματος ανάλυσης βιβλιογραφικών αναφορών που αντιμετωπίζει το σύνολο των παραπάνω προβλημάτων (στην περίπτωσή μας βέβαια το πρώτο πρόβλημα ανάγεται στην εξαγωγή πληροφορίας από ακαδημαϊκές μηχανές αναζήτησης). Σε αυτό το πλαίσιο αναπτύχθηκαν πρωτότυποι αλγόριθμοι για την επίλυση τόσο του citation matching όσο και του name disambiguation. Οι αλγόριθμοι αυτοί βασίζονται στις τεχνικές ταιριάσματος όμοιων εγγραφών και διαφοροποιούνται από τους προτεινόμενους στη βιβλιογραφία, καθώς δεν προορίζονται για εφαρμογή σε ένα περιορισμένο σύνολο δεδομένων. Αντίθετα, στόχος είναι να χρησιμοποιηθούν σε μια εφαρμογή πραγματικού χρόνου, ώστε να επιτυγχάνουν σε αποδεκτό χρόνο υψηλή απόδοση σε οποιαδήποτε δεδομένα. Αν και είναι εξαιρετικά δύσκολο να υπολογιστεί η αποτελεσματικότητα και η αξιοπιστία μιας τέτοιας εφαρμογής, τα πρώτα αποτελέσματα είναι ικανοποιητικά, αφήνοντας παράλληλα αρκετά περιθώρια βελτίωσης.
ΚατηγορίαInformation Systems Development
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα