Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2007-6
ΤίτλοςΣυνδυασμός συστημάτων εξαγωγής πληροφορίας με χρήση ConditionalRandomField σε μετα-επίπεδο
ΣυγγραφέαςΚατερίνα Φραγκιαδάκη
Έτος2007
Λέξεις κλειδιάCRF, information extraction, combining information extraction systems
ΠερίληψηΗ ραγδαία εξάπλωση του Παγκοσμίου Ιστού και των άλλων υπηρεσιών του διαδικτύου τα τελευταία χρόνια επιτείνουν την ανάγκη ανάπτυξης συστημάτων που να βοηθούν τους χρήστες να εκμεταλλευτούν τον τεράστιο όγκο κειμένου που είναι διαθέσιμος στο διαδίκτυο. Μία ελπιδοφόρα διέξοδος για την αντιμετώπιση της πληροφοριακής αυτής έκρηξης αποτελούν τα συστήματα εξαγωγής πληροφορίας (information extraction). Η χρήση τεχνικών μηχανικής μάθησης (machine learning) διευκολύνει την ανάπτυξη συστημάτων εξαγωγής πληροφορίας, καθώς και τη μεταφερσιμότητά τους σε νέες θεματικές περιοχές ενδιαφέροντος. Στην εργασία αυτή αρχικά μελετάται η απόδοση του πιθανοτικού ακολουθιακού μοντέλου Conditional Random Fields στο πρόβλημα της εξαγωγής πληροφορίας από ιστοσελίδες του παγκόσμιου Ιστού. Επίσης μελετάται εκτενώς ο αλγόριθμος επιλογής χαρακτηριστικών και η γραφική δομή του CRF και παραθέτονται παρατηρήσεις σχετικά με τη διευκόλυνση του μοντέλου στην αναγνώριση πεδίων χωρίς ιδιαίτερη τυπογραφική δομή. Στη συνέχεια μελετάται μία νέα μεθοδολογία συνδυασμού συστημάτων εξαγωγής πληροφορίας όπου οι προβλέψεις των αλγορίθμων βασικού επιπέδου εισάγονται ως επιπλέον πληροφορία σε CRF μετά-επιπέδου, με τη μορφή χαρακτηριστικών πρόβλεψης. Σκοπός είναι να διαπιστωθεί αν το CRF μπορεί να βοηθηθεί από τα χαρακτηριστικά αυτά, να τα αξιοποιήσει για βελτίωση της απόδοσής του. Παρουσιάζονται και σχολιάζονται αποτελέσματα αξιολόγησης των αλγορίθμων βασικού επιπέδου που χρησιμοποιήσαμε καθώς και του συνδυαστικού συστήματος σε 2 θεματικές περιοχές ενδιαφέροντος.
ΚατηγορίαData Mining
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα