Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2006-12
ΤίτλοςΕκπαίδευση ταξινομητών κειμένου για το χαρακτηρισμό άποψης
ΣυγγραφέαςΕιρήνη Καλδέλη
Έτος2006
Λέξεις κλειδιάMachine Learning, Automated Text Categorization, Sentiment Classification, sentiment orientation
ΠερίληψηΗ παρούσα διπλωματική εργασία πραγματεύεται το πρόβλημα της αυτόματης κατάταξης κειμένων σε δύο κατηγορίες (αρνητική ή θετική) με βάση τη συνολική άποψη που αυτά εκφράζουν πάνω σε ένα θέμα. Η προσέγγιση του προβλήματος στηρίζεται στη χρήση του αλγόριθμου ταξινόμησης SVM (Support Vector Machines), ο οποίος σύμφωνα με τα συμπεράσματα προηγούμενων εργασιών έχει καλές επιδόσεις στο συγκεκριμένο πρόβλημα. Η εργασία μελετά διάφορους τρόπους εκμάθησης του ταξινομητή SVM με την εξαγωγή χρήσιμων όρων από το σώμα των κειμένων. Προκειμένου να προσδιοριστούν τα κατάλληλα χαρακτηριστικά που διαμορφώνουν την άποψη που διατυπώνει ένα κείμενο, δοκιμάστηκαν διάφορες μορφές αναπαράστασης των λέξεων και διερευνήθηκε η επίδραση των όρων άρνησης στην μεταβολή του προσανατολισμού της εκφραζόμενης άποψης. Πέραν των όρων που εξάγονται από τα κείμενα, επιχειρήθηκε να ενταχθούν στον ταξινομητή και πληροφορίες που παρέχονται από εξωγενείς πηγές. Στο πλαίσιο αυτό έγινε χρήση λεξικών που περιλαμβάνουν λέξεις με έντονη υποκειμενική χροιά, για τις οποίες γνωρίζουμε εκ των προτέρων αν είναι θετικές ή αρνητικές. Επιπλέον, δοκιμάστηκε ο συνδυασμός ενός μέτρου προσανατολισμού της άποψης λέξεων και εκφράσεων, που βασίζεται στην παραδοχή ότι οι λέξεις με κοινό προσανατολισμό άποψης τείνουν να εμφανίζονται κοντά η μία στην άλλη. Το μέτρο αυτό μπορεί να υπολογιστεί με την υποβολή κατάλληλων ερωτήσεων σε μια μηχανή αναζήτησης. Ταξινομητές που βασίζονται στις επιπλέον αυτές πληροφορίες μπορούν να συνδυαστούν με ταξινομητές που βασίζονται αποκλειστικά σε όρους των κειμένων μέσω ενός τελικού μεταταξινομητή. Επίσης, προκειμένου να γίνει διάκριση μεταξύ της υποκειμενικής και της αντικειμενικής πληροφορίας που περιέχεται στα κείμενα, εφαρμόστηκε ένας ταξινομητής υποκειμενικότητας σε επίπεδο προτάσεων, με στόχο την απομάκρυνση των προτάσεων που περιγράφουν αντικειμενικά γεγονότα χωρίς να εκφράζουν κάποια προσωπική θέση. Οι μέθοδοι που αναπτύχθηκαν επικεντρώνονται στην ταξινόμηση εκτεταμένων και καλά δομημένων κειμένων, όπως οι κριτικές ταινιών, αλλά δοκιμάστηκαν και σε μικρής έκτασης αποσπάσματα καθώς και σε επίπεδο προτάσεων. Στην περίπτωση των κειμένων η απόδοση των ταξινομητών ήταν ικανοποιητική, αν και κατώτερη της απόδοσης που παρουσιάζουν ανάλογες μέθοδοι στον τομέα της θεματικής κατηγοριοποίησης κειμένων. Η ένταξη επιπλέον πληροφορίας από κάποιο λεξικό υποκειμενικότητας ή από το διαδίκτυο μέσω της χρήσης ενός μεταταξινομητή φάνηκε ότι μπορεί να συμβάλλει στη βελτίωση της ορθότητας της κατηγοριοποίησης. Η σύνθεση των αποτελεσμάτων που προκύπτουν από διαφορετικούς ταξινομητές σε έναν τελικό μεταταξινομητή προσφέρει τη δυνατότητα για την αξιοποίηση ποικιλίας χαρακτηριστικών και το συνδυασμό διαφορετικών προσεγγίσεων. Από τα πειράματα φάνηκε ότι οι μέθοδοι που χρησιμοποιήθηκαν για την κατηγοριοποίηση κειμένου δεν αποδίδουν καλά στην περίπτωση μικρής έκτασης αποσπασμάτων και προτάσεων, η ταξινόμηση των οποίων απαιτεί πιο εξειδικευμένες μεθόδους.
ΚατηγορίαOther
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα