Λεπτομέρειες

ΕίδοςΔιπλωματική
ΚωδικόςDIPL-2006-20
ΤίτλοςΜέθοδοι αυτόματου εντοπισμού σφαλμάτων και βελτίωσης wrappers με χρήση επαυξητικών μεθόδων μάθησης
ΣυγγραφέαςΤσουρακάκης Χαράλαμπος
Έτος2006
Λέξεις κλειδιάΜηχανική μάθηση, μάθηση προτύπων, wrapper maintenance, wrapper verification, wrapper reinduction, έλεγχος υποθέσεων, ολοκλήρωση δεδομένων
ΠερίληψηΟι Web wrappers είναι εξειδικευμένα προγράμματα που εξάγουν αυτόματα πληροφορία από ιστοσελίδες βασιζόμενα στη δομή τους. Λόγω των συχνών αλλαγών που γίνονται τόσο στη δομή όσο και στο περιεχόμενο των ιστοσελίδων, οι wrappers συχνά αποτυχαίνουν να εξάγουν την επιθυμητή πληροφορία. Το πρόβλημα που προκύπτει είναι ο αυτόματος εντοπισμός του σφάλματος της λειτουργίας ενός wrapper ( Wrapper Verification ) καθώς και η διόρθωση του εσφαλμένου wrapper (Wrapper Reinduction). Η κύρια συνεισφορά αυτής της εργασίας είναι ένας νέος, αλγόριθμος για Wrapper Verification που σε αντίθεση με τους ήδη υπάρχοντες αλγόριθμους δεν βασίζεται στην πυκνότητα των HTML χαρακτηριστικών, αλλά σε χαρακτηριστικά του εξαγόμενου περιεχομένου ( content-based) , καθιστώντας το verification σύστημα εύρωστο αφού δεν απαιτείται καθαρισμός δεδομένων. Πειράματα έδειξαν ότι το προτεινόμενο σύστημα ARMAGEDDON είναι ένα αξιόπιστο σύστημα Wrapper Maintenance με πολύ καλά ποσοστά αναγνώρισης των σφαλμάτων ενός wrapper.
ΚατηγορίαWWW and DBMS
Αρχείο Επισκόπηση


Επιστροφή στην αρχική σελίδα