Logo
Banner

Νέα δημοσίευση επάνω στη σημασιολογική δεικτοδότηση λογοτεχνικών έργων

Η σημασιολογική δεικτοδότηση ως πρόβλημα εξαγωγής πληροφορίας στοχεύει στην ανάθεση σημασιολογικών κλάσεων σε κείμενα στην φυσική γλώσσα. Στην λογοτεχνία, αυτή η εργασία είναι σημαντική καθώς επιτρέπει σε ένα λογοτεχνικό έργο να αναζητηθεί και να ανακτηθεί με βάση αυτές τις κλάσεις.

Η εργασία μας «Σημασιολογική δεικτοδότηση της ελληνικής λογοτεχνίας του 19ου αιώνα με την χρήση γλωσσικών πηγών του 21ου αιώνα» που δημοσιεύτηκε πρόσφατα στο ειδικό τεύχος με θέμα «Αφήγηση, ενασχόληση με και διαχείριση πολιτιστικής κληρονομιάς στην εποχή των μεγάλων δεδομένων και του σημασιολογικού ιστού» παρουσιάζει το πρόβλημα στην ελληνική λογοτεχνία του 19ου αιώνα και προτείνει την χρήση του σύγχρονου γλωσσικού μοντέλου BERT σε συνδυασμό με τον αλγόριθμο TextRank για την δημιουργία αντιπροσωπευτικών συνόλων προτάσεων/φράσεων από κείμενα για την επίλυσή του. Μέσω της μεταφοράς μάθησης, το μοντέλο είναι ικανό να εκπαιδευτεί σε λογοτεχνικά έργα της μοντέρνας ελληνικής γλώσσας του 21ου αιώνα και να δεικτοδοτήσει έργα στην καθαρεύουσα του 19ου αιώνα. Το αντιπροσωπευτικό σύνολο προτάσεων/φράσεων βελτιώνει την απόδοση του γλωσσικού μοντέλου αποτελώντας έτσι μία λύση για την δημιουργία μοντέλων σημασιολογικής δεικτοδότησης λαμβάνοντας υπόψιν ένα μέρος των κειμένων και όχι ολόκληρα τα κείμενα.

Εικόνα 1: Σημασιολογική δεικτοδότηση κειμένου με την χρήση BERT και TextRank

Η Εικόνα 1 παρουσιάζει την διαδικασία δεικτοδότησης ενός λογοτεχνικού έργου. Αρχικά το προς δεικτοδότηση κείμενο περνάει ως είσοδος στον αλγόριθμο TextRank για την δημιουργία αντιπροσωπευτικού συνόλου προτάσεων/φράσεων. Κατόπιν το αποτέλεσμα του αλγορίθμου χρησιμοποιείται από το γλωσσικό μοντέλο BERT που είναι υπεύθυνο για την αυτόματη δεικτοδότηση του κειμένου.

Εικόνα 2: Ανάκτηση και προεπεξεργασία λογοτεχνικών έργων

Πέρα από την μεθοδολογία που ακολουθήθηκε για την επίλυση του προβλήματος δόθηκε έμφαση και στις πηγές που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου σε λογοτεχνικά έργα του 21ου αιώνα και για την επαλήθευσή του σε λογοτεχνικά έργα του 19ου αιώνα. Η Eικόνα 2 δείχνει την διαδικασία που ακολουθήθηκε για την ανάκτηση των λογοτεχνικών έργων και την προ επεξεργασία τους.  

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Logo

Αξιοποίηση πολιτισμικού αποθέματος με τη χρήση υποβοηθούμενης αναγνώρισης, ανάλυσης, επισήμανσης και εμπλουτισμού τεκμηρίων.

Ακολουθήστε μας

Copyright © 2018 - 2019 ECARLE. All rights reserved.

Μετάβαση στο περιεχόμενο