ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

GSOC2019 Δημιουργία ελληνικού μορφολογικού λεξικού

Περιγραφή

Ένα μορφολογικό λεξικό είναι ένας πολύ σημαντικός γλωσσικός πόρος για την επεξεργασία φυσικής γλώσσας (NLP). Επιτρέπει για παράδειγμα τη δημιουργία υπολογιστικών λεξικών για την εύρεση του λήμματος και του μέρους του λόγου μίας λέξης.

Περιγραφή του λεξικού

Το λεξικό δημιουργήθηκε μετά από αυτόματη ανάλυση των άρθρων στο ελληνικό Βικιλεξικό. Για κάθε λεκτικό τύπο (word form) υπάρχει πληροφορία για το λήμμα, το μέρος του λόγου, το γένος , τον αριθμό κτλ. Το λεξικό βρίσκεται σε μία βάση δεδομένων SQL και μπορεί να βρεθεί εδώ. Πέρα από τη μορφολογική ανάλυση της κάθε λέξης περιλαμβάνει συνώνυμα, αντώνυμα, ορισμούς, ετυμολογίες, μεταφράσεις και έναν πίνακα για κανονικοποίηση των λέξεων (π.χ. εφτά – επτά).

Πιο συγκεκριμένα περιλαμβάνει:

  1. Ένα μορφολογικό λεξικό με 900.000 εγγραφές που περιλαμβάνουν 518.000 διακριτούς λεκτικούς τύπους με τις μορφολογικές πληροφορίες εκφρασμένες σύμφωνα με το Universal Dependencies.
  2. Ορισμοί και ετυμολογίες για τα περισσότερα λήμματα
  3. 18500 Συνώνυμα για διάφορες γλώσσες, 12500 από τα οποία είναι στα ελληνικά
  4. 5500 Αντώνυμα για διάφορες γλώσσες, 4300 από τα οποία είναι στα ελληνικά
  5. 3310 Κανονικοποιήσεις λέξεων
  6. Σχεδόν 150.000 μεταφράσεις

Περισσότερες μεταφράσεις μπορούν να βρεθούν στο έργο DBnary που εκτός από μεταφράσεις από το ελληνικό Βικιλεξικό, περιλαμβάνει και μεταφράσεις από βικιλεξικά γραμμένα σε διαφορετικές γλώσσες.

Ορθογραφικό λεξικό

Μία επιπλέον άμεση εφαρμογή του λεξικού είναι η βελτίωση των υπάρχοντων λεξικών για ορθογραφικό έλεγχο. Έτσι δημιουργήθηκε ένα νέο ως επέκταση των υπάρχοντων ελληνικών που περιλαμβάνει 1.047.200 λέξεις έναντι 828.807 του προηγούμενου που χρησιμοποιείται στο LibreOffice.

Περιθώρια βελτίωσης

Η δημιουργία του λεξικού έγινε με βάση τη δουλειά που γίνεται στο ελληνικό Βικιλεξικό. Συνεπώς ο καλύτερος τρόπος για να βοηθήσει κάποιος είναι να συνεισφέρει στο Βικιλεξικό. Η δομή των άρθρων περιγράφεται εδώ ενώ ένας κατάλογος με τα πρότυπα κλίσεων βρίσκεται εδώ

Κατά τη διάρκεια του έργου έγιναν βελτιώσεις και πίσω στο Βικιλεξικό με λίστες από λήμματα που είχαν σφάλματα ή ελλείψεις. Για παράδειγμα έγινε προσθήκη του γένους σε περισσότερα από 500 ουσιαστικά από το χρήστη FocalPoint μετά από τη δημοσίευση αντίστοιχης λίστας.

Κώδικας του έργου

Ο κώδικας του έργου μπορεί να βρεθεί εδώ και διατίθεται υπό την άδεια GPLv3.

Το λεξικό διατίθεται υπό την Άδεια Creative Commons Αναφορά Δημιουργού-Παρόμοια Διανομή 3.0

Στιγμιότυπο από το μορφολογικό λεξικό της βάσης δεδομένων
Πίνακας μεταφράσεων
Συνώνυμα

Leave a Comment