Περιγραφή
Ένα μορφολογικό λεξικό είναι ένας πολύ σημαντικός γλωσσικός πόρος για την επεξεργασία φυσικής γλώσσας (NLP). Επιτρέπει για παράδειγμα τη δημιουργία υπολογιστικών λεξικών για την εύρεση του λήμματος και του μέρους του λόγου μίας λέξης.
Περιγραφή του λεξικού
Το λεξικό δημιουργήθηκε μετά από αυτόματη ανάλυση των άρθρων στο ελληνικό Βικιλεξικό. Για κάθε λεκτικό τύπο (word form) υπάρχει πληροφορία για το λήμμα, το μέρος του λόγου, το γένος , τον αριθμό κτλ. Το λεξικό βρίσκεται σε μία βάση δεδομένων SQL και μπορεί να βρεθεί εδώ. Πέρα από τη μορφολογική ανάλυση της κάθε λέξης περιλαμβάνει συνώνυμα, αντώνυμα, ορισμούς, ετυμολογίες, μεταφράσεις και έναν πίνακα για κανονικοποίηση των λέξεων (π.χ. εφτά – επτά).
Πιο συγκεκριμένα περιλαμβάνει:
- Ένα μορφολογικό λεξικό με 900.000εγγραφές που περιλαμβάνουν518.000διακριτούς λεκτικούς τύπους με τις μορφολογικές πληροφορίες εκφρασμένες σύμφωνα με το Universal Dependencies.
- Ορισμοί και ετυμολογίες για τα περισσότερα λήμματα
- 18500Συνώνυμα για διάφορες γλώσσες,- 12500από τα οποία είναι στα ελληνικά
- 5500Αντώνυμα για διάφορες γλώσσες,- 4300από τα οποία είναι στα ελληνικά
- 3310Κανονικοποιήσεις λέξεων
- Σχεδόν 150.000μεταφράσεις
Περισσότερες μεταφράσεις μπορούν να βρεθούν στο έργο DBnary που εκτός από μεταφράσεις από το ελληνικό Βικιλεξικό, περιλαμβάνει και μεταφράσεις από βικιλεξικά γραμμένα σε διαφορετικές γλώσσες.
Ορθογραφικό λεξικό
Μία επιπλέον άμεση εφαρμογή του λεξικού είναι η βελτίωση των υπάρχοντων λεξικών για ορθογραφικό έλεγχο. Έτσι δημιουργήθηκε ένα νέο ως επέκταση των υπάρχοντων ελληνικών που περιλαμβάνει 1.047.200 λέξεις έναντι 828.807 του προηγούμενου που χρησιμοποιείται στο LibreOffice.
Περιθώρια βελτίωσης
Η δημιουργία του λεξικού έγινε με βάση τη δουλειά που γίνεται στο ελληνικό Βικιλεξικό. Συνεπώς ο καλύτερος τρόπος για να βοηθήσει κάποιος είναι να συνεισφέρει στο Βικιλεξικό. Η δομή των άρθρων περιγράφεται εδώ ενώ ένας κατάλογος με τα πρότυπα κλίσεων βρίσκεται εδώ
Κατά τη διάρκεια του έργου έγιναν βελτιώσεις και πίσω στο Βικιλεξικό με λίστες από λήμματα που είχαν σφάλματα ή ελλείψεις. Για παράδειγμα έγινε προσθήκη του γένους σε περισσότερα από 500 ουσιαστικά από το χρήστη FocalPoint μετά από τη δημοσίευση αντίστοιχης λίστας.
Κώδικας του έργου
Ο κώδικας του έργου μπορεί να βρεθεί εδώ και διατίθεται υπό την άδεια GPLv3.
Το λεξικό διατίθεται υπό την Άδεια Creative Commons Αναφορά Δημιουργού-Παρόμοια Διανομή 3.0




 
                