Περιγραφή
Ένα μορφολογικό λεξικό είναι ένας πολύ σημαντικός γλωσσικός πόρος για την επεξεργασία φυσικής γλώσσας (NLP). Επιτρέπει για παράδειγμα τη δημιουργία υπολογιστικών λεξικών για την εύρεση του λήμματος και του μέρους του λόγου μίας λέξης.
Περιγραφή του λεξικού
Το λεξικό δημιουργήθηκε μετά από αυτόματη ανάλυση των άρθρων στο ελληνικό Βικιλεξικό. Για κάθε λεκτικό τύπο (word form) υπάρχει πληροφορία για το λήμμα, το μέρος του λόγου, το γένος , τον αριθμό κτλ. Το λεξικό βρίσκεται σε μία βάση δεδομένων SQL και μπορεί να βρεθεί εδώ. Πέρα από τη μορφολογική ανάλυση της κάθε λέξης περιλαμβάνει συνώνυμα, αντώνυμα, ορισμούς, ετυμολογίες, μεταφράσεις και έναν πίνακα για κανονικοποίηση των λέξεων (π.χ. εφτά – επτά).
Πιο συγκεκριμένα περιλαμβάνει:
- Ένα μορφολογικό λεξικό με
900.000
εγγραφές που περιλαμβάνουν518.000
διακριτούς λεκτικούς τύπους με τις μορφολογικές πληροφορίες εκφρασμένες σύμφωνα με το Universal Dependencies. - Ορισμοί και ετυμολογίες για τα περισσότερα λήμματα
18500
Συνώνυμα για διάφορες γλώσσες,12500
από τα οποία είναι στα ελληνικά5500
Αντώνυμα για διάφορες γλώσσες,4300
από τα οποία είναι στα ελληνικά3310
Κανονικοποιήσεις λέξεων- Σχεδόν
150.000
μεταφράσεις
Περισσότερες μεταφράσεις μπορούν να βρεθούν στο έργο DBnary που εκτός από μεταφράσεις από το ελληνικό Βικιλεξικό, περιλαμβάνει και μεταφράσεις από βικιλεξικά γραμμένα σε διαφορετικές γλώσσες.
Ορθογραφικό λεξικό
Μία επιπλέον άμεση εφαρμογή του λεξικού είναι η βελτίωση των υπάρχοντων λεξικών για ορθογραφικό έλεγχο. Έτσι δημιουργήθηκε ένα νέο ως επέκταση των υπάρχοντων ελληνικών που περιλαμβάνει 1.047.200
λέξεις έναντι 828.807
του προηγούμενου που χρησιμοποιείται στο LibreOffice.
Περιθώρια βελτίωσης
Η δημιουργία του λεξικού έγινε με βάση τη δουλειά που γίνεται στο ελληνικό Βικιλεξικό. Συνεπώς ο καλύτερος τρόπος για να βοηθήσει κάποιος είναι να συνεισφέρει στο Βικιλεξικό. Η δομή των άρθρων περιγράφεται εδώ ενώ ένας κατάλογος με τα πρότυπα κλίσεων βρίσκεται εδώ
Κατά τη διάρκεια του έργου έγιναν βελτιώσεις και πίσω στο Βικιλεξικό με λίστες από λήμματα που είχαν σφάλματα ή ελλείψεις. Για παράδειγμα έγινε προσθήκη του γένους σε περισσότερα από 500 ουσιαστικά από το χρήστη FocalPoint μετά από τη δημοσίευση αντίστοιχης λίστας.
Κώδικας του έργου
Ο κώδικας του έργου μπορεί να βρεθεί εδώ και διατίθεται υπό την άδεια GPLv3.
Το λεξικό διατίθεται υπό την Άδεια Creative Commons Αναφορά Δημιουργού-Παρόμοια Διανομή 3.0


