Προς ένα πλήρως ανοιχτό ελληνικό LLM: Η ανάγκη για ένα ενιαίο μοντέλο που καλύπτει τρεις χιλιετίες ελληνικής γλώσσας

Η παγκόσμια δυναμική που διαμορφώνεται γύρω από τα πλήρως ανοιχτά μεγάλα γλωσσικά μοντέλα δημιουργεί μια ιστορική ευκαιρία για την Ελλάδα. Τα τελευταία δύο χρόνια, η διεθνής επιστημονική κοινότητα απέδειξε ότι μπορούν να κατασκευαστούν κορυφαία LLMs με απόλυτη διαφάνεια, δημόσια διαθέσιμα βάρη(weights), ανοιχτά δεδομένα εκπαίδευσης και αναλυτική τεκμηρίωση. Το Apertus, το OLMo και το BLOOM αποτελούν εξαιρετικά παραδείγματα. Η Ελλάδα όμως έχει ένα μοναδικό πλεονέκτημα: μία από τις αρχαιότερες γλωσσικές παραδόσεις στον κόσμο, η οποία παραμένει ζωντανή και εξελισσόμενη. Μπροστά σε αυτή την πρόκληση, καθίσταται αναγκαία η δημιουργία ενός πλήρως ανοιχτού ελληνικού μοντέλου που να καλύπτει το ιστορικό και διαλεκτικό εύρος της γλώσσας από την αρχαϊκή περίοδο έως σήμερα.

Τα διεθνή ανοιχτά LLMs δείχνουν τον δρόμο

Το Apertus, που αναπτύχθηκε από ETH Zurich, EPFL και το ελβετικό κέντρο υπερυπολογιστών, αποτελεί χαρακτηριστικό παράδειγμα πλήρους ανοικτότητας. Με εκδόσεις 8B και 70B παραμέτρων, εκπαιδευμένο σε πάνω από 1000 γλώσσες και 15 τρισεκατομμύρια tokens, διαθέτει δημόσια τα weights, το training pipeline και τα datasets. Το OLMo, από το Allen Institute for AI, σχεδιάστηκε για πλήρη μεταφερσιμότητα, ανοιχτότητα και τεκμηριωμένη εκπαίδευση. Το BLOOM, αποτέλεσμα της πρωτοβουλίας BigScience, υπήρξε το πρώτο LLM που εκπαιδεύτηκε συλλογικά με πλήρη δημοσιοποίηση των δεδομένων και της διαδικασίας εκπαίδευσης.

Η Ελλάδα μπορεί να βασιστεί σε αυτές τις εμπειρίες ώστε να αναπτύξει ένα μοντέλο που να μην αποτελεί απλώς τεχνολογικό επίτευγμα, αλλά γλωσσικό και πολιτιστικό θεμέλιο.

Γιατί η Ελλάδα χρειάζεται ένα ελληνικό Apertus

Η ελληνική γλώσσα δεν είναι μία ενιαία μονάδα αλλά ένα συνεχές που εκτείνεται σε 3.000 χρόνια. Κανένα υπάρχον μοντέλο, ούτε καν τα πολυγλωσσικά LLMs, δεν καλύπτει ως σήμερα:

Αρχαία ελληνική
Ελληνιστική Κοινή
Μεσαιωνική ελληνική
Καθαρεύουσα
Νεοελληνική κοινή
Κυπριακή, ποντιακή και άλλες διαλέκτους
Ειδικά σώματα κειμένων: νομικά, εκκλησιαστικά, φιλοσοφικά, επιστημονικά, δημοσιογραφικά

Η δημιουργία ενός πλήρως ανοιχτού ελληνικού μοντέλου θα:

ενισχύσει την ψηφιακή κυριαρχία της χώρας
προωθήσει την ανοιχτή επιστήμη και την ακαδημαϊκή έρευνα
επιτρέψει ανάπτυξη εκπαιδευτικών και πολιτιστικών εφαρμογών υψηλής ποιότητας
στηρίξει τη δημόσια διοίκηση, την υγεία, την εκπαίδευση και τη δικαιοσύνη
δημιουργήσει νέο τεχνολογικό οικοσύστημα βασισμένο σε ανοιχτά δεδομένα και ανοιχτό λογισμικό

Το Glossapi ως καταλύτης

Κεντρικό ρόλο σε αυτό το όραμα διαδραματίζει το “Glossapi Open Infrastructure for Greek AI-Ready Data”. Η πρωτοβουλία αυτή παρέχει ένα πλήρως ανοιχτό, τεκμηριωμένο και επαναχρησιμοποιήσιμο σύνολο υποδομών για συλλογή, καθαρισμό, επισημείωση και διάθεση ελληνικών γλωσσικών δεδομένων.

Το έργο:

συγκεντρώνει δεδομένα από διαφορετικές περιόδους της ελληνικής γλώσσας
δημιουργεί ενιαία pipelines για μετατροπή, ομογενοποίηση και αδειοδότηση
προσφέρει ένα κοινό σημείο αναφοράς για ανάπτυξη ανοιχτών μοντέλων
διασφαλίζει συμβατότητα με ευρωπαϊκά πρότυπα και ανοιχτές άδειες

Χωρίς ανοιχτά, καλά τεκμηριωμένα και νομικά καθαρά δεδομένα, οποιαδήποτε προσπάθεια ανάπτυξης ελληνικού LLM θα παρέμενε αποσπασματική. Το Glossapi, επομένως, αποτελεί θεμέλιο υποδομής, ανάλογο με όσα στηρίζουν διεθνή μοντέλα όπως το Apertus.

Τεχνικές βέλτιστες πρακτικές για fine tuning και evaluation

Οι διεθνείς πρωτοβουλίες προσφέρουν πολύτιμες τεχνικές προδιαγραφές:

Fine tuning για Apertus

Πλήρες fine tuning ή LoRA, με learning rate περίπου 5e-5, batch 64–128 και AdEMA optimizer. Απαιτείται curated σετ δεδομένων instruction-following και προσοχή σε alignment.

Fine tuning για OLMo

Full fine tuning ή LoRA adapters με LR 5e-5 έως 1e-4 και batch size 32–64. Χρήση Dolma-based datasets και έλεγχος catastrophic forgetting.

Fine tuning για BLOOM

LR 3e-5 έως 1e-4, batch 64–128 και early stopping. Χρήση polyglot evaluation, bias assessment και παρακολούθηση token overflow.

Κοινές πρακτικές αξιολόγησης

MMLU, ARC, HellaSwag, safety tests, bias detection, domain-specific evaluations και validation splits.

Ένα ελληνικό LLM ως δημόσια υποδομή

Η Ελλάδα έχει την ευκαιρία να δημιουργήσει ένα πλήρως ανοιχτό μοντέλο που θα αποτελέσει δημόσιο ψηφιακό αγαθό και θα στηρίξει παραγωγή τεχνολογίας, έρευνα και καινοτομία. Με μια ενιαία στρατηγική που συνδυάζει το Glossapi, την ακαδημαϊκή κοινότητα και ένα οικοσύστημα ανοιχτού λογισμικού, η χώρα μπορεί να καθιερωθεί διεθνώς ως πρότυπο ανάπτυξης διαφανούς και επιστημονικά τεκμηριωμένης AI.

—