Στον πυρήνα των πιο σύγχρονων τεχνολογικών εξελίξεων σήμερα βρίσκεται η τεχνητή νοημοσύνη (AI), και ειδικότερα τα μεγάλα γλωσσικά μοντέλα (LLMs), τα οποία έχουν τη δυνατότητα να κατανοούν, να επεξεργάζονται και να παράγουν ανθρώπινη γλώσσα με απίστευτη ακρίβεια και φυσικότητα. Ωστόσο, η συντριπτική πλειοψηφία αυτών των συστημάτων αναπτύσσεται σε ιδιωτικά πλαίσια, πίσω από κλειστές πόρτες, από εταιρείες όπως η OpenAI, η Google και η Meta. Αυτό δημιουργεί σημαντικά ζητήματα σχετικά με τη διαφάνεια, την προσβασιμότητα και την κοινωνική λογοδοσία.
Σε αυτό το πλαίσιο, η πρωτοβουλία που αναλαμβάνουν το ETH Zurich και το EPFL —σε συνεργασία με το Ελβετικό Εθνικό Κέντρο Υπερυπολογιστών (CSCS)— για την ανάπτυξη ενός πλήρως ανοικτού γλωσσικού μοντέλου, αποτελεί σημείο-σταθμό για την τεχνολογική εξέλιξη με επίκεντρο το δημόσιο συμφέρον.
Μια Ανοικτή Προσέγγιση στην Τεχνητή Νοημοσύνη
Το νέο μεγάλο γλωσσικό μοντέλο (LLM), που αναμένεται να κυκλοφορήσει στα τέλη του καλοκαιριού 2025, σχεδιάστηκε εξαρχής για να είναι πλήρως ανοικτό. Αυτό σημαίνει ότι ο πηγαίος κώδικας, τα βάρη του μοντέλου και το εκπαιδευτικό σύνολο δεδομένων θα είναι διαθέσιμα στο κοινό, υπό ανοικτή άδεια χρήσης (Apache 2.0).
Η απόφαση αυτή υποστηρίζει έναν διπλό στόχο: από τη μία πλευρά ενισχύει τη διαφάνεια και την εμπιστοσύνη, από την άλλη επιτρέπει την καινοτομία σε πολλαπλά επίπεδα — επιστημονικό, εκπαιδευτικό, κοινωνικό και επιχειρηματικό.
«Τα πλήρως ανοικτά μοντέλα είναι απαραίτητα για την ανάπτυξη υψηλής εμπιστοσύνης εφαρμογών και για την πρόοδο της έρευνας σχετικά με τις δυνατότητες και τους κινδύνους της AI», δηλώνει ο Imanol Schlag από το ETH AI Center.
Ένα από τα πιο εντυπωσιακά χαρακτηριστικά του μοντέλου είναι η εκτενής του γλωσσική κάλυψη: εκπαιδεύτηκε σε πάνω από 1500 γλώσσες, καθιστώντας το από τα πιο πολύγλωσσα μοντέλα που έχουν υπάρξει ποτέ. Περίπου το 60% των δεδομένων ήταν στα αγγλικά, ενώ το υπόλοιπο 40% αφορούσε σε μη-αγγλικές γλώσσες, γεγονός που προάγει την πολιτισμική ισοτιμία και τη διεθνή χρηστικότητα.
Ο καθηγητής Antoine Bosselut του EPFL υπογραμμίζει:
«Δώσαμε προτεραιότητα στην πολυγλωσσία από την αρχή, ώστε το μοντέλο να εξυπηρετεί χρήστες από όλο τον κόσμο, ανεξαρτήτως μητρικής γλώσσας».
Η εκπαίδευση του μοντέλου πραγματοποιήθηκε στον υπερυπολογιστή “Alps” του CSCS, στην πόλη Λουγκάνο — έναν από τους πιο σύγχρονους AI-υπερυπολογιστές στον κόσμο, εξοπλισμένο με πάνω από 10.000 NVIDIA Grace Hopper Superchips.
Η επεξεργαστική ισχύς της πλατφόρμας αυτής επέτρεψε την αποδοτική εκπαίδευση του μοντέλου χρησιμοποιώντας αποκλειστικά ενέργεια από ανανεώσιμες πηγές — καθιστώντας την πρωτοβουλία τόσο τεχνολογικά προηγμένη όσο και φιλική προς το περιβάλλον.
Το μοντέλο θα διατεθεί σε δύο εκδόσεις — με 8 δισεκατομμύρια και 70 δισεκατομμύρια παραμέτρους αντίστοιχα. Η μεγαλύτερη έκδοση θα καταταγεί ανάμεσα στα πιο ισχυρά ανοικτά μοντέλα παγκοσμίως. Ο αριθμός παραμέτρων υποδηλώνει την ικανότητα του μοντέλου να κατανοεί και να παράγει σύνθετες απαντήσεις με ακρίβεια.
Για την εκπαίδευσή του χρησιμοποιήθηκαν πάνω από 15 τρισεκατομμύρια “tokens” (μονάδες που αντιστοιχούν σε λέξεις ή μέρη λέξεων), εξασφαλίζοντας υψηλή αξιοπιστία και ευελιξία στις χρήσεις του μοντέλου.
Το έργο αναπτύχθηκε με σεβασμό στο ελβετικό δίκαιο περί προστασίας προσωπικών δεδομένων και πνευματικής ιδιοκτησίας, ενώ πληροί και τις απαιτήσεις διαφάνειας του Ευρωπαϊκού Κανονισμού για την Τεχνητή Νοημοσύνη (EU AI Act).
Σε μελέτη που διεξήγαγαν οι ερευνητές, αποδείχθηκε ότι η μη χρήση περιεχομένου από ιστότοπους που είχαν εξαιρεθεί από διαδικασίες αυτόματης εξόρυξης δεδομένων (web crawling opt-outs), δεν επηρεάζει ουσιαστικά την απόδοση του μοντέλου στις καθημερινές χρήσεις.
Η ανάπτυξη του μοντέλου παρουσιάστηκε στη Διεθνή Διάσκεψη για την Ανάπτυξη Ανοικτών LLMs, που διοργανώθηκε στη Γενεύη από τα κέντρα AI του EPFL και του ETH Zurich. Συμμετείχαν περισσότερες από 50 διεθνείς πρωτοβουλίες, οι οποίες υπογράμμισαν την ανάγκη για ένα ανοιχτό, συνεργατικό και διαφανές οικοσύστημα.
Η πρωτοβουλία αυτή εντάσσεται στη Swiss AI Initiative, η οποία ξεκίνησε το 2023 και στηρίζεται από περισσότερους από 800 ερευνητές και πάνω από 20 εκατομμύρια ετήσιες ώρες GPU στον “Alps”. Πρόκειται για τη μεγαλύτερη παγκόσμια προσπάθεια στον τομέα της ανοικτής επιστήμης για foundation models.
Η κυκλοφορία του μοντέλου θα συνοδεύεται από πλήρη τεκμηρίωση: περιγραφή αρχιτεκτονικής, μεθοδολογία εκπαίδευσης και οδηγίες χρήσης. Αυτό επιτρέπει σε φορείς από το δημόσιο και ιδιωτικό τομέα, σε ερευνητικά κέντρα, startup και κυβερνήσεις να προσαρμόσουν το μοντέλο στις δικές τους ανάγκες.
«Στόχος μας είναι η επιστήμη να παραμείνει ανοικτή και χρήσιμη για όλους, και να μην περιορίζεται από εμπορικά εμπόδια», τονίζει ο καθηγητής Martin Jaggi του EPFL.
Συμπεράσματα
Η κυκλοφορία του νέου μεγάλου γλωσσικού μοντέλου από δημόσιους ελβετικούς φορείς είναι ένα ισχυρό μήνυμα: η τεχνητή νοημοσύνη δεν χρειάζεται να είναι προϊόν μόνο του ιδιωτικού τομέα. Μπορεί και πρέπει να αναπτυχθεί με γνώμονα το κοινό καλό, τη διαφάνεια και τη συμπερίληψη.
Αυτή η προσέγγιση καθιστά την τεχνολογία περισσότερο προσβάσιμη, δημοκρατική και προσανατολισμένη προς το κοινωνικό όφελος, επιτρέποντας στους πολίτες, τους ερευνητές και τις μικρές επιχειρήσεις να συν-δημιουργήσουν το μέλλον της τεχνητής νοημοσύνης.
Πηγή άρθρου: https://ethz.ch/