ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Bloom: Ένα ανοιχτού κώδικα γλωσσικό μοντέλο τεχνητής νοημοσύνης

Μετά από περισσότερο από ένα χρόνο προγραμματισμού και εκπαίδευσης, ένα έργο με πρωτοβουλία εθελοντών δημιούργησε ένα μοντέλο γλώσσας ανοιχτού κώδικα που ισχυρίζεται ότι είναι τόσο ισχυρό όσο το GPT-3 του OpenAI , αλλά δωρεάν και ανοιχτό για χρήση από οποιονδήποτε (αν έχει την υπολογιστική ισχύ) .

Με το όνομα Bloom, το μοντέλο είναι διαθέσιμο σε ανοιχτό κώδικα μαζί με τον κώδικα και τα σύνολα δεδομένων που χρησιμοποιούνται για τη δημιουργία του. Η startup τεχνητής νοημοσύνης Hugging Face με έδρα το Μπρούκλιν κυκλοφόρησε μια δωρεάν εφαρμογή Ιστού που επιτρέπει σε οποιονδήποτε να δοκιμάσει το Bloom χωρίς να χρειάζεται να το κατεβάσει.

Το Bloom είναι το πνευματικό τέκνο του BigScience, ενός διεθνούς έργου που υποστηρίζεται από την κοινότητα με στόχο να κάνει μεγάλα μοντέλα φυσικής γλώσσας ευρέως διαθέσιμα για έρευνα. Τα μεγάλα γλωσσικά μοντέλα , ή “LLMs” για συντομία, μπορούν να μεταφράσουν, να συνοψίσουν και να γράψουν κείμενο με ανθρώπινη απόχρωση — περισσότερο ή λιγότερο . (Βλ. GPT-3.) Αλλά η δημιουργία τους ήταν ιστορικά δαπανηρή, κρατώντας τα μακριά από ερευνητές και σταθερά στα χέρια εταιρειών μεγάλης τεχνολογίας όπως η Meta, η Google και η Microsoft.

Αυτό τελικά αλλάζει, εν μέρει χάρη στις προσπάθειες της BigScience. Οι περισσότεροι από 1.000 εθελοντές ερευνητές της ομάδας – υποστηριζόμενοι από ηθικολόγους, φιλοσόφους, νομικούς μελετητές και μηχανικούς από νεοφυείς επιχειρήσεις και μεγάλες εταιρείες τεχνολογίας – πέρασαν μήνες εργαζόμενοι για το Bloom, το οποίο ανταγωνίζεται σε κλίμακα LLM που κατασκευάζονται από εταιρείες όπως η OpenAI και η DeepMind της Alphabet. Ένα από τα μεγαλύτερα μοντέλα ανοιχτού κώδικα που λειτουργεί σε πολλές γλώσσες, το Bloom έχει σχεδιαστεί για να εφαρμόζεται σε μια σειρά ερευνητικών εφαρμογών, όπως η εξαγωγή πληροφοριών από ιστορικά κείμενα.

«Το Bloom μπορεί να δημιουργήσει κείμενο σε 46 φυσικές γλώσσες και διαλέκτους και 13 γλώσσες προγραμματισμού», αναφέρεται σε μια ανάρτηση ιστολογίου που κοινοποιήθηκε στο TechCrunch πριν από την κυκλοφορία. Αν και δεν εκπαιδεύτηκε ποτέ σε καμία από αυτές τις συγκεκριμένες εργασίες, μπορεί να ζητηθεί από το Bloom να παράγει περιλήψεις ή μεταφράσεις κειμένου, να εξάγει κώδικα από οδηγίες και να ακολουθεί τις οδηγίες για να εκτελέσει πρωτότυπες εργασίες, όπως η σύνταξη συνταγών, η εξαγωγή πληροφοριών από ένα άρθρο ειδήσεων ή συνθέτοντας προτάσεις χρησιμοποιώντας μια λέξη που επινοήθηκε πρόσφατα… Η απόδοση του Bloom θα συνεχίσει να βελτιώνεται καθώς το εργαστήριο συνεχίζει να πειραματίζεται και να προχωρά πάνω από το Bloom.”

Οι υποστηρικτές του BigScience ελπίζουν επίσης ότι ο Bloom θα δώσει ώθηση σε νέες έρευνες για τρόπους καταπολέμησης των προβλημάτων που μαστίζουν όλα τα LLM, συμπεριλαμβανομένης της μεροληψίας και της τοξικότητας. Τα LLMs έχουν την τάση να εκπέμπουν ψέματα και να επιδεικνύουν προκαταλήψεις έναντι των θρησκειών, των φύλων, των φυλών και των ατόμων με αναπηρίες . Επίσης, παλεύουν με τις βασικές αρχές της γραφής, αλλάζοντας συχνά το θέμα μιας συζήτησης και επαναλαμβάνονται ασταμάτητα —ή και αντιφάσκουν— με τον εαυτό τους. «To Bloom δείχνει τη συνεχιζόμενη δύναμη του ανοιχτού κώδικα και της ανοιχτής επιστήμης ακόμη και για ακριβά, μεγάλα βασικά μοντέλα», δήλωσε στο TechCrunch μέσω email ο Richard Socher, Διευθύνων Σύμβουλος του You.com και πρώην επικεφαλής επιστήμονας στο Salesforce. Ο Socher δεν ασχολείται με το BigScience. «Δείχνει επίσης ότι στην τεχνητή νοημοσύνη, κανένας οργανισμός δεν έχει σημαντικό πλεονέκτημα για πολύ καιρό. Μόλις ένας οργανισμός δείξει ότι κάτι είναι εφικτό, οι ίδιες δυνατότητες θα εμφανιστούν έξι έως 12 μήνες μετά σε άλλα μέρη».

Το ξεκίνημα

Η προέλευση του BigScience βρίσκεται σε συζητήσεις πριν από χρόνια μεταξύ του επικεφαλής επιστημονικού διευθυντή του Hugging Face, Thomas Wolf, του Stéphane Requena  της GENCI και του Pierre-François Lavallée του IDRIS. Οι ιδρυτές οραματίστηκαν τη δημιουργία λογισμικού, συνόλων δεδομένων, LLM και εργαλείων για να εξερευνήσουν τον κοινωνικό αντίκτυπο της τεχνητής νοημοσύνης, η οποία μόλις τα τελευταία χρόνια έχει λάβει αυξημένη προσοχή από την ερευνητική κοινότητα.

Σύντομα, σχηματίστηκαν διευθύνουσες επιτροπές για να δώσουν στα μέλη του BigScience – που προέρχονταν από περισσότερες από 60 χώρες και 250 ιδρύματα – επιστημονικές και γενικές συμβουλές, να σχεδιάσουν συνεργατικές εργασίες και να οργανώσουν εργαστήρια, hackathons και δημόσιες εκδηλώσεις. Διαφορετικές ομάδες εργασίας επιφορτίστηκαν με την αντιμετώπιση προκλήσεων όπως η διακυβέρνηση δεδομένων, η απόδειξη θεωρημάτων στα μαθηματικά και οι αρχειακές στρατηγικές, καθώς και η προστασία της ιδιωτικής ζωής και η ενημερωμένη συγκατάθεση και άλλα νομικά ζητήματα.

Το Bloom είναι το άθροισμα της δουλειάς τους. Εκπαιδεύτηκε χρησιμοποιώντας δημόσιο υπολογιστικό χρόνο (μέσω επιχορηγήσεων) αξίας 7 εκατομμυρίων δολαρίων στον υπερυπολογιστή Jean Zay που βρίσκεται κοντά στο Παρίσι, Γαλλία, ο οποίος κατατάσσεται μεταξύ των πιο ισχυρών μηχανών στον κόσμο.

Μια έντονη συζήτηση βρίσκεται σε εξέλιξη στους ακαδημαϊκούς κύκλους σχετικά με το αποτύπωμα του άνθρακα της εκπαίδευσης στην τεχνητή νοημοσύνη. Τα κέντρα δεδομένων δεν είναι ιδιαίτερα φιλικά προς το περιβάλλον. Αλλά το BigScience λέει ότι ο Jean Zay, χάρη στο μοναδικό σύστημα ψύξης και την πυρηνική πηγή ενέργειας του, κατάφερε να εκπαιδεύσει τον Bloom με αποτύπωμα άνθρακα που ισοδυναμεί με μια πτήση από το Παρίσι στη Νέα Υόρκη.

Όπως όλα τα γλωσσικά μοντέλα, το Bloom είναι ουσιαστικά ένα στατιστικό εργαλείο για την πρόβλεψη λέξεων. Τροφοδοτώντας έναν τεράστιο αριθμό παραδειγμάτων από ένα σύνολο δεδομένων εκπαίδευσης 1,6 terabyte, ο Bloom έμαθε πόσο πιθανό είναι να προκύψουν λέξεις με βάση μοτίβα, συμπεριλαμβανομένου του σημασιολογικού πλαισίου του περιβάλλοντος κειμένου. Για παράδειγμα, λαμβάνοντας ένα τυπικό μήνυμα ηλεκτρονικού ταχυδρομείου που τελειώνει στο απόσπασμα “Looking Forward…”, ο Bloom μπορεί να το συμπληρώσει με “… … to hearing back.””.

Ένας στόχος των ομάδων εργασίας BigScience ήταν να συλλέξουν δεδομένα που ήταν επαρκώς αντιπροσωπευτικά για την εκπαίδευση του Bloom. Λόγω συστημικών προκαταλήψεων στις δημόσιες πηγές δεδομένων, τα μη Αγγλικά LLM παραδοσιακά δεν είχαν την ίδια απόδοση με τα αντίστοιχά τους στην αγγλική γλώσσα. Με βάση βιβλία, ακαδημαϊκές εκδόσεις, μεταγραφές ραδιοφώνου, podcast και ιστότοπους, το σύνολο δεδομένων 341 δισεκατομμυρίων λέξεων που χρησιμοποιείται για την εκπαίδευση του Bloom στοχεύει στην κωδικοποίηση διαφορετικών πολιτισμικών πλαισίων σε διάφορες γλώσσες, συμπεριλαμβανομένων των Σουαχίλι, Καταλανικών, Μπενγκάλι και Βιετναμέζικων.

Οι ομάδες BigScience επέλεξαν με το χέρι σχεδόν τα δύο τρίτα του συνόλου δεδομένων από 500 πηγές, ζητώντας προτάσεις από κοινοτικές ομάδες, συμπεριλαμβανομένης της αφρικανικής κοινότητας επεξεργασίας φυσικής γλώσσας Masakhane, LatinX in AI και Machine Learning Tokyo. Διέγραψαν για λόγους απορρήτου και φιλτραρίστηκαν για ποιότητα, για παράδειγμα προσπαθώντας να μειώσουν την υπερεκπροσώπηση πορνογραφικών τοποθεσιών, που τείνουν να περιέχουν σεξιστικούς συσχετισμούς.

Το Bloom δεν είναι εντελώς απαλλαγμένο από προκαταλήψεις — κανένα LLM δεν είναι. Αλλά η ελπίδα είναι ότι με τη διατήρηση της διαφάνειας γύρω από τα δεδομένα εκπαίδευσης, θα είναι ευκολότερο για τους ερευνητές να φτάσουν στη ρίζα των προβλέψεων και της λήψης αποφάσεων του Bloom.

Μεγάλο σε μέγεθος

Με 176 δισεκατομμύρια παραμέτρους, το Bloom έχει περίπου το μέγεθος του GPT-3. Οι παράμετροι στη μηχανική μάθηση είναι τα μέρη του LLM που μαθαίνονται από δεδομένα εκπαίδευσης και τείνουν να συσχετίζονται με την αποτελεσματικότητα του μοντέλου σε μια εργασία όπως η δημιουργία κειμένου.

Γενικά, τα μοντέλα υψηλότερων παραμέτρων απαιτούν περισσότερη υπολογιστική ισχύ για να εκπαιδευτούν. Μια μελέτη του 2020   από το  AI21 Labs όρισε τις δαπάνες για την ανάπτυξη ενός μοντέλου δημιουργίας κειμένου με μόνο 1,5 δισεκατομμύρια παραμέτρους σε έως και 1,6 εκατομμύρια δολάρια. Το Bloom εκπαιδεύτηκε σε 384 GPU Nvidia A100 για τρεις μήνες. Αυτό το γεγονός έχει καταστήσει δύσκολο για την κοινότητα να χρησιμοποιήσει μεγάλα, υπερσύγχρονα μοντέλα γλώσσας όπως το Megatron-Turing Natural Language Generation (MT-NLG) της Microsoft και της Nvidia, το οποίο έχει 530 δισεκατομμύρια παραμέτρους.

Το BigScience ισχυρίζεται ότι οι ερευνητές θα έχουν τη δυνατότητα να χρησιμοποιούν το Bloom για λιγότερο από 40 $ την ώρα σε έναν πάροχο cloud. Ωστόσο, προσπαθώντας να αφαιρέσει ακόμη και αυτό το εμπόδιο πρόσβασης, ο οργανισμός σχεδιάζει να κυκλοφορήσει μικρότερες, λιγότερο εντατικές εκδόσεις του Bloom και αναπτύσσει ένα κατανεμημένο σύστημα που θα επιτρέπει στα εργαστήρια να μοιράζονται το μοντέλο στους διακομιστές τους. Ένα API είναι επίσης στα σκαριά.

Το Bloom εντάσσεται σε ένα αναπτυσσόμενο οικοσύστημα ανοιχτού κώδικα, εξαιρετικά ικανών LLM με ευρείες εμπορικές και ερευνητικές χρήσεις. Τον Φεβρουάριο, η ανοιχτή ερευνητική ομάδα τεχνητής νοημοσύνης EleutherAI κυκλοφόρησε το GPT-NeoX-20B, το οποίο εκείνη την εποχή ξεπέρασε τα άλλα μοντέλα δημόσιας γλώσσας σε πολλά σημεία αναφοράς. Μήνες αργότερα, ήρθε και το OPT-175B ανοιχτού κώδικα του Meta, το οποίο η εταιρεία ισχυρίστηκε ότι ήταν το πρώτο γλωσσικό μοντέλο 175 δισεκατομμυρίων παραμέτρων που διατέθηκε στην κοινότητα AI.

Ήδη αρκετές επιχειρήσεις έχουν ήδη αναδυθεί γύρω από τα μοντέλα της EleutherAI. Αλλά ορισμένοι ερευνητές φοβούνται την κατάχρηση. Στο Πανεπιστήμιο του Μέριλαντ, ερευνητές ανακάλυψαν ότι είναι δυνατό για τα LLM να δημιουργούν ψευδείς ειδήσεις και αναφορές για την ασφάλεια στον κυβερνοχώρο που είναι αρκετά πειστικές για να ξεγελάσουν τους ειδικούς. Μια άλλη εργασία που συντάχθηκε από ερευνητές στο Meta διερευνά την πιθανή βλάβη που μπορεί να προκύψει από τα LLM που παρέχουν κακές συμβουλές, ιδιαίτερα ιατρικές ή ψυχολογικές προγνώσεις.

Πολλές εταιρείες που προσφέρουν πρόσβαση σε LLM μέσω ενός API, όπως το OpenAI, εφαρμόζουν φίλτρα για να εξαλείψουν το προβληματικό κείμενο. Αλλά τα μοντέλα ανοιχτού κώδικα προφανώς δεν έχουν τέτοιες προστασίες.

Αναγνωρίζοντας την πιθανότητα κακής χρήσης, το Bloom συνοδεύεται από τεκμηρίωση που περιγράφει τις δυνατότητες και τους περιορισμούς του. Η χρήση του απαιτεί τη συμφωνία για μια νόμιμη άδεια που δεσμεύει τους ερευνητές να μην χρησιμοποιούν το μοντέλο για κακόβουλους σκοπούς. Το BigScience σχεδιάζει να παρακολουθήσει τον τρόπο εφαρμογής του μοντέλου και να προσαρμόσει την άδεια και την τεκμηρίωση όπως απαιτείται.

«Προγραμματίζουμε να προσθέσουμε περισσότερες γλώσσες, να κάνουμε το μοντέλο μικρότερο, ώστε να είναι πιο εύκολο στη χρήση στο ίδιο επίπεδο απόδοσης και θα υποστηρίξουμε τις προσπάθειες της κοινότητας να το επεκτείνουμε», συνεχίζει η ανάρτηση ιστολογίου. «To Bloom είναι μια ζωντανή οικογένεια μοντέλων που θα μεγαλώσει, όχι ένα μοντέλο που θα γίνει ένα και μόνο».

Πηγή άρθρου: https://techcrunch.com/

Leave a Comment

Social Media Auto Publish Powered By : XYZScripts.com