'Νοηματικές γλώσσες' και Μεγάλα Γλωσσικά Μοντέλα
Αρχές της δεκαετίας του 2000 στο σχετικά πρώιμο ελληνικό διαδίκτυο είχα διαβάσει ένα άρθρο για το πρόγραμμα “Hellenic Quest” το οποίο υποτίθεται είχε δημιουργήσει η Apple για την εκμάθηση της ελληνικής γλώσσας. Το κίνητρο της εταιρίας σύμφωνα με το άρθρο ήταν βασισμένο στο γεγονός ότι η ελληνική γλώσσα είναι εξόχως νοηματική(sic) και “οι Η/Υ θεωρούν την Ελληνική ως μη οριακή γλώσσα αναγκαία στις νέες επιστήμες όπως η πληροφορική, η ηλεκτρονική και η κυβερνητική,”1. Το κείμενο μου είχε φανεί ως μια απλή ελληνοκεντρική ονείρωξη και δεν ασχολήθηκα να το επαληθεύσω. Αρκετά αργότερα διαβάζοντας ένα άρθρο του Πάσχου Μανδραβέλη στην “Καθημερινή” 2 διαπίστωσα με έκπληξη ότι είχε αναπαραχθεί από εφημερίδες μεγάλης κυκλοφορίας, το διπλωματικό σώμα, ακόμα και από τον τότε υπουργό Παιδείας! Διαβάζοντας στο άρθρο πως ο Νίκος Σαραντάκος είχε ασχοληθεί με την αποκάλυψη των πηγών αυτού του αστικού μύθου, ανέτρεξα στα κείμενα του ιστολογίου του και διαπίστωσα ότι όλα μάλλον ξεκίνησαν από ένα άρθρο στην εφημερίδα “Τα Νέα” το 19943.
Γιατί τα θυμήθηκα όλα αυτά; Πρόσφατα ασχολήθηκα ερασιτεχνικά με την εκπαίδευση ενός μικρού γλωσσικού μοντέλου αποκλειστικά με σώμα κειμένων (corpus) στην ελληνική γλώσσα4. Το πρώτο βήμα για την εκπαίδευση μοντέλων όπως το GPT αφορά τη διακριτοποίηση (tokenization), δηλαδή την κατάτμηση των λέξεων σε μικρότερες αλληλουχίες χαρακτήρων (tokens) και η αντιστοίχηση τους με έναν ακέραιο αριθμό, οδηγώντας στη δημιουργία ενός λεξιλογίου το οποίο μπορεί να χειριστεί το γλωσσικό μοντέλο. Ο αλγόριθμος που κατά κόρον χρησιμοποιείται για την διαδικασία αυτή από σχεδόν όλα τα σύγχρονα γλωσσικά μοντέλα είναι ο BPE (Byte-Pair-Encoding) ο οποίος αρχικά είχε εισαχθεί ως μέθοδος για την συμπίεση δεδομένων κειμένου. Ο αλγόριθμος αρχικά αντιμετωπίζει το σύνολο των μοναδικών χαρακτήρων ως n-γράμματα μήκους ενός χαρακτήρα (n=1, τα αρχικά token). Στη συνέχεια, διαδοχικά, το πιο συχνό ζεύγος γειτονικών token συγχωνεύεται σε ένα νέο, μεγαλύτερο σε μήκος n-γράμμα και όλες οι εμφανίσεις του ζεύγους αντικαθίστανται από αυτό το νέο token. Αυτό επαναλαμβάνεται μέχρι να ληφθεί ένα λεξιλόγιο προκαθορισμένου μεγέθους.
Ένα κρίσιμο ερώτημα που προκύπτει είναι αν κάνοντας χρήση αυτού του αλγορίθμου, όλες οι γλώσσες είναι ισοδύναμες στη μεταφορά πληροφορίας με τον ίδιο αριθμό tokens. Ένα πολύ ενδιαφέρον (αν και λίγο τεχνικό) άρθρο του 2023 5 υποστηρίζει πως λόγω μορφολογικών ιδιατεροτήτων υφίσταται μεγάλη διαφοροποίηση ανάμεσα σε οικογένειες γλωσσών. με τα Αγγλικά να παρουσιάζονται πολύ πιο “οικονομικά” στην πυκνότητα πληροφορίας ανά token. Παράλληλα τα Ελληνικά φαίνονται να υστερούν.
Για να επαληθεύσω αυτή την παρατήρηση αποφάσισα να κάνω μια σχετικά απλή δοκιμή. Χρησιμοποίησα ως κείμενο αναφοράς την ιδρυτική διακύρηξη της Ευρωπαικής Ένωσης η οποία είναι διαθέσιμη σε όλες τις γλώσσες των κρατών μελών6. Κατόπιν χρησιμοποιώντας τον αλγόριθμο BPE παράγω με βάση το κείμενο στα Αγγλικά, Γαλλικά, Γερμανικά και Ελληνικά το βέλτιστο λεξιλόγιο χιλίων (1000) token. Ακολούθως με τα λεξιλόγια που έχουν παραχθεί για κάθε γλώσσα, βρίσκω το συνολικό αριθμό token που απαιτούνται για την πλήρη αναπαράσταση των κειμένων. Τα Αγγλικά αποτελούν τη βέλτιστη γλώσσα. Ακολουθούν τα Γερμανικά (6% περισσότερα token), τα Γαλλικά (12% περισσότερα token) και τέλος τα Ελληνικά (20% περισσότερα token).
Τι πρακτική σημασία έχουν όλα αυτά; Λαμβάνοντας υπόψη ότι η εκπαίδευση και ο συμπερασμός (inference) των γλωσσικών μοντέλων κλιμακώνεται περίπου γραμμικά με των αριθμό των token, καταλαβαίνουμε ότι η εκπαίδευση και η χρήση τους έχει μεγαλύτερο κόστος σε χρόνο και ενέργεια στα Ελληνικά. Ίσως στο σήμερα αυτό δεν φαίνεται ως ιδιαίτερα προβληματικό, αλλά στο κοντινό μέλλον αν σειρά οικονομικών δραστηριοτήτων (ειδικά στον τομέα των υπηρεσιών) βασίζονται σε τέτοια μοντέλα, αυτό θα αποτελεί ένα συγκριτικό μειονέκτημα της χώρας. Μάλιστα η κατάσταση επιβαρύνεται περαιτέρω στην περίπτωση χρήσης πολύγλωσσων μοντέλων όπου η Ελληνική γλώσσα υποεκπροσωπείται και στο λεξιλόγιο των token αλλά και στο corpus της εκπαίδευσης5, οδηγώντας σε αρκετά μεγαλύτερο κόστος χρήσης των LLM API. Παρεπιπτόντως το πόρισμα 7 της Συμβουλευτικής Επιτροπής Τεχνητής Νοημοσύνης (TN) υπό τον Πρωθυπουργό κάνει μόνο μια πολύ μικρή αναφορά για το δεύτερο πρόβλημα, δηλαδή αυτό της σχετικής απουσίας ελληνικών κειμένων από τα corpus εκπαίδευσης των μεγάλων μοντέλων.
Συμπερασματικά, οι πρώιμες alt-right φαντασιώσεις περί ανωτερότητας της Ελληνικής στην ψηφιακή εποχή δεν επιβεβαιώνονται από την ως τώρα ανάπτυξη των μεγάλων γλωσσικών μοντέλων. Παράλληλα το πρόβλημα που έχουμε μπροστά μας ίσως είναι πολύ πιο σύνθετο από τη χρήση των Greeklish τη δεκαετία του 90.
-
https://web.archive.org/web/20090530170412/http://www.greekembassy.org/Embassy/files/hellenic_quest04-12-20030.pdf ↩
-
https://www.kathimerini.gr/opinion/708159/to-ethnikistiko-skonaki-toy-ypoyrgoy-paideias/ ↩
-
https://sarantakos.wordpress.com/2024/10/21/hellenicquest/ ↩
-
https://alexandros-koutsioumpas.github.io/jekyll/update/2025/03/01/kkOracle-2.html ↩
-
https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:12016M/TXT ↩
-
https://foresight.gov.gr/studies/sxedio-gia-ti-metavasi-tis-elladas-stin-epoxi-tis-texnitis-noimosynis/ ↩