Βασίλης Κατσούρος

Γρίφοι και Τεχνητή Νοημοσύνη: Πώς Σκέφτονται τα Μεγάλα Γλωσσικά Μοντέλα;

Τα μεγάλα γλωσσικά μοντέλα, όπως το ChatGPT άλλα και τα ελληνικά Meltemi και KriKri, έχουν φέρει επανάσταση στον τρόπο που επικοινωνούμε με τον υπολογιστή, αλλά πώς ακριβώς λειτουργούν; Μπορούν πραγματικά να “κατανοήσουν” τη γλώσσα ή απλώς λύνουν στατιστικούς γρίφους; Σε αυτή την ομιλία, θα εξερευνήσουμε τις βασικές αρχές λειτουργίας τους, τον ρόλο των ποιοτικών δεδομένων στη διαδικασία εκπαίδευσης και τη σημασία της επιμελημένης συλλογής τους για τη βελτίωση της απόδοσης αλλά και την αποφυγή προκαταλήψεων.

Θα εξετάσουμε τις πολύπλοκες αρχιτεκτονικές που βρίσκονται στον πυρήνα αυτών των μοντέλων και επιτρέπουν την αποτελεσματική επεξεργασία τεράστιων όγκων πληροφορίας. Παράλληλα, θα συζητήσουμε τη σημαντική υπολογιστική ισχύ που απαιτείται για την εκπαίδευση και τη λειτουργία αυτών των μοντέλων, εστιάζοντας στη ραγδαία εξέλιξη των εξειδικευμένων GPUs που επιτρέπουν τη διαχείριση δισεκατομμυρίων παραμέτρων σε πραγματικό χρόνο.

Τέλος, θα αναλογιστούμε τις προκλήσεις που προκύπτουν, όπως η κλιμάκωση, η ενεργειακή κατανάλωση και η ανάγκη για βιώσιμες λύσεις, ενώ θα διερευνήσουμε τις προοπτικές για το μέλλον της γλωσσικής τεχνητής νοημοσύνης και τις εφαρμογές της.

Ο Βασίλης Κατσούρος είναι Διευθυντής Ερευνών και Διευθυντής στο Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) του Ερευνητικού Κέντρου Αθηνά (ΕΚ Αθηνά).

Αποφοίτησε το 1992 από το τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ του Εθνικού Μετσόβιου Πολυτεχνείου, το 1993 έλαβε με διάκριση το μεταπτυχιακό δίπλωμα Μάστερ στις Επικοινωνίες και την Επεξεργασία Σήματος (M.Sc. with Distinction in Communications and Signal Processing) από το Imperial College του Πανεπιστημίου του Λονδίνου και το 1997 το διδακτορικό του από το ίδιο Πανεπιστήμιο σε μαθηματική μοντελοποίηση και στοχαστικό έλεγχο.

Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν την ψηφιακή επεξεργασία σήματος, στατιστική ανάλυση, μάθηση μηχανών και τεχνητή νοημοσύνη με εφαρμογές σε μεγάλη ποικιλία σημάτων και δεδομένων (φωνή, μουσική, εικόνα, βίντεο, sensorial data, κ.λπ.). Έχει συγγράψει σημαντικό αριθμό επιστημονικών δημοσιεύσεων στους παραπάνω τομείς σε βιβλία, επιστημονικά περιοδικά, καθώς και διεθνή συνέδρια.