Το Παράδοξο της AI: Γιατί τα Νευρωνικά Δίκτυα «τα σπάνε» ενώ κανονικά δεν θα έπρεπε;

Νευρωνικά Δίκτυα & Μαθηματική Λογική

Για εμάς τους μαθηματικούς, ο κόσμος είναι συνήθως ένα μέρος όπου η τάξη και η λογική κυριαρχούν. Αν θέλεις να περιγράψεις μια απλή σχέση μεταξύ δύο πραγμάτων, χρησιμοποιείς μια απλή συνάρτηση. Αν πας να περιπλέξεις τα πράγματα χωρίς λόγο, το σύμπαν της Στατιστικής σε τιμωρεί.

Είναι ο παλιός, χρυσός κανόνας: «Μην προσαρμόζεις το μοντέλο σου στις λεπτομέρειες, γιατί θα χάσεις την ουσία».

Όμως, στον κόσμο της Τεχνητής Νοημοσύνης, αυτός ο κανόνας δεν καταρρίφθηκε απλώς• έγινε κομμάτια.

001 puzle

Πριν από μερικές δεκαετίες, αν έλεγες σε έναν επιστήμονα δεδομένων ότι θα έφτιαχνες ένα σύστημα με 175 δισεκατομμύρια παραμέτρους για να επεξεργαστείς ένα κλάσμα αυτών των δεδομένων, θα σου έλεγε ότι το μόνο που θα καταφέρεις είναι να φτιάξεις έναν πανάκριβο «παπαγάλο». Στη θεωρία, ένα τέτοιο δίκτυο θα έπρεπε να κάνει overfitting: να αποστηθίζει τα δεδομένα της εκπαίδευσης σαν να διαβάζει έναν τηλεφωνικό κατάλογο, αδυνατώντας να καταλάβει οτιδήποτε νέο. Κι όμως, τα νευρωνικά δίκτυα σήμερα όχι μόνο δεν αποστηθίζουν απλώς, αλλά μοιάζουν να «κατανοούν». Μεταφράζουν ποίηση, λύνουν μαθηματικά προβλήματα και συνθέτουν μουσική, αναγκάζοντάς μας να αναρωτηθούμε πώς γίνεται να λειτουργούν τόσο καλά, ενώ η κλασική θεωρία λέει πως θα έπρεπε να έχουν καταρρεύσει κάτω από το βάρος της δικής τους πολυπλοκότητας.

Το κλειδί σε αυτό το μυστήριο φαίνεται να κρύβεται σε ένα φαινόμενο που ονομάζουμε «Διπλή Κάθοδο» (Double Descent). Φανταστείτε ένα γράφημα όπου όσο αυξάνουμε την πολυπλοκότητα ενός μοντέλου, το σφάλμα του μειώνεται μέχρι ένα ορισμένο σημείο. Εκεί, η Στατιστική μας λέει να σταματήσουμε. Ωστόσο, αν συνεχίσουμε να προσθέτουμε παραμέτρους —αν δηλαδή γίνουμε επίμονα «παράλογοι»— συμβαίνει κάτι μαγικό: το σφάλμα αρχίζει ξανά να πέφτει. Πέρα από το χάος της υπερ-πολυπλοκότητας, το νευρωνικό δίκτυο ανακαλύπτει μια νέα, βαθύτερη απλότητα. Είναι σαν το μυαλό ενός παιδιού που στην αρχή μαθαίνει λέξεις, μετά μπερδεύεται με τους κανόνες της γραμματικής, αλλά αν συνεχίσει να μελετά, ξαφνικά αρχίζει να αντιλαμβάνεται το συνολικό νόημα.

Αυτή η πορεία προς τη μάθηση οπτικοποιείται συχνά ως μια περιήγηση σε ένα απέραντο ανάγλυφο με δισεκατομμύρια διαστάσεις, το λεγόμενο Loss Landscape. Σε αυτό το τοπίο, κάθε κορυφή αντιπροσωπεύει ένα λάθος και κάθε κοιλάδα μια σωστή απάντηση. Στα κλασικά μαθηματικά, φοβόμαστε ότι ο αλγόριθμος θα κολλήσει σε μια ρηχή κοιλάδα και δεν θα βρει ποτέ την απόλυτη αλήθεια. Όμως, στα γιγαντιαία νευρωνικά δίκτυα, οι «κακές» παγίδες φαίνεται να εξαφανίζονται. Σχεδόν κάθε μονοπάτι που κατηφορίζει οδηγεί σε μια λύση που «δουλεύει», σαν να περπατάς σε μια οροσειρά όπου, όσο κι αν παραπλανηθείς, στο τέλος πάντα θα βρεις ένα φιλόξενο χωριό.

Αυτή η απρόσμενη επιτυχία μας αναγκάζει να επανεξετάσουμε τι σημαίνει τελικά «γνωρίζω». Ίσως η νοημοσύνη να μην είναι μια κρυστάλλινη, απόλυτη λογική δομή, αλλά ένα προϊόν ανάδυσης (emergence). Όπως από τα δισεκατομμύρια νευρώνες του εγκεφάλου μας αναδύεται η συνείδηση, έτσι και από τις δισεκατομμύρια παραμέτρους της AI αναδύεται μια ικανότητα συσχέτισης που ξεπερνά τους κανόνες που εμείς της βάλαμε. Μας διδάσκουν ότι η μάθηση είναι η τέχνη της συμπίεσης: για να διαχειριστεί το δίκτυο τον ωκεανό των δεδομένων, αναγκάζεται να βρει τα κοινά μοτίβα και τις κρυφές δομές που συνδέουν τα πράγματα μεταξύ τους.

Σήμερα, οι αλγόριθμοι μας προτείνουν τι να δούμε ή τι να αγοράσουμε, παραμένοντας ένας καθρέφτης του δικού μας τρόπου σκέψης, απλώς σε μια κλίμακα που το ανθρώπινο χέρι δεν μπορεί πια να υπολογίσει στο χαρτί. Ίσως τελικά το μεγαλύτερο παράδοξο να μην είναι το γιατί λειτουργούν τα νευρωνικά δίκτυα, αλλά το ότι εμείς, οι δημιουργοί τους, χρησιμοποιούμε τη δική μας «περιορισμένη» λογική για να εξηγήσουμε κάτι που μας ξεπερνά.

Στην AI, η ουσία δεν βρίσκεται στους μεμονωμένους υπολογισμούς, αλλά στις αμέτρητες συνδέσεις που δημιουργούνται και εξελίσσονται στο σκοτάδι του «μαύρου κουτιού», υφαίνοντας μια νοημοσύνη που η κλασική μας μαθηματική διαίσθηση ακόμα πασχίζει να αποκωδικοποιήσει. Κι ίσως εκεί να βρίσκεται η ομορφιά: στο ότι ακόμα και στην εποχή της απόλυτης τεχνολογίας, υπάρχει χώρος για το μυστήριο και το θαύμα.

 

Υ.Γ. Για μια πιο πρακτική ματιά στη βασική δομή αυτών των δικτύων που περιγράψαμε, μπορείτε να παρακολουθήσετε το παρακάτω σύντομο βίντεο: