Γιατί οι μηχανές κερδίζουν στο σκάκι αλλά χάνουν στον δρόμο;
ΑΦΙΕΡΩΜΑ: Τεχνητή Νοημοσύνη και Μεγάλα Γλωσσικά Μοντέλα (2o Μέρος)
Του ΚΩΝΣΤΑΝΤΙΝΟΥ ΔΑΣΚΑΛΑΚΗ, Καθηγητή Τμήματος Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του MIT και Επικεφαλής Ερευνητή της Μονάδας “Αρχιμήδης” του Ερευνητικού Κέντρου “Αθηνά”
Ένα κυριακάτικο πρωινό πριν από λίγο καιρό οδηγούσα στο Σαν Φρανσίσκο και είχα μια ενδιαφέρουσα εμπειρία. Μπαίνω σε έναν δρόμο διπλής κυκλοφορίας με δύο λωρίδες σε κάθε κατεύθυνση. Η λωρίδα μου, η τέρμα δεξιά, ήταν άδεια. Οι δύο λωρίδες της αντίθετης κατεύθυνσης είχαν χαλαρή κίνηση. Όμως η λωρίδα ακριβώς αριστερά της δικής μου, στην ίδια κατεύθυνση με εμένα, είχε μεγάλο μποτιλιάρισμα που δεν ταίριαζε με τη γενική χαλαρότητα της κυκλοφορίας στην πόλη. Καχύποπτος ων, γυρνάω στη συνοδηγό μου και λέω: «Να δεις ότι κάποιο αυτόνομο όχημα ευθύνεται για αυτό το παράξενο μποτιλιάρισμα!»
Οδηγώ λοιπόν παραπλεύρως της ουράς και, όπως είχα υποψιαστεί, διαπιστώνω ότι υπεύθυνο για το μποτιλιάρισμα ήταν ένα αυτόνομο όχημα γνωστής (στην Αμερική τουλάχιστον) εταιρείας. Ήθελε να στρίψει αριστερά σε έναν κάθετο δρόμο και για να το κάνει αυτό έπρεπε να διασχίσει την αντίθετη κατεύθυνση κυκλοφορίας. Από ό,τι φαίνεται είχε μείνει πολύ χρόνο εκεί περιμένοντας να βρει την κατάλληλη στιγμή παρότι η κίνηση ήταν χαλαρή.
Γιατί είχε κολλήσει εκεί το αυτόνομο όχημα παρά τους προηγμένους αισθητήρες που κουβαλά, τους εξελιγμένους αλγορίθμους Τεχνητής Νοημοσύνης που τρέχει για να παίρνει τις αποφάσεις του, και τα εκατομμύρια χιλιόμετρα που έχουν οδηγήσει τα αυτοκίνητα της συγκεκριμένης εταιρείας, εμπειρία που χρησιμοποιείται για τη συνεχή βελτίωση αυτών των αλγορίθμων;
Και γιατί θα ήταν ένας άνθρωπος-οδηγός ικανότερος να κάνει τη στροφή αν βρισκόταν σε παρόμοια θέση, ακόμα και αν ήταν ένας νέος οδηγός με λίγα χιλιόμετρα οδηγικής εμπειρίας στη ζωή του;
Η μεγάλη διαφορά
Η απάντηση στα ερωτήματά μας έχει να κάνει με μια μεγάλη διαφορά μεταξύ του τι συμβαίνει στην εσωτερική λογική του αλγορίθμου Τεχνητής Νοημοσύνης που ελέγχει το αυτόνομο όχημα και του τρόπου με τον οποίο ένας άνθρωπος-οδηγός θα ανέλυε τις ίδιες συνθήκες. Και αυτή η διαφορά έχει σημασία για το πώς θα διαμορφωθεί ένα μέλλον με ευρεία χρήση της Τεχνητής Νοημοσύνης, για πολλούς λόγους.
Πρώτον, αποκαλύπτει μια μεγάλη αδυναμία των ισχυρότερων συστημάτων Τεχνητής Νοημοσύνης που αναπτύχθηκαν την τελευταία δεκαετία.
Δεύτερον, συνδέεται με μια εγγενή ανεπάρκεια της επικρατούσας μεθοδολογίας ανάπτυξης συστημάτων Τεχνητής Νοημοσύνης.
Και τρίτον καταδεικνύει προκλήσεις και κινδύνους που θα προκύψουν σε ένα μέλλον που είναι προ των πυλών - ή μάλλον είναι ήδη εδώ - όπου τα συστήματα Τεχνητής Νοημοσύνης δεν παίρνουν αποφάσεις σε σχετική απομόνωση το ένα από το άλλο, αλλά αλληλεπιδρούν με περίπλοκους τρόπους μεταξύ τους και με τους ανθρώπους.
Το αυτόνομο αυτοκίνητο είχε κολλήσει για τον πολύ απλό λόγο ότι περίμενε τη βέλτιστη στιγμή να κάνει τη στροφή. Οι αισθητήρες του μετρούσαν με ακρίβεια την ταχύτητα των οχημάτων που έρχονταν από την αντίθετη κατεύθυνση και ο αλγόριθμός του είχε εκτιμήσει με ακρίβεια τον χρόνο που χρειάζεται το ίδιο για να διασχίσει τις αντίθετες λωρίδες κυκλοφορίας. Περίμενε λοιπόν να βρει την κατάλληλη στιγμή για να στρίψει ώστε η πιθανότητα να συγκρουστεί με κάποιο όχημα της αντίθετης κατεύθυνσης να είναι μηδαμινή. Αλλά η στιγμή αυτή δεν είχε φτάσει...
Κατά την εκτίμησή μου ένας άνθρωπος-οδηγός πολύ εύκολα θα είχε κάνει τη στροφή δεδομένης της ελαφριάς κίνησης. Γιατί ο άνθρωπος είναι καλύτερος χρήστης της στρατηγικής. Στη θεώρηση ενός ανθρώπου-οδηγού που θέλει να στρίψει, τα οχήματα που έρχονται από την αντίθετη κατεύθυνση έχουν μια γκάμα από πιθανές οδηγικές συμπεριφορές που όμως ιεραρχούν ως ανώτατο στόχο την αποφυγή των ατυχημάτων και είναι αλτρουιστικές σε διαφορετικούς, αλλά άγνωστους σε αυτόν βαθμούς. Ανάλογα με το επίπεδο προσοχής των οδηγών αυτών των οχημάτων, περιμένει να αντιδράσουν με διάφορους πιθανούς τρόπους στις ενέργειές του, και θα κάνει το σχεδιασμό του λαμβάνοντας υπόψιν του τις πιθανές αντιδράσεις αυτών των οδηγών.
Αυτό που κάνουν οι άνθρωποι-οδηγοί σε μια περίπτωση όπως αυτή που περιγράφουμε είναι μια διαπραγμάτευση. Στη διαπραγμάτευση αυτή ο οδηγός που θέλει να στρίψει θα σηματοδοτούσε ότι είναι έτοιμος να κάνει τη στροφή με κάποιον τρόπο, για παράδειγμα με μια ελαφριά κίνηση του αυτοκινήτου του προς τα αριστερά που δεν τον βάζει σε πορεία σύγκρουσης με τα αυτοκίνητα της αντίθετης κατεύθυνσης. Και αυτά θα σηματοδοτούσαν τη διάθεσή τους να δημιουργήσουν ένα παράθυρο ασφαλείας για τον οδηγό που θέλει να στρίψει ελαττώνοντας ταχύτητα ή αναβοσβήνοντας τα φώτα τους. Ή θα μπορούσαν να δείξουν την έλλειψη διάθεσής τους να συνεργαστούν κρατώντας την ταχύτητά τους σταθερή ή επιταχύνοντας. Ή θα μπορούσαν να μην προσέχουν και να μην έδειχναν κανένα σημάδι ελάττωσης ταχύτητας. Ή θα μπορούσαν να προσέχουν αλλά να κρατούσαν την ταχύτητά τους σταθερή για να προσποιηθούν ότι δεν προσέχουν. Όπως και να έχει ο οδηγός που θέλει να στρίψει θα ανέλυε τι σήματα έλαβε από τους άλλους και θα έπαιρνε με βάση αυτά την απόφαση να κάνει τη στροφή, να ακυρώσει την προσπάθειά του, ή να περάσει σε ένα νέο γύρο διαπραγμάτευσης πιθανώς με μια πιο αποφασιστική ένδειξη της διάθεσής του να στρίψει, και ούτω καθεξής.
Ενώ οι άνθρωποι μαθαίνουν από την εμπειρία τους να χρησιμοποιούν τη στρατηγική με πολύ αποτελεσματικό τρόπο στην οδήγησή τους, τα αυτόνομα οχήματα δεν χρησιμοποιούν τη στρατηγική αποτελεσματικά, γι’ αυτό και δεν ανταπεξέρχονται σε καταστάσεις όπως αυτήν που περιγράψαμε. Και αυτός ο περιορισμός δεν αφορά μόνο τα αυτόνομα οχήματα αλλά την πλειονότητα των συστημάτων Τεχνητής Νοημοσύνης που έχουν αναπτυχθεί την τελευταία δεκαετία.
Δεν υπάρχουν καλά εργαλεία βελτιστοποίησης και μηχανικής μάθησης που θα μπορούσαν να προσδώσουν στρατηγικές ικανότητες στα συστήματα Τεχνητής Νοημοσύνης. Δυστυχώς η κλασική θεωρία παιγνίων και τα νευρωνικά δίκτυα δεν κουμπώνουν καλά
Πράγματι από την τρομακτική πρόοδο που έχει σημειωθεί στην αναγνώριση εικόνας, φωνής και ήχου έως την εκπληκτική πρόοδο στη μηχανική μετάφραση, τη γενετική τεχνητή νοημοσύνη, και την πρόβλεψη της τρισδιάστατης δομής των πρωτεϊνών, τα μεγαλύτερα άλματα στην Τεχνητή Νοημοσύνη έχουν σημειωθεί σε εφαρμογές όπου ο αλγόριθμος καλείται να κάνει προβλέψεις και να πάρει αποφάσεις σε ένα περιβάλλον όπου οι προβλέψεις του και οι αποφάσεις του αξιολογούνται σε απομόνωση από άλλους αλγορίθμους ή ανθρώπους, ή σε ένα περιβάλλον που περιέχει μεν αλγορίθμους ή ανθρώπους αλλά αυτοί δεν αλληλεπιδρούν με αυτόν στρατηγικά. Για παράδειγμα, ένας αλγόριθμος πρόβλεψης της τρισδιάστατης δομής των πρωτεϊνών αξιολογείται ως προς την ακρίβειά του με βάση τους νόμους της φυσικής. Και ένα ρομπότ που χρησιμοποιείται σε ένα εργοστάσιο ή σε μια αποθήκη αξιολογείται με βάση την αξιοπιστία και την ταχύτητα της δουλειάς του. Ναι, μπορεί να αλληλεπιδρά με άλλα ρομπότ ωστόσο η αλληλεπίδρασή τους δεν είναι στρατηγική.
Ολοένα όμως και πληθαίνουν οι εφαρμογές όπου η στρατηγική παίζει κεντρικό ρόλο στην ποιότητα και αξιοπιστία ενός συστήματος Τεχνητής Νοημοσύνης. Καθώς διευρύνεται η χρήση της Τεχνητής Νοημοσύνης είναι αναπόφευκτο τα συστήματα Τεχνητής Νοημοσύνης να αλληλεπιδρούν ολοένα και περισσότερο με ανθρώπους και μεταξύ τους. Ωστόσο, εκτός από λίγες εξαιρέσεις – συγκεκριμένα σε καλώς ορισμένα παιχνίδια όπως το σκάκι, το Go και το Poker όπου οι αλγόριθμοι νικούν τον άνθρωπο – τα συστήματα Τεχνητής Νοημοσύνης δεν είναι αποτελεσματικά στη στρατηγική αλληλεπίδραση. Όχι μόνο δεν είναι αποτελεσματικά, όπως το αυτόνομο αυτοκίνητο της ιστορίας μας, αλλά μπορούν να γίνουν αντικείμενο εκμετάλλευσης από τους ανθρώπους, ή να προκαλέσουν καταστροφικά αποτελέσματα για όλο το σύστημα που τα περιέχει.
Ο λόγος που τα σύγχρονα συστήματα Τεχνητής Νοημοσύνης δεν αναπτύσσουν στρατηγική ικανότητα είναι εγγενής στην κατεξοχήν μεθοδολογία με την οποία αυτά εκπαιδεύονται, που δεν μοντελοποιεί επαρκώς την αλληλεπίδραση των συστημάτων τα οποία εκπαιδεύει με άλλα συστήματα και ανθρώπους. Όμως και να την λάμβανε υπόψιν της δεν υπάρχουν καλά εργαλεία βελτιστοποίησης και μηχανικής μάθησης που θα μπορούσαν να προσδώσουν στρατηγικές ικανότητες στα συστήματα Τεχνητής Νοημοσύνης. Δυστυχώς η κλασική θεωρία παιγνίων και τα νευρωνικά δίκτυα δεν κουμπώνουν καλά. Γι’ αυτό η Τεχνητή Νοημοσύνη χρειάζεται τεχνικά άλματα για να φτάσει το επίπεδο του ανθρώπου στη χάραξη στρατηγικής. Το δουλεύουμε. Όχι γιατί θέλουμε να κερδίζει η Τεχνητή Νοημοσύνη τον άνθρωπο αλλά γιατί είναι δύσκολο να φανταστούμε ένα καλό μέλλον όπου η Τεχνητή Νοημοσύνη χρησιμοποιείται ευρέως αλλά είναι στρατηγικά ανεπαρκής ή ακόμα χειρότερα, χειραγωγήσιμη.