Τα βαθιά νευρωνικά δίκτυα βοηθούν στην εξήγηση των ζωντανών εγκεφάλων

Τον χειμώνα του 2011, ο Daniel Yamins, ένας μεταδιδακτορικός ερευνητής στην υπολογιστική νευροεπιστήμη στο Ινστιτούτο Τεχνολογίας της Μασαχουσέτης, κατά καιρούς εργαζόταν μετά τα μεσάνυχτα για το έργο του μηχανικής όρασης. Σχεδίαζε με κόπο ένα σύστημα που θα μπορούσε να αναγνωρίζει αντικείμενα σε εικόνες, ανεξάρτητα από τις διακυμάνσεις στο μέγεθος, τη θέση και άλλες ιδιότητες - κάτι που οι άνθρωποι κάνουν με ευκολία. Το σύστημα ήταν ένα βαθύ νευρωνικό δίκτυο, ένας τύπος υπολογιστικής συσκευής εμπνευσμένης από τη νευρολογική καλωδίωση ζωντανών εγκεφάλων.

«Θυμάμαι πολύ ξεκάθαρα την εποχή που βρήκαμε ένα νευρωνικό δίκτυο που στην πραγματικότητα έλυνε την εργασία», είπε. Ήταν 2 τα ξημερώματα, λίγο πολύ νωρίς για να ξυπνήσει τον σύμβουλό του, Τζέιμς ΝτιΚάρλο, ή άλλους συναδέλφους, κι έτσι ένας ενθουσιασμένος Γιάμινς έκανε μια βόλτα στον κρύο αέρα του Κέμπριτζ. «Ήμουν πραγματικά ενθουσιασμένος», είπε.

Θα είχε λογιστεί ως ένα αξιοσημείωτο επίτευγμα μόνο στην τεχνητή νοημοσύνη, ένα από τα πολλά που θα έκαναν τα νευρωνικά δίκτυα τα αγαπημένα της τεχνολογίας AI τα επόμενα χρόνια. Αλλά αυτός δεν ήταν ο κύριος στόχος για τον Yamins και τους συναδέλφους του. Γι' αυτούς και για άλλους νευροεπιστήμονες, αυτή ήταν μια κομβική στιγμή στην ανάπτυξη υπολογιστικών μοντέλων για τις λειτουργίες του εγκεφάλου.

Ο DiCarlo και ο Yamins, ο οποίος τώρα έχει το δικό του εργαστήριο στο Πανεπιστήμιο του Στάνφορντ, είναι μέρος μιας ομάδας νευροεπιστημόνων που χρησιμοποιούν βαθιά νευρωνικά δίκτυα για να κατανοήσουν την αρχιτεκτονική του εγκεφάλου. Συγκεκριμένα, οι επιστήμονες αγωνίστηκαν να κατανοήσουν τους λόγους πίσω από τις εξειδικεύσεις στον εγκέφαλο για διάφορες εργασίες. Αναρωτήθηκαν όχι μόνο γιατί διαφορετικά μέρη του εγκεφάλου κάνουν διαφορετικά πράγματα, αλλά και γιατί οι διαφορές μπορεί να είναι τόσο συγκεκριμένες:Γιατί, για παράδειγμα, ο εγκέφαλος έχει μια περιοχή για την αναγνώριση αντικειμένων γενικά αλλά και για πρόσωπα ειδικότερα; Τα βαθιά νευρωνικά δίκτυα δείχνουν ότι τέτοιες εξειδικεύσεις μπορεί να είναι ο πιο αποτελεσματικός τρόπος επίλυσης προβλημάτων.

Ομοίως, οι ερευνητές έχουν αποδείξει ότι τα βαθιά δίκτυα που είναι πιο ικανά στην ταξινόμηση της ομιλίας, της μουσικής και των προσομοιωμένων αρωμάτων έχουν αρχιτεκτονικές που φαίνεται να παραλληλίζουν το ακουστικό και το οσφρητικό σύστημα του εγκεφάλου. Τέτοιοι παραλληλισμοί εμφανίζονται επίσης σε βαθιά δίχτυα που μπορούν να κοιτάξουν μια δισδιάστατη σκηνή και να συμπεράνουν τις υποκείμενες ιδιότητες των 3D αντικειμένων μέσα σε αυτήν, κάτι που βοηθά να εξηγηθεί πώς η βιολογική αντίληψη μπορεί να είναι γρήγορη και απίστευτα πλούσια. Όλα αυτά τα αποτελέσματα υποδηλώνουν ότι οι δομές των ζωντανών νευρικών συστημάτων ενσωματώνουν ορισμένες βέλτιστες λύσεις στα καθήκοντα που έχουν αναλάβει.

Αυτές οι επιτυχίες είναι ακόμη πιο απροσδόκητες, δεδομένου ότι οι νευροεπιστήμονες ήταν από καιρό δύσπιστοι για τις συγκρίσεις μεταξύ εγκεφάλων και βαθιών νευρωνικών δικτύων, των οποίων η λειτουργία μπορεί να είναι ανεξιχνίαστη. «Ειλικρινά, κανείς στο εργαστήριό μου δεν έκανε τίποτα με βαθιά δίχτυα [μέχρι πρόσφατα]», είπε η νευροεπιστήμονας του MIT Nancy Kanwisher. "Τώρα, οι περισσότεροι από αυτούς τους εκπαιδεύουν τακτικά."

Deep Nets and Vision

Τα τεχνητά νευρωνικά δίκτυα κατασκευάζονται με στοιχεία διασύνδεσης που ονομάζονται perceptrons, τα οποία είναι απλουστευμένα ψηφιακά μοντέλα βιολογικών νευρώνων. Τα δίκτυα έχουν τουλάχιστον δύο στρώματα perceptrons, ένα για το επίπεδο εισόδου και ένα για την έξοδο. Τοποθετήστε ένα ή περισσότερα «κρυμμένα» στρώματα μεταξύ της εισόδου και της εξόδου και θα έχετε ένα «βαθύ» νευρωνικό δίκτυο. Όσο μεγαλύτερος είναι ο αριθμός των κρυφών επιπέδων, τόσο πιο βαθύ είναι το δίκτυο.

Τα βαθιά δίχτυα μπορούν να εκπαιδευτούν για να διακρίνουν μοτίβα σε δεδομένα, όπως μοτίβα που αντιπροσωπεύουν τις εικόνες γατών ή σκύλων. Η εκπαίδευση περιλαμβάνει τη χρήση ενός αλγορίθμου για την επαναληπτική προσαρμογή της ισχύος των συνδέσεων μεταξύ των perceptrons, έτσι ώστε το δίκτυο να μάθει να συσχετίζει μια δεδομένη είσοδο (τα pixel μιας εικόνας) με τη σωστή ετικέτα (γάτα ή σκύλος). Μόλις εκπαιδευτεί, το deep net θα πρέπει ιδανικά να μπορεί να ταξινομήσει μια είσοδο που δεν έχει δει στο παρελθόν.

Στη γενική τους δομή και λειτουργία, τα βαθιά δίχτυα φιλοδοξούν χαλαρά να μιμηθούν τους εγκεφάλους, στους οποίους οι προσαρμοσμένες δυνάμεις των συνδέσεων μεταξύ των νευρώνων αντανακλούν τις μαθημένες συσχετίσεις. Οι νευροεπιστήμονες έχουν συχνά επισημάνει σημαντικούς περιορισμούς σε αυτή τη σύγκριση:οι μεμονωμένοι νευρώνες μπορεί να επεξεργάζονται πληροφορίες πιο εκτενώς από τα «χαζά» perceptrons, για παράδειγμα, και τα βαθιά δίχτυα συχνά εξαρτώνται από ένα είδος επικοινωνίας μεταξύ perceptron που ονομάζεται back-propagation που δεν φαίνεται να συμβαίνει στα νευρικά συστήματα. Ωστόσο, για τους υπολογιστικούς νευροεπιστήμονες, τα βαθιά δίχτυα φαίνονται μερικές φορές ως η καλύτερη διαθέσιμη επιλογή για τη μοντελοποίηση τμημάτων του εγκεφάλου.

Οι ερευνητές που αναπτύσσουν υπολογιστικά μοντέλα του οπτικού συστήματος έχουν επηρεαστεί από όσα γνωρίζουμε για το οπτικό σύστημα των πρωτευόντων, ιδιαίτερα από το μονοπάτι που είναι υπεύθυνο για την αναγνώριση ανθρώπων, τόπων και πραγμάτων που ονομάζεται κοιλιακή οπτική ροή. (Ένα σε μεγάλο βαθμό ξεχωριστό μονοπάτι, το ραχιαίο οπτικό ρεύμα, επεξεργάζεται πληροφορίες για να δει την κίνηση και τις θέσεις των πραγμάτων.) Στους ανθρώπους, αυτή η κοιλιακή οδός ξεκινά από τα μάτια και προχωρά στον πλάγιο γονατώδη πυρήνα στον θάλαμο, ένα είδος σταθμού αναμετάδοσης για αισθητηριακές πληροφορίες. Ο πλάγιος γονιδιακός πυρήνας συνδέεται με μια περιοχή που ονομάζεται V1 στον πρωτογενή οπτικό φλοιό, κατάντη του οποίου βρίσκονται οι περιοχές V2 και V4, οι οποίες τελικά οδηγούν στον κατώτερο κροταφικό φλοιό. (Οι εγκέφαλοι μη ανθρώπινων πρωτευόντων έχουν ομόλογες δομές.)

Η βασική νευροεπιστημονική εικόνα είναι ότι η επεξεργασία οπτικών πληροφοριών είναι ιεραρχική και προχωρά σε στάδια:Τα προηγούμενα στάδια επεξεργάζονται χαρακτηριστικά χαμηλού επιπέδου στο οπτικό πεδίο (όπως άκρες, περιγράμματα, χρώματα και σχήματα), ενώ σύνθετες αναπαραστάσεις, όπως ολόκληρα αντικείμενα και πρόσωπα , εμφανίζονται μόνο αργότερα στον κάτω κροταφικό φλοιό.

Αυτές οι ιδέες καθοδήγησαν τον σχεδιασμό του βαθύ διχτυού από τον Yamins και τους συναδέλφους του. Το βαθύ δίχτυ τους είχε κρυφά στρώματα, μερικά από τα οποία εκτελούσαν μια "συνέλιξη" που εφάρμοζε το ίδιο φίλτρο σε κάθε τμήμα μιας εικόνας. Κάθε συνέλιξη αποτύπωσε διαφορετικά βασικά χαρακτηριστικά της εικόνας, όπως άκρες. Τα πιο βασικά χαρακτηριστικά αποτυπώθηκαν στα πρώτα στάδια του δικτύου και τα πιο σύνθετα χαρακτηριστικά στα βαθύτερα στάδια, όπως στο οπτικό σύστημα των πρωτευόντων. Όταν ένα συνελικτικό νευρωνικό δίκτυο (CNN) όπως αυτό εκπαιδεύεται στην ταξινόμηση εικόνων, ξεκινά με τυχαία αρχικοποιημένες τιμές για τα φίλτρα του και μαθαίνει τις σωστές τιμές που απαιτούνται για την εκάστοτε εργασία.

Το CNN τεσσάρων επιπέδων της ομάδας μπορούσε να αναγνωρίσει οκτώ κατηγορίες αντικειμένων (ζώα, βάρκες, αυτοκίνητα, καρέκλες, πρόσωπα, φρούτα, αεροπλάνα και τραπέζια) που απεικονίζονται σε 5.760 φωτορεαλιστικές τρισδιάστατες εικόνες. Τα εικονιζόμενα αντικείμενα διέφεραν πολύ σε πόζα, θέση και κλίμακα. Ακόμα κι έτσι, το βαθύ δίχτυ ταίριαζε με την απόδοση των ανθρώπων, οι οποίοι είναι εξαιρετικά καλοί στην αναγνώριση αντικειμένων παρά τις διαφορές.

Χωρίς να το γνωρίζει ο Yamins, μια επανάσταση στον κόσμο της όρασης υπολογιστών θα επικύρωνε επίσης ανεξάρτητα την προσέγγιση που ακολουθούσαν ο ίδιος και οι συνάδελφοί του. Αμέσως μετά την ολοκλήρωση της κατασκευής του CNN, ένα άλλο CNN με το όνομα AlexNet έκανε γνωστό τον εαυτό του σε έναν ετήσιο διαγωνισμό αναγνώρισης εικόνας. Το AlexNet, επίσης, βασίστηκε σε μια ιεραρχική αρχιτεκτονική επεξεργασίας που απαθανάτιζε βασικά οπτικά χαρακτηριστικά στα αρχικά του στάδια και πιο σύνθετα χαρακτηριστικά σε υψηλότερα στάδια. είχε εκπαιδευτεί σε 1,2 εκατομμύρια ετικέτες εικόνων που παρουσίαζαν χίλιες κατηγορίες αντικειμένων. Στον διαγωνισμό του 2012, η AlexNet δρομολόγησε όλους τους άλλους δοκιμασμένους αλγόριθμους:Σύμφωνα με τις μετρήσεις του ανταγωνισμού, το ποσοστό σφάλματος της AlexNet ήταν μόνο 15,3%, σε σύγκριση με 26,2% για τον πλησιέστερο ανταγωνιστή της. Με τη νίκη του AlexNet, τα βαθιά δίχτυα έγιναν νόμιμοι διεκδικητές στον τομέα της τεχνητής νοημοσύνης και της μηχανικής μάθησης.

Ο Yamins και άλλα μέλη της ομάδας του DiCarlo, ωστόσο, αναζητούσαν μια νευροεπιστημονική ανταμοιβή. Αν το CNN τους μιμούνταν ένα οπτικό σύστημα, αναρωτήθηκαν, θα μπορούσε να προβλέψει τις νευρικές αποκρίσεις σε μια νέα εικόνα; Για να το μάθουν, διαπίστωσαν πρώτα πώς η δραστηριότητα σε σετ τεχνητών νευρώνων στο CNN τους αντιστοιχούσε σε δραστηριότητα σε σχεδόν 300 τοποθεσίες στην κοιλιακή οπτική ροή δύο μακάκων ρέζους.

Στη συνέχεια χρησιμοποίησαν το CNN για να προβλέψουν πώς θα αντιδρούσαν αυτές οι εγκεφαλικές τοποθεσίες όταν έδειχναν στους πιθήκους εικόνες που δεν ήταν μέρος του συνόλου δεδομένων εκπαίδευσης. «Όχι μόνο λάβαμε καλές προβλέψεις… αλλά υπάρχει επίσης ένα είδος ανατομικής συνέπειας», είπε ο Yamins:Τα στρώματα πρώιμου, ενδιάμεσου και τελευταίου σταδίου του CNN προέβλεψαν τις συμπεριφορές των περιοχών του εγκεφάλου πρώιμου, ενδιάμεσου και υψηλότερου επιπέδου, αντίστοιχα. . Συνάρτηση ακολουθούμενης φόρμας.

Ο Kanwisher θυμάται ότι εντυπωσιάστηκε από το αποτέλεσμα όταν δημοσιεύτηκε το 2014. "Δεν λέει ότι οι μονάδες στο βαθύ δίκτυο συμπεριφέρονται μεμονωμένα σαν νευρώνες βιοφυσικά", είπε. "Παρ' όλα αυτά, υπάρχει συγκλονιστική ιδιαιτερότητα στο λειτουργικό ταίριασμα."

Ειδική για ήχους

Μετά την εμφάνιση των αποτελεσμάτων από τον Yamins και τον DiCarlo, το κυνήγι ξεκίνησε για άλλα, καλύτερα μοντέλα εγκεφάλου σε βάθος, ιδιαίτερα για περιοχές λιγότερο καλά μελετημένες από το οπτικό σύστημα των πρωτευόντων. Για παράδειγμα, «εξακολουθούμε να μην έχουμε πολύ καλή κατανόηση του ακουστικού φλοιού, ιδιαίτερα στους ανθρώπους», είπε ο Τζος ΜακΝτέρμοτ, νευροεπιστήμονας στο MIT. Θα μπορούσε η βαθιά μάθηση να βοηθήσει στη δημιουργία υποθέσεων σχετικά με τον τρόπο με τον οποίο ο εγκέφαλος επεξεργάζεται τους ήχους;

Αυτός είναι ο στόχος του McDermott. Η ομάδα του, η οποία περιλάμβανε τους Alexander Kell και Yamins, άρχισε να σχεδιάζει βαθιά δίχτυα για να ταξινομήσει δύο τύπους ήχων:ομιλία και μουσική. Πρώτον, κωδικοποίησαν ένα μοντέλο του κοχλία - το όργανο μεταβίβασης ήχου στο εσωτερικό αυτί, του οποίου η λειτουργία γίνεται κατανοητή με μεγάλη λεπτομέρεια - για να επεξεργαστεί τον ήχο και να ταξινομήσει τους ήχους σε διαφορετικά κανάλια συχνοτήτων ως είσοδο σε ένα συνελικτικό νευρωνικό δίκτυο. Το CNN εκπαιδεύτηκε τόσο να αναγνωρίζει λέξεις σε ηχητικά κλιπ ομιλίας όσο και να αναγνωρίζει τα είδη των μουσικών κλιπ αναμεμειγμένων με θόρυβο φόντου. Η ομάδα αναζήτησε μια αρχιτεκτονική βαθιάς δικτύου που θα μπορούσε να εκτελεί αυτές τις εργασίες με ακρίβεια χωρίς να χρειάζεται πολλούς πόρους.

Τρία σύνολα αρχιτεκτονικών φάνηκαν πιθανά. Οι δύο εργασίες του deep net μπορούσαν να μοιραστούν μόνο το επίπεδο εισόδου και στη συνέχεια να χωριστούν σε δύο διαφορετικά δίκτυα. Στο άλλο άκρο, οι εργασίες θα μπορούσαν να μοιράζονται το ίδιο δίκτυο για όλη την επεξεργασία τους και να χωρίζονται μόνο στο στάδιο εξόδου. Ή θα μπορούσε να είναι μία από τις δεκάδες παραλλαγές στο ενδιάμεσο, όπου ορισμένα στάδια του δικτύου ήταν κοινά και άλλα ήταν διαφορετικά.

Όπως ήταν αναμενόμενο, τα δίκτυα που είχαν αποκλειστικές διαδρομές μετά το επίπεδο εισόδου ξεπέρασαν τα δίκτυα που μοιράζονταν πλήρως τις διαδρομές. Ωστόσο, ένα υβριδικό δίκτυο - ένα με επτά κοινά στρώματα μετά το στάδιο εισόδου και στη συνέχεια δύο ξεχωριστά δίκτυα πέντε επιπέδων το καθένα - τα πήγε σχεδόν εξίσου καλά με το πλήρως ξεχωριστό δίκτυο. Ο McDermott και οι συνεργάτες του επέλεξαν το υβριδικό δίκτυο ως αυτό που λειτουργούσε καλύτερα με τους λιγότερους υπολογιστικούς πόρους.

Όταν αντιμετώπισαν αυτό το υβριδικό δίκτυο εναντίον των ανθρώπων σε αυτές τις εργασίες, ταίριαξε καλά. Ταίριαξε επίσης με προηγούμενα αποτελέσματα από έναν αριθμό ερευνητών που πρότειναν ότι ο μη πρωτεύων ακουστικός φλοιός έχει διακριτές περιοχές για την επεξεργασία της μουσικής και της ομιλίας. Και σε μια βασική δοκιμή που δημοσιεύθηκε το 2018, το μοντέλο προέβλεψε την εγκεφαλική δραστηριότητα σε ανθρώπινα υποκείμενα:τα ενδιάμεσα στρώματα του μοντέλου ανέμεναν τις αποκρίσεις του πρωτεύοντος ακουστικού φλοιού και τα βαθύτερα στρώματα ανέμεναν υψηλότερες περιοχές στον ακουστικό φλοιό. Αυτές οι προβλέψεις ήταν ουσιαστικά καλύτερες από εκείνες των μοντέλων που δεν βασίζονται σε βαθιά μάθηση.

«Ο στόχος της επιστήμης είναι να μπορεί να προβλέψει τι θα κάνουν τα συστήματα», είπε ο McDermott. "Αυτά τα τεχνητά νευρωνικά δίκτυα μας φέρνουν πιο κοντά σε αυτόν τον στόχο στη νευροεπιστήμη."

Η Kanwisher, αρχικά δύσπιστη για τη χρησιμότητα της βαθιάς μάθησης για τη δική της έρευνα, εμπνεύστηκε από τα μοντέλα του McDermott. Η Kanwisher είναι περισσότερο γνωστή για το έργο της στα μέσα έως τα τέλη της δεκαετίας του 1990 που έδειξε ότι μια περιοχή του κατώτερου κροταφικού φλοιού που ονομάζεται ατρακτοειδής περιοχή προσώπου (FFA) είναι εξειδικευμένη για την αναγνώριση προσώπων. Το FFA είναι σημαντικά πιο ενεργό όταν τα θέματα κοιτάζουν επίμονα εικόνες προσώπων παρά όταν κοιτάζουν εικόνες αντικειμένων όπως σπίτια. Γιατί ο εγκέφαλος διαχωρίζει την επεξεργασία των προσώπων από αυτή άλλων αντικειμένων;

Παραδοσιακά, η απάντηση σε τέτοιες ερωτήσεις «γιατί» ήταν δύσκολη για τη νευροεπιστήμη. Έτσι, η Kanwisher, μαζί με τη μεταδιδακτορική της Katharina Dobs και άλλους συναδέλφους της, στράφηκαν σε βαθιά δίχτυα για βοήθεια. Χρησιμοποίησαν έναν διάδοχο όρασης υπολογιστή του AlexNet - ένα πολύ βαθύτερο συνελικτικό νευρωνικό δίκτυο που ονομάζεται VGG - και εκπαίδευσαν δύο ξεχωριστά βαθιά δίκτυα σε συγκεκριμένες εργασίες:αναγνώριση προσώπων και αναγνώριση αντικειμένων.

Η ομάδα διαπίστωσε ότι το βαθύ δίχτυ που ήταν εκπαιδευμένο να αναγνωρίζει πρόσωπα ήταν κακό στην αναγνώριση αντικειμένων και το αντίστροφο, υποδηλώνοντας ότι αυτά τα δίκτυα αντιπροσωπεύουν πρόσωπα και αντικείμενα διαφορετικά. Στη συνέχεια, η ομάδα εκπαίδευσε ένα ενιαίο δίκτυο και στις δύο εργασίες. Διαπίστωσαν ότι το δίκτυο είχε οργανωθεί εσωτερικά για να διαχωρίσει την επεξεργασία προσώπων και αντικειμένων στα μεταγενέστερα στάδια του δικτύου. «Το VGG διαχωρίζεται αυθόρμητα περισσότερο στα μεταγενέστερα στάδια», είπε ο Kanwisher. "Δεν χρειάζεται να διαχωρίζεται στα προηγούμενα στάδια."

Αυτό συμφωνεί με τον τρόπο οργάνωσης του ανθρώπινου οπτικού συστήματος:Η διακλάδωση συμβαίνει μόνο κατάντη των κοινών προηγούμενων σταδίων της κοιλιακής οπτικής οδού (ο πλάγιος γονιδιακός πυρήνας και οι περιοχές V1 και V2). «Διαπιστώσαμε ότι η λειτουργική εξειδίκευση της επεξεργασίας προσώπου και αντικειμένων προέκυψε αυθόρμητα σε βαθιά δίχτυα εκπαιδευμένα και στις δύο εργασίες, όπως συμβαίνει στον ανθρώπινο εγκέφαλο», δήλωσε ο Dobs, ο οποίος τώρα είναι στο Πανεπιστήμιο Justus Liebig στο Giessen της Γερμανίας.

«Αυτό που είναι πιο συναρπαστικό για μένα είναι ότι νομίζω ότι έχουμε τώρα έναν τρόπο να απαντήσουμε σε ερωτήσεις σχετικά με το γιατί ο εγκέφαλος είναι έτσι όπως είναι», είπε ο Kanwisher.

Στρώματα αρωμάτων

Περισσότερα τέτοια στοιχεία προκύπτουν από την έρευνα που ασχολείται με την αντίληψη των οσμών. Πέρυσι, ο υπολογιστικός νευροεπιστήμονας Robert Yang και οι συνεργάτες του στο Πανεπιστήμιο Columbia σχεδίασαν ένα βαθύ δίχτυ για να μοντελοποιήσουν το οσφρητικό σύστημα μιας μύγας φρούτων, το οποίο έχει χαρτογραφηθεί με μεγάλη λεπτομέρεια από νευροεπιστήμονες.

Το πρώτο στρώμα επεξεργασίας οσμών περιλαμβάνει οσφρητικούς αισθητήριους νευρώνες, καθένας από τους οποίους εκφράζει μόνο έναν από τους περίπου 50 τύπους υποδοχέων οσμής. Όλοι οι αισθητηριακοί νευρώνες του ίδιου τύπου, περίπου 10 κατά μέσο όρο, φτάνουν σε ένα μόνο νευρικό σύμπλεγμα στο επόμενο στρώμα της ιεραρχίας επεξεργασίας. Επειδή υπάρχουν περίπου 50 τέτοια συμπλέγματα νεύρων σε κάθε πλευρά του εγκεφάλου σε αυτό το στρώμα, αυτό δημιουργεί μια χαρτογράφηση ένας προς έναν μεταξύ των τύπων αισθητηριακών νευρώνων και των αντίστοιχων νευρικών συστάδων. Τα συμπλέγματα νεύρων έχουν πολλαπλές τυχαίες συνδέσεις με νευρώνες στο επόμενο στρώμα, που ονομάζεται στρώμα Kenyon, το οποίο έχει περίπου 2.500 νευρώνες, καθένας από τους οποίους λαμβάνει περίπου επτά εισόδους. Το στρώμα Kenyon πιστεύεται ότι εμπλέκεται σε υψηλού επιπέδου αναπαραστάσεις των οσμών. Ένα τελικό στρώμα περίπου 20 νευρώνων παρέχει την έξοδο που χρησιμοποιεί η μύγα για να καθοδηγήσει τις δράσεις της που σχετίζονται με τη μυρωδιά (ο Yang προειδοποιεί ότι κανείς δεν γνωρίζει εάν αυτή η έξοδος πληροί τις προϋποθέσεις για ταξινόμηση οσμών).

Για να δουν αν θα μπορούσαν να σχεδιάσουν ένα υπολογιστικό μοντέλο για να μιμηθεί αυτή τη διαδικασία, ο Yang και οι συνεργάτες του δημιούργησαν πρώτα ένα σύνολο δεδομένων για να μιμούνται μυρωδιές, οι οποίες δεν ενεργοποιούν τους νευρώνες με τον ίδιο τρόπο όπως οι εικόνες. Εάν τοποθετήσετε δύο εικόνες γατών, προσθέτοντάς τες pixel-pixel, η εικόνα που θα προκύψει μπορεί να μην μοιάζει καθόλου με γάτα. Ωστόσο, αν αναμίξετε μια μυρωδιά από δύο μήλα, πιθανότατα θα εξακολουθεί να μυρίζει σαν μήλο. "Αυτή είναι μια κρίσιμη εικόνα που χρησιμοποιήσαμε για να σχεδιάσουμε το έργο μας για την όσφρηση", είπε ο Yang.

Κατασκεύασαν το βαθύ δίχτυ τους με τέσσερα στρώματα:τρία που μοντελοποιούσαν τα στρώματα επεξεργασίας στη μύγα φρούτων και ένα στρώμα εξόδου. Όταν ο Yang και οι συνεργάτες του εκπαίδευσαν αυτό το δίκτυο για να ταξινομήσει τις προσομοιωμένες οσμές, διαπίστωσαν ότι το δίκτυο συνέκλινε σχεδόν με την ίδια συνδεσιμότητα όπως φαίνεται στον εγκέφαλο της μύγας:μια χαρτογράφηση ένας προς έναν από το στρώμα 1 στο στρώμα 2 και στη συνέχεια μια αραιή και τυχαία (7-προς-1) αντιστοίχιση από το επίπεδο 2 στο επίπεδο 3.

Αυτή η ομοιότητα υποδηλώνει ότι τόσο η εξέλιξη όσο και το βαθύ δίχτυ έχουν φτάσει σε μια βέλτιστη λύση. Αλλά ο Yang παραμένει επιφυλακτικός σχετικά με τα αποτελέσματά τους. "Ίσως απλά σταθήκαμε τυχεροί εδώ, και ίσως δεν γενικεύεται", είπε.

Το επόμενο βήμα στις δοκιμές θα είναι η ανάπτυξη βαθιών δικτύων που μπορούν να προβλέψουν τη συνδεσιμότητα στο οσφρητικό σύστημα κάποιου ζώου που δεν έχει ακόμη μελετηθεί, κάτι που μπορεί στη συνέχεια να επιβεβαιωθεί από νευροεπιστήμονες. "Αυτό θα προσφέρει μια πολύ πιο αυστηρή δοκιμή της θεωρίας μας", είπε ο Yang, ο οποίος θα μετακομίσει στο MIT τον Ιούλιο του 2021.

Όχι μόνο μαύρα κουτιά

Τα βαθιά δίχτυα συχνά χλευάζονται επειδή δεν μπορούν να γενικευτούν σε δεδομένα που απομακρύνονται πολύ από το σύνολο δεδομένων εκπαίδευσης. Είναι επίσης διαβόητοι επειδή είναι μαύρα κουτιά. Είναι αδύνατο να εξηγηθούν οι αποφάσεις ενός deep net εξετάζοντας τα εκατομμύρια ή ακόμα και τα δισεκατομμύρια των παραμέτρων που το διαμορφώνουν. Δεν είναι ένα μοντέλο σε βάθος ενός μέρους του εγκεφάλου που αντικαθιστά απλώς ένα μαύρο κουτί με ένα άλλο;

Όχι ακριβώς, κατά τη γνώμη του Yang. «Είναι ακόμα πιο εύκολο να μελετάς από τον εγκέφαλο», είπε.

Πέρυσι, η ομάδα του ΝτιΚάρλο δημοσίευσε αποτελέσματα που έλαβαν τόσο την αδιαφάνεια των βαθιών διχτυών όσο και την υποτιθέμενη αδυναμία τους να γενικεύσουν. Οι ερευνητές χρησιμοποίησαν μια έκδοση του AlexNet για να μοντελοποιήσουν την κοιλιακή οπτική ροή των μακάκων και κατάλαβαν τις αντιστοιχίες μεταξύ των τεχνητών μονάδων νευρώνων και των νευρικών θέσεων στην περιοχή V4 των πιθήκων. Στη συνέχεια, χρησιμοποιώντας το υπολογιστικό μοντέλο, συνέθεσαν εικόνες που προέβλεπαν ότι θα προκαλούσαν αφύσικα υψηλά επίπεδα δραστηριότητας στους νευρώνες των πιθήκων. Σε ένα πείραμα, όταν αυτές οι «αφύσικες» εικόνες παρουσιάστηκαν σε πιθήκους, αύξησαν τη δραστηριότητα του 68% των νευρικών θέσεων πέρα από τα συνηθισμένα τους επίπεδα. Σε ένα άλλο, οι εικόνες αύξησαν τη δραστηριότητα σε έναν νευρώνα ενώ την κατέστειλαν σε κοντινούς νευρώνες. Και τα δύο αποτελέσματα προβλέφθηκαν από το μοντέλο νευρωνικού δικτύου.

Για τους ερευνητές, αυτά τα αποτελέσματα υποδηλώνουν ότι τα βαθιά δίχτυα γενικεύονται στον εγκέφαλο και δεν είναι εντελώς ακατανόητα. «Ωστόσο, αναγνωρίζουμε ότι … πολλές άλλες έννοιες της «κατανόησης» πρέπει να διερευνηθούν για να δούμε αν και πώς αυτά τα μοντέλα προσθέτουν αξία», έγραψαν.

Οι συγκλίσεις στη δομή και την απόδοση μεταξύ των βαθιών διχτυών και των εγκεφάλων δεν σημαίνουν απαραίτητα ότι λειτουργούν με τον ίδιο τρόπο. υπάρχουν τρόποι με τους οποίους αποδεδειγμένα δεν το κάνουν. Ωστόσο, μπορεί να υπάρχουν αρκετές ομοιότητες και για τους δύο τύπους συστημάτων για να ακολουθούν τις ίδιες γενικές αρχές.

Περιορισμοί των μοντέλων

Ο McDermott βλέπει πιθανή θεραπευτική αξία σε αυτές τις μελέτες σε βάθος. Σήμερα, όταν οι άνθρωποι χάνουν την ακοή, συνήθως οφείλεται σε αλλαγές στο αυτί. Το ακουστικό σύστημα του εγκεφάλου πρέπει να αντιμετωπίσει την εξασθενημένη είσοδο. "Επομένως, αν είχαμε καλά μοντέλα για το τι έκανε το υπόλοιπο ακουστικό σύστημα, θα είχαμε καλύτερη ιδέα για το τι πρέπει να κάνουμε για να βοηθήσουμε πραγματικά τους ανθρώπους να ακούν καλύτερα", είπε ο McDermott.

Ωστόσο, ο McDermott είναι προσεκτικός σχετικά με το τι μπορούν να προσφέρουν τα βαθιά δίχτυα. "Πιέσαμε πολύ σκληρά για να προσπαθήσουμε να κατανοήσουμε τους περιορισμούς των νευρωνικών δικτύων ως μοντέλα", είπε.

Σε μια εντυπωσιακή επίδειξη αυτών των περιορισμών, η μεταπτυχιακή φοιτήτρια Jenelle Feather και άλλοι στο εργαστήριο του McDermott εστίασαν στα μεταμερή, τα οποία είναι φυσικά διακριτά σήματα εισόδου που παράγουν την ίδια αναπαράσταση σε ένα σύστημα. Δύο μεταμερή ήχου, για παράδειγμα, έχουν διαφορετικές μορφές κυμάτων αλλά ακούγονται το ίδιο σε έναν άνθρωπο. Χρησιμοποιώντας ένα μοντέλο του ακουστικού συστήματος σε βάθος δικτύου, η ομάδα σχεδίασε μεταμερή φυσικών ηχητικών σημάτων. Αυτά τα μεταμερή ενεργοποίησαν διαφορετικά στάδια του νευρωνικού δικτύου με τον ίδιο τρόπο που έκαναν τα ηχητικά κλιπ. Εάν το νευρωνικό δίκτυο μοντελοποίησε με ακρίβεια το ανθρώπινο ακουστικό σύστημα, τότε και τα μεταμερή θα πρέπει να ακούγονται το ίδιο.

Αλλά δεν είναι αυτό που συνέβη. Οι άνθρωποι αναγνώρισαν τα μεταμερή που παρήγαγαν την ίδια ενεργοποίηση με τα αντίστοιχα ηχητικά κλιπ στα αρχικά στάδια του νευρωνικού δικτύου. Ωστόσο, αυτό δεν ίσχυε για τα μεταμερή με αντίστοιχες ενεργοποιήσεις στα βαθύτερα στάδια του δικτύου:αυτά τα μεταμερή ακούγονταν σαν θόρυβος στους ανθρώπους. "Έτσι, παρόλο που υπό ορισμένες συνθήκες αυτού του είδους τα μοντέλα κάνουν πολύ καλή δουλειά στην αναπαραγωγή της ανθρώπινης συμπεριφοράς, υπάρχει κάτι που είναι πολύ λάθος σε αυτά", είπε ο McDermott.

Στο Stanford, ο Yamins διερευνά τρόπους με τους οποίους αυτά τα μοντέλα δεν είναι ακόμη αντιπροσωπευτικά του εγκεφάλου. Για παράδειγμα, πολλά από αυτά τα μοντέλα χρειάζονται πολλά δεδομένα με ετικέτα για εκπαίδευση, ενώ ο εγκέφαλός μας μπορεί να μάθει αβίαστα από ένα μόνο παράδειγμα. Γίνονται προσπάθειες για την ανάπτυξη μη εποπτευόμενων βαθιών διχτυών που μπορούν να μάθουν εξίσου αποτελεσματικά. Τα βαθιά δίχτυα μαθαίνουν επίσης χρησιμοποιώντας έναν αλγόριθμο που ονομάζεται αντίστροφη διάδοση, ο οποίος οι περισσότεροι νευροεπιστήμονες πιστεύουν ότι δεν μπορεί να λειτουργήσει σε πραγματικό νευρικό ιστό επειδή δεν έχει τις κατάλληλες συνδέσεις. "Υπήρξε κάποια μεγάλη πρόοδος όσον αφορά τους κάπως πιο εύλογους βιολογικά κανόνες μάθησης που λειτουργούν πραγματικά", είπε ο Yamins.

Ο Josh Tenenbaum, ένας γνωστικός νευροεπιστήμονας στο MIT, είπε ότι, ενώ όλα αυτά τα μοντέλα με βαθιά δίκτυα είναι «πραγματικά βήματα προόδου», κάνουν κυρίως εργασίες ταξινόμησης ή κατηγοριοποίησης. Ο εγκέφαλός μας, ωστόσο, κάνει πολύ περισσότερα από το να κατηγοριοποιεί τι υπάρχει εκεί έξω. Το σύστημα όρασής μας μπορεί να κατανοήσει τη γεωμετρία των επιφανειών και την τρισδιάστατη δομή μιας σκηνής και μπορεί να αιτιολογήσει τους υποκείμενους αιτιολογικούς παράγοντες — για παράδειγμα, μπορεί να συμπεράνει σε πραγματικό χρόνο ότι ένα δέντρο έχει εξαφανιστεί μόνο επειδή ένα αυτοκίνητο έχει περάσει μπροστά από αυτό.

Για να κατανοήσει αυτή την ικανότητα του εγκεφάλου, ο Ilker Yildirim, πρώην στο MIT και τώρα στο Πανεπιστήμιο Yale, συνεργάστηκε με τον Tenenbaum και τους συναδέλφους του για να δημιουργήσουν κάτι που ονομάζεται αποτελεσματικό μοντέλο αντίστροφης γραφικών. Ξεκινά με παραμέτρους που περιγράφουν ένα πρόσωπο που πρέπει να αποδοθεί σε φόντο, όπως το σχήμα του, η υφή του, η κατεύθυνση του φωτισμού, η στάση του κεφαλιού και ούτω καθεξής. Ένα πρόγραμμα γραφικών υπολογιστή που ονομάζεται παραγωγικό μοντέλο δημιουργεί μια τρισδιάστατη σκηνή από τις παραμέτρους. Στη συνέχεια, μετά από διάφορα στάδια επεξεργασίας, παράγει μια 2D εικόνα αυτής της σκηνής όπως φαίνεται από μια συγκεκριμένη θέση. Χρησιμοποιώντας τα δεδομένα 3D και 2D από το παραγωγικό μοντέλο, οι ερευνητές εκπαίδευσαν μια τροποποιημένη έκδοση του AlexNet για να προβλέψουν τις πιθανές παραμέτρους μιας τρισδιάστατης σκηνής από μια άγνωστη 2D εικόνα. "Το σύστημα μαθαίνει να πηγαίνει προς τα πίσω από το αποτέλεσμα στην αιτία, από τη δισδιάστατη εικόνα στην τρισδιάστατη σκηνή που την παρήγαγε", είπε ο Tenenbaum.

Η ομάδα δοκίμασε το μοντέλο της επαληθεύοντας τις προβλέψεις της σχετικά με τη δραστηριότητα στον κατώτερο κροταφικό φλοιό των μακάκων ρέζους. Παρουσίασαν μακάκους με 175 εικόνες, που δείχνουν 25 άτομα σε επτά στάσεις και κατέγραψαν τις νευρικές υπογραφές από «μπαλώματα προσώπου», περιοχές οπτικής επεξεργασίας που ειδικεύονται στην αναγνώριση προσώπου. Έδειξαν επίσης τις εικόνες στο δίκτυό τους βαθιάς μάθησης. Στο δίκτυο, η ενεργοποίηση των τεχνητών νευρώνων στο πρώτο στρώμα αντιπροσωπεύει τη 2D εικόνα και η ενεργοποίηση στο τελευταίο στρώμα αντιπροσωπεύει τις τρισδιάστατες παραμέτρους. «Στην πορεία, περνάει από ένα σωρό μετασχηματισμούς, οι οποίοι φαίνεται ότι βασικά σας μεταφέρουν από 2D σε 3D», είπε ο Tenenbaum. Διαπίστωσαν ότι τα τρία τελευταία στρώματα του δικτύου αντιστοιχούσαν εξαιρετικά καλά στα τρία τελευταία στρώματα του δικτύου επεξεργασίας προσώπου των μακάκων.

Αυτό υποδηλώνει ότι οι εγκέφαλοι χρησιμοποιούν συνδυασμούς μοντέλων παραγωγής και αναγνώρισης όχι μόνο για να αναγνωρίσουν και να χαρακτηρίσουν αντικείμενα, αλλά για να συμπεράνουν τις αιτιακές δομές που είναι εγγενείς στις σκηνές, όλα σε μια στιγμή. Ο Tenenbaum αναγνωρίζει ότι το μοντέλο τους δεν αποδεικνύει ότι ο εγκέφαλος λειτουργεί με αυτόν τον τρόπο. «Αλλά ανοίγει την πόρτα για να τεθούν αυτές οι ερωτήσεις με έναν πιο λεπτομερή μηχανιστικό τρόπο», είπε. "Θα έπρεπε να είναι ... κίνητρο να το περάσουμε."

Σημείωση του συντάκτη:Ο Daniel Yamins και ο James DiCarlo λαμβάνουν ερευνητική χρηματοδότηση από τη Simons Collaboration on the Global Brain, η οποία αποτελεί μέρος του Simons Foundation, του οργανισμού που χρηματοδοτεί επίσης αυτό το εκδοτικά ανεξάρτητο περιοδικό. Οι αποφάσεις χρηματοδότησης του Ιδρύματος Simons δεν έχουν καμία σχέση με το Κάλυψη Quanta. Δείτε αυτήν τη σελίδα για περισσότερες λεπτομέρειες.

Αυτό το άρθρο ανατυπώθηκε στο Wired.com και στα ιταλικά στο le Scienze.

Τα βαθιά νευρωνικά δίκτυα βοηθούν στην εξήγηση των ζωντανών εγκεφάλων

Deep Nets and Vision

Ειδική για ήχους

Στρώματα αρωμάτων

Όχι μόνο μαύρα κουτιά

Περιορισμοί των μοντέλων

Γιατί οι ελέφαντες έχουν τόσο μεγάλη μνήμη;

Ποια είναι η διαφορά μεταξύ της δέσμευσης αζώτου και της νιτροποίησης

Γενετική διαφορά μεταξύ ανθρώπων και χιμπατζήδων