Η μηχανική μάθηση αποκαλύπτει την κρυμμένη φυσική:Μια νέα εποχή επιστημονικής ανακάλυψης

Εισαγωγή

Το 2017, ο Roger Guimerà και η Marta Sales-Pardo ανακάλυψαν μια αιτία κυτταρικής διαίρεσης, τη διαδικασία που οδηγεί την ανάπτυξη των ζωντανών όντων. Αλλά δεν μπόρεσαν να αποκαλύψουν αμέσως πώς έμαθαν την απάντηση. Οι ερευνητές δεν είχαν εντοπίσει οι ίδιοι το κρίσιμο μοτίβο στα δεδομένα τους. Μάλλον, μια αδημοσίευτη εφεύρεση τους - ένας ψηφιακός βοηθός που αποκαλούσαν «επιστήμονα μηχανών» - τους την είχε παραδώσει. Όταν γράφει το αποτέλεσμα, ο Guimerà θυμάται ότι σκέφτηκε:"Δεν μπορούμε να πούμε ότι το τροφοδοτήσαμε σε έναν αλγόριθμο και αυτή είναι η απάντηση. Κανένας κριτικός δεν πρόκειται να το δεχτεί."

Το δίδυμο, που είναι συνεργάτες στη ζωή αλλά και στην έρευνα, είχε συνεργαστεί με τον βιοφυσικό Xavier Trepat του Ινστιτούτου Βιομηχανικής της Καταλονίας, πρώην συμμαθητή του, για να εντοπίσουν ποιοι παράγοντες μπορεί να πυροδοτήσουν την κυτταρική διαίρεση. Πολλοί βιολόγοι πίστευαν ότι η διαίρεση επέρχεται όταν ένα κύτταρο υπερβαίνει απλώς ένα ορισμένο μέγεθος, αλλά ο Trepat υποψιάστηκε ότι η ιστορία είχε περισσότερα. Η ομάδα του ειδικεύτηκε στην αποκρυπτογράφηση των αποτυπωμάτων νανοκλίμακας που αφήνουν τα κοπάδια κυττάρων σε μια μαλακή επιφάνεια καθώς κινούνται για τη θέση τους. Η ομάδα του Trepat είχε συγκεντρώσει ένα εξαντλητικό σύνολο δεδομένων που καταγράφει σχήματα, δυνάμεις και μια ντουζίνα άλλα κυτταρικά χαρακτηριστικά. Αλλά η δοκιμή όλων των τρόπων με τους οποίους αυτά τα χαρακτηριστικά θα μπορούσαν να επηρεάσουν την κυτταρική διαίρεση θα χρειαζόταν μια ζωή.

Αντίθετα, συνεργάστηκαν με τον Guimerà και τον Sales-Pardo για να τροφοδοτήσουν τα δεδομένα στον επιστήμονα μηχανών. Μέσα σε λίγα λεπτά επέστρεψε μια συνοπτική εξίσωση που προέβλεπε πότε ένα κελί θα διαιρούνταν 10 φορές με μεγαλύτερη ακρίβεια από μια εξίσωση που χρησιμοποιούσε μόνο το μέγεθος ενός κελιού ή οποιοδήποτε άλλο μεμονωμένο χαρακτηριστικό. Αυτό που έχει σημασία, σύμφωνα με τον επιστήμονα μηχανών, είναι το μέγεθος πολλαπλασιασμένο με το πόσο σκληρά πιέζεται ένα κύτταρο από τους γείτονές του — μια ποσότητα που έχει μονάδες ενέργειας.

«Μπορούσε να βρει κάτι που δεν ήμασταν», είπε ο Trepat, ο οποίος, μαζί με τον Guimerà, είναι μέλος του ICREA, του Καταλανικού Ινστιτούτου Έρευνας και Προηγμένων Σπουδών.

Επειδή οι ερευνητές δεν είχαν ακόμη δημοσιεύσει τίποτα για τον επιστήμονα μηχανών, έκαναν μια δεύτερη ανάλυση για να καλύψουν τα ίχνη του. Δοκίμασαν χειροκίνητα εκατοντάδες ζεύγη μεταβλητών, «ανεξάρτητα από … τη φυσική ή βιολογική τους σημασία», όπως θα έγραφαν αργότερα. Από το σχεδιασμό, αυτό ανέκτησε την απάντηση του επιστήμονα της μηχανής, την οποία ανέφεραν το 2018 στο Nature Cell Biology .

Τέσσερα χρόνια αργότερα, αυτή η άβολη κατάσταση γίνεται γρήγορα μια αποδεκτή μέθοδος επιστημονικής ανακάλυψης. Οι Sales-Pardo και Guimerà συγκαταλέγονται σε μια χούφτα ερευνητών που αναπτύσσουν την τελευταία γενιά εργαλείων ικανών για μια διαδικασία γνωστή ως συμβολική παλινδρόμηση.

Οι αλγόριθμοι συμβολικής παλινδρόμησης διαφέρουν από τα βαθιά νευρωνικά δίκτυα, τους διάσημους αλγόριθμους τεχνητής νοημοσύνης που μπορούν να πάρουν χιλιάδες pixel, να τους αφήσουν να διεισδύσουν σε έναν λαβύρινθο εκατομμυρίων κόμβων και να εξάγουν τη λέξη «σκύλος» μέσω αδιαφανών μηχανισμών. Η συμβολική παλινδρόμηση προσδιορίζει ομοίως τις σχέσεις σε πολύπλοκα σύνολα δεδομένων, αλλά αναφέρει τα ευρήματα σε μια μορφή που μπορούν να κατανοήσουν οι ανθρώπινοι ερευνητές:μια σύντομη εξίσωση. Αυτοί οι αλγόριθμοι μοιάζουν με υπερτροφοδοτημένες εκδόσεις της συνάρτησης προσαρμογής καμπύλης του Excel, εκτός από το ότι δεν αναζητούν μόνο γραμμές ή παραβολές για να χωρέσουν ένα σύνολο σημείων δεδομένων, αλλά δισεκατομμύρια τύπους κάθε είδους. Με αυτόν τον τρόπο, ο επιστήμονας της μηχανής θα μπορούσε να δώσει στους ανθρώπους μια εικόνα για το γιατί τα κύτταρα διαιρούνται, ενώ ένα νευρωνικό δίκτυο θα μπορούσε να προβλέψει μόνο πότε το κάνουν.

Οι ερευνητές έχουν ασχοληθεί με τέτοιους επιστήμονες μηχανών για δεκαετίες, παρακινώντας τους προσεκτικά να ανακαλύψουν εκ νέου τους νόμους της φύσης στα σχολικά βιβλία από ευκρινή σύνολα δεδομένων που είναι διατεταγμένα για να κάνουν τα μοτίβα να αναδυθούν. Όμως τα τελευταία χρόνια οι αλγόριθμοι έχουν ωριμάσει αρκετά ώστε να ανακαλύπτουν ανεξερεύνητες σχέσεις σε πραγματικά δεδομένα - από τον τρόπο με τον οποίο οι αναταράξεις επηρεάζουν την ατμόσφαιρα μέχρι το πώς συσπειρώνεται η σκοτεινή ύλη. «Δεν υπάρχει αμφιβολία για αυτό», είπε ο Hod Lipson, ένας ρομποτικός στο Πανεπιστήμιο Columbia που ξεκίνησε τη μελέτη της συμβολικής παλινδρόμησης πριν από 13 χρόνια. "Ολόκληρο το πεδίο προχωρά."

Η άνοδος των επιστημόνων της μηχανής

Περιστασιακά οι φυσικοί φτάνουν σε μεγάλες αλήθειες μέσω καθαρού συλλογισμού, όπως όταν ο Άλμπερτ Αϊνστάιν διαισθάθηκε την ευκαμψία του χώρου και του χρόνου φανταζόμενος μια δέσμη φωτός από την οπτική γωνία μιας άλλης δέσμης φωτός. Τις περισσότερες φορές, ωστόσο, οι θεωρίες γεννιούνται από μαραθώνιες συνεδρίες συλλογής δεδομένων. Αφού πέθανε ο αστρονόμος του 16ου αιώνα, Tycho Brahe, ο Johannes Kepler πήρε στα χέρια του τις ουράνιες παρατηρήσεις στα σημειωματάρια του Brahe. Ο Κέπλερ χρειάστηκε τέσσερα χρόνια για να προσδιορίσει ότι ο Άρης διαγράφει μια έλλειψη στον ουρανό και όχι τα δεκάδες άλλα σχήματα που μοιάζουν με αυγά. Ακολούθησε αυτόν τον «πρώτο νόμο» με δύο ακόμη σχέσεις που αποκαλύφθηκαν μέσω υπολογισμών ωμής βίας. Αυτές οι κανονικότητες αργότερα θα κατευθύνουν τον Ισαάκ Νεύτωνα προς τον νόμο της παγκόσμιας έλξης.

Ο στόχος της συμβολικής παλινδρόμησης είναι η επιτάχυνση τέτοιων δοκιμών και σφαλμάτων Keplerian, σαρώνοντας τους αμέτρητους τρόπους σύνδεσης μεταβλητών με βασικές μαθηματικές πράξεις για να βρεθεί η εξίσωση που προβλέπει με μεγαλύτερη ακρίβεια τη συμπεριφορά ενός συστήματος.

Το πρώτο πρόγραμμα που σημείωσε σημαντική πρόοδο σε αυτό, που ονομάζεται BACON, αναπτύχθηκε στα τέλη της δεκαετίας του 1970 από τον Patrick Langley, έναν γνωστικό επιστήμονα και ερευνητή τεχνητής νοημοσύνης τότε στο Πανεπιστήμιο Carnegie Mellon. Το ΜΠΕΚΟΝ θα έπαιρνε, ας πούμε, μια στήλη περιόδων τροχιάς και μια στήλη τροχιακών αποστάσεων για διαφορετικούς πλανήτες. Στη συνέχεια θα συνδύαζε συστηματικά τα δεδομένα με διαφορετικούς τρόπους:περίοδος διαιρούμενη με απόσταση, περίοδος τετραγώνου επί απόστασης κ.λπ. Μπορεί να σταματήσει αν βρήκε μια σταθερή τιμή, για παράδειγμα αν η περίοδος στο τετράγωνο της απόστασης σε κύβους έδινε πάντα τον ίδιο αριθμό, που είναι ο τρίτος νόμος του Κέπλερ. Μια σταθερά υπονοούσε ότι είχε προσδιορίσει δύο αναλογικές ποσότητες — σε αυτή την περίπτωση, το τετράγωνο της περιόδου και την απόσταση σε κύβους. Με άλλα λόγια, σταμάτησε όταν βρήκε μια εξίσωση.

Παρά την εκ νέου ανακάλυψη του τρίτου νόμου του Κέπλερ και άλλων κλασικών βιβλίων, ο Μπέικον παρέμεινε κάτι σαν περιέργεια σε μια εποχή περιορισμένης υπολογιστικής ισχύος. Οι ερευνητές έπρεπε ακόμα να αναλύσουν τα περισσότερα σύνολα δεδομένων με το χέρι ή τελικά με λογισμικό παρόμοιο με το Excel που βρήκε την καλύτερη εφαρμογή για ένα απλό σύνολο δεδομένων όταν τους δόθηκε μια συγκεκριμένη κατηγορία εξίσωσης. Η ιδέα ότι ένας αλγόριθμος θα μπορούσε να βρει το σωστό μοντέλο για την περιγραφή οποιουδήποτε συνόλου δεδομένων παρέμενε αδρανής μέχρι το 2009, όταν οι Lipson και Michael Schmidt, ρομποτικοί τότε στο Πανεπιστήμιο Cornell, ανέπτυξαν έναν αλγόριθμο που ονομάζεται Eureqa.

Ο κύριος στόχος τους ήταν να κατασκευάσουν ένα μηχάνημα που θα μπορούσε να συνθέσει εκτεταμένα σύνολα δεδομένων με στήλες μετά από στήλη μεταβλητών σε μια εξίσωση που να περιλαμβάνει τις λίγες μεταβλητές που έχουν πραγματικά σημασία. «Η εξίσωση μπορεί να καταλήξει να έχει τέσσερις μεταβλητές, αλλά δεν ξέρεις εκ των προτέρων ποιες», είπε ο Lipson. "Του πετάς τα πάντα και τον νεροχύτη της κουζίνας. Ίσως ο καιρός είναι σημαντικός. Ίσως ο αριθμός των οδοντιάτρων ανά τετραγωνικό μίλι είναι σημαντικός."

Ένα επίμονο εμπόδιο για τη διαμάχη πολλών μεταβλητών ήταν η εύρεση ενός αποτελεσματικού τρόπου για να μαντέψεις νέες εξισώσεις ξανά και ξανά. Οι ερευνητές λένε ότι χρειάζεστε επίσης την ευελιξία για να δοκιμάσετε (και να ανακάμψετε από) πιθανά αδιέξοδα. Όταν ο αλγόριθμος μπορεί να μεταπηδήσει από μια γραμμή σε μια παραβολή ή να προσθέσει έναν ημιτονοειδές κυματισμό, η ικανότητά του να χτυπήσει όσο το δυνατόν περισσότερα σημεία δεδομένων μπορεί να χειροτερέψει προτού βελτιωθεί. Για να ξεπεράσουν αυτή και άλλες προκλήσεις, οι επιστήμονες υπολογιστών άρχισαν να χρησιμοποιούν «γενετικούς αλγόριθμους», οι οποίοι εισάγουν τυχαίες «μεταλλαγές» στις εξισώσεις και δοκιμάζουν τις μεταλλαγμένες εξισώσεις έναντι των δεδομένων. Σε πολλές δοκιμές, οι αρχικά άχρηστες λειτουργίες είτε εξελίσσονται σε ισχυρή λειτουργικότητα είτε μαραίνονται.

Ο Lipson και ο Schmidt πήγαν την τεχνική στο επόμενο επίπεδο, ενισχύοντας την πίεση του Δαρβίνου δημιουργώντας τον ανταγωνισμό head-to-head στο Eureqa. Από τη μια πλευρά, δημιούργησαν εξισώσεις. Από την άλλη, τυχαιοποίησαν σε ποια σημεία δεδομένων έπρεπε να δοκιμάσουν τις εξισώσεις — με τα «καταλληλότερα» σημεία να είναι εκείνα που αμφισβήτησαν περισσότερο τις εξισώσεις. "Για να πετύχετε έναν αγώνα εξοπλισμών, πρέπει να δημιουργήσετε δύο εξελισσόμενα πράγματα, όχι μόνο ένα", είπε ο Lipson.

Ο αλγόριθμος Eureqa θα μπορούσε να συμπυκνώσει σύνολα δεδομένων που περιλαμβάνουν περισσότερες από δώδεκα μεταβλητές. Θα μπορούσε να ανακτήσει με επιτυχία προηγμένες εξισώσεις, όπως αυτές που περιγράφουν την κίνηση ενός εκκρεμούς που κρέμεται από ένα άλλο.

Merrill Sherman/Quanta Magazine

Εν τω μεταξύ, άλλοι ερευνητές έβρισκαν κόλπα για την εκπαίδευση των βαθιών νευρωνικών δικτύων. Μέχρι το 2011, είχαν τεράστια επιτυχία στο να μάθουν να ξεχωρίζουν τους σκύλους από τις γάτες και να εκτελούν αμέτρητες άλλες πολύπλοκες εργασίες. Αλλά ένα εκπαιδευμένο νευρωνικό δίκτυο αποτελείται από εκατομμύρια «νευρώνες» με αριθμητική αξία, οι οποίοι δεν λένε τίποτα για τα χαρακτηριστικά που έχουν μάθει να αναγνωρίζουν. Από την πλευρά του, το Eureqa θα μπορούσε να κοινοποιήσει τα ευρήματά του σε ανθρώπινη ομιλία:μαθηματικές πράξεις φυσικών μεταβλητών.

Όταν η Sales-Pardo έπαιξε με την Eureqa για πρώτη φορά, έμεινε έκπληκτη. «Νόμιζα ότι ήταν αδύνατο», είπε. "Αυτό είναι μαγικό. Πώς θα μπορούσαν να το κάνουν αυτοί οι άνθρωποι;" Αυτή και ο Guimerà σύντομα άρχισαν να χρησιμοποιούν το Eureqa για να κατασκευάζουν μοντέλα για τη δική τους έρευνα σε δίκτυα, αλλά ένιωσαν ταυτόχρονα εντυπωσιασμένοι με τη δύναμή του και απογοητευμένοι με την ασυνέπειά του. Ο αλγόριθμος θα ανέπτυξε προγνωστικές εξισώσεις, αλλά στη συνέχεια θα μπορούσε να υπερβεί και να προσγειωθεί σε μια εξίσωση που ήταν πολύ περίπλοκη. Ή οι ερευνητές θα τροποποιούσαν ελαφρώς τα δεδομένα τους και το Eureqa θα επέστρεφε έναν εντελώς διαφορετικό τύπο. Οι Sales-Pardo και Guimerà ξεκίνησαν να σχεδιάσουν έναν νέο επιστήμονα μηχανών από την αρχή.

Ένας βαθμός συμπίεσης

Το πρόβλημα με τους γενετικούς αλγόριθμους, όπως το έβλεπαν, ήταν ότι βασίζονταν πάρα πολύ στα γούστα των δημιουργών τους. Οι προγραμματιστές πρέπει να δώσουν οδηγίες στον αλγόριθμο να εξισορροπήσει την απλότητα με την ακρίβεια. Μια εξίσωση μπορεί πάντα να χτυπήσει περισσότερα σημεία σε ένα σύνολο δεδομένων έχοντας επιπλέον όρους. Αλλά ορισμένα απομακρυσμένα σημεία είναι απλά θορυβώδη και καλύτερα να αγνοηθούν. Κάποιος θα μπορούσε να ορίσει την απλότητα ως το μήκος της εξίσωσης, ας πούμε, και την ακρίβεια ως το πόσο πλησιάζει η καμπύλη σε κάθε σημείο του συνόλου δεδομένων, αλλά αυτοί είναι μόνο δύο ορισμοί από μια σειρά επιλογών.

Οι Sales-Pardo και Guimerà, μαζί με τους συνεργάτες, άντλησαν την τεχνογνωσία στη φυσική και τη στατιστική για να αναδιατυπώσουν την εξελικτική διαδικασία με όρους ενός πλαισίου πιθανοτήτων γνωστό ως Bayesian theory. Ξεκίνησαν κατεβάζοντας όλες τις εξισώσεις στη Wikipedia. Στη συνέχεια ανέλυσαν στατιστικά αυτές τις εξισώσεις για να δουν ποιοι τύποι είναι πιο συνηθισμένοι. Αυτό τους επέτρεψε να διασφαλίσουν ότι οι αρχικές εικασίες του αλγόριθμου θα ήταν απλές – καθιστώντας πιο πιθανό να δοκιμάσουν ένα πρόσημο συν από ένα υπερβολικό συνημίτονο, για παράδειγμα. Στη συνέχεια, ο αλγόριθμος δημιούργησε παραλλαγές των εξισώσεων χρησιμοποιώντας μια μέθοδο τυχαίας δειγματοληψίας που έχει αποδειχθεί μαθηματικά ότι εξερευνά κάθε γωνιά στο μαθηματικό τοπίο.

Σε κάθε βήμα, ο αλγόριθμος αξιολόγησε τις υποψήφιες εξισώσεις ως προς το πόσο καλά μπορούσαν να συμπιέσουν ένα σύνολο δεδομένων. Για παράδειγμα, ένας τυχαίος σωρός σημείων δεν μπορεί να συμπιεστεί καθόλου. πρέπει να γνωρίζετε τη θέση κάθε κουκκίδας. Αλλά αν 1.000 κουκκίδες πέφτουν σε μια ευθεία γραμμή, μπορούν να συμπιεστούν σε δύο μόνο αριθμούς (την κλίση και το ύψος της γραμμής). Ο βαθμός συμπίεσης, διαπίστωσε το ζευγάρι, έδωσε έναν μοναδικό και απρόσβλητο τρόπο σύγκρισης υποψηφίων εξισώσεων. «Μπορείτε να αποδείξετε ότι το σωστό μοντέλο είναι αυτό που συμπιέζει τα δεδομένα περισσότερο», είπε ο Guimerà. "Δεν υπάρχει καμία αυθαιρεσία εδώ."

Μετά από χρόνια ανάπτυξης — και κρυφή χρήση του αλγορίθμου τους για να καταλάβουν τι πυροδοτεί την κυτταρική διαίρεση — αυτοί και οι συνάδελφοί τους περιέγραψαν τον «Bayesian machine scientist» στο Science Advances το 2020.

Ωκεανοί δεδομένων

Από τότε, οι ερευνητές χρησιμοποίησαν τον επιστήμονα μηχανών Bayes για να βελτιώσουν την εξίσωση αιχμής για την πρόβλεψη της κατανάλωσης ενέργειας μιας χώρας, ενώ μια άλλη ομάδα τη χρησιμοποίησε για να βοηθήσει στη μοντελοποίηση της διήθησης μέσω ενός δικτύου. Ωστόσο, οι προγραμματιστές αναμένουν ότι αυτού του είδους οι αλγόριθμοι θα διαδραματίσουν τεράστιο ρόλο στη βιολογική έρευνα όπως αυτή του Trepat, όπου οι επιστήμονες πνίγονται όλο και περισσότερο σε δεδομένα.

Οι επιστήμονες μηχανών βοηθούν επίσης τους φυσικούς να κατανοήσουν συστήματα που εκτείνονται σε πολλές κλίμακες. Οι φυσικοί συνήθως χρησιμοποιούν ένα σύνολο εξισώσεων για τα άτομα και ένα εντελώς διαφορετικό σύνολο για τις μπάλες του μπιλιάρδου, αλλά αυτή η αποσπασματική προσέγγιση δεν λειτουργεί για ερευνητές σε έναν κλάδο όπως η κλιματική επιστήμη, όπου ρεύματα μικρής κλίμακας γύρω από το Μανχάταν τροφοδοτούν το ρεύμα κόλπου του Ατλαντικού Ωκεανού.

Μια τέτοια ερευνήτρια είναι η Laure Zanna του Πανεπιστημίου της Νέας Υόρκης. Στη δουλειά της που διαμορφώνει τις ωκεάνιες αναταράξεις, συχνά βρίσκεται εγκλωβισμένη ανάμεσα σε δύο άκρα:Οι υπερυπολογιστές μπορούν να προσομοιώσουν είτε δίνες μεγέθους πόλης είτε διηπειρωτικά ρεύματα, αλλά όχι και τις δύο κλίμακες ταυτόχρονα. Η δουλειά της είναι να βοηθά τους υπολογιστές να δημιουργήσουν μια συνολική εικόνα που περιλαμβάνει τα αποτελέσματα μικρότερων στροβιλισμών χωρίς να τις προσομοιώνει απευθείας. Αρχικά, στράφηκε στα βαθιά νευρωνικά δίκτυα για να εξάγει τη συνολική επίδραση των προσομοιώσεων υψηλής ανάλυσης και να ενημερώσει τις πιο χονδρές προσομοιώσεις ανάλογα. «Ήταν καταπληκτικοί», είπε. "Αλλά είμαι φυσικός του κλίματος" - που σημαίνει ότι θέλει να καταλάβει πώς λειτουργεί το κλίμα με βάση μια χούφτα φυσικές αρχές όπως η πίεση και η θερμοκρασία - "άρα είναι πολύ δύσκολο να αγοράσεις και να είσαι ευχαριστημένος με χιλιάδες παραμέτρους."

Στη συνέχεια, συνάντησε έναν αλγόριθμο επιστήμονα μηχανών που επινοήθηκε από τους Steven Brunton, Joshua Proctor και Nathan Kutz, εφαρμοσμένους μαθηματικούς στο Πανεπιστήμιο της Ουάσιγκτον. Ο αλγόριθμός τους ακολουθεί μια προσέγγιση γνωστή ως αραιή παλινδρόμηση, η οποία μοιάζει σε πνεύμα με τη συμβολική παλινδρόμηση. Αντί να δημιουργήσει ένα battle royale ανάμεσα σε μεταλλαγμένες εξισώσεις, ξεκινά με μια βιβλιοθήκη με ίσως χίλιες συναρτήσεις όπως το x 2, x /(x − 1) και sin(x ). Ο αλγόριθμος αναζητά στη βιβλιοθήκη έναν συνδυασμό όρων που δίνει τις πιο ακριβείς προβλέψεις, διαγράφει τους λιγότερο χρήσιμους όρους και συνεχίζει μέχρι να καταλήξει σε μια χούφτα όρων. Η αστραπιαία διαδικασία μπορεί να χειριστεί περισσότερα δεδομένα από τους αλγόριθμους συμβολικής παλινδρόμησης, με το κόστος να έχει λιγότερο χώρο για εξερεύνηση, καθώς η τελική εξίσωση πρέπει να δημιουργηθεί με βάση όρους βιβλιοθήκης.

Η Zanna δημιούργησε ξανά τον αλγόριθμο αραιής παλινδρόμησης από την αρχή για να πάρει μια αίσθηση για το πώς λειτουργούσε και στη συνέχεια εφάρμοσε μια τροποποιημένη έκδοση σε μοντέλα ωκεανών. Όταν τροφοδότησε ταινίες υψηλής ανάλυσης και ζήτησε από τον αλγόριθμο να αναζητήσει ακριβή σκίτσα με σμίκρυνση, επέστρεψε μια συνοπτική εξίσωση που αφορούσε τη δίνη και τον τρόπο με τον οποίο τα υγρά τεντώνονται και διατμούνται. Όταν το τροφοδότησε αυτό στο μοντέλο της μεγάλης κλίμακας ροής ρευστού, είδε την αλλαγή της ροής ως συνάρτηση της ενέργειας πολύ πιο ρεαλιστικά από πριν.

"Ο αλγόριθμος χρησιμοποιήθηκε με πρόσθετους όρους", είπε η Zanna, δημιουργώντας μια "όμορφη" εξίσωση που "αντιπροσωπεύει πραγματικά μερικές από τις βασικές ιδιότητες των ωκεάνιων ρευμάτων, τα οποία είναι τέντωμα, διάτμηση και [περιστροφή]."

Εξυπνότεροι Μαζί

Άλλες ομάδες δίνουν ώθηση στους επιστήμονες μηχανών συγχωνεύοντας τις δυνάμεις τους με αυτές των βαθιών νευρωνικών δικτύων.

Ο Miles Cranmer, ένας μεταπτυχιακός φοιτητής αστροφυσικής στο Πανεπιστήμιο του Πρίνστον, έχει αναπτύξει έναν αλγόριθμο συμβολικής παλινδρόμησης ανοιχτού κώδικα παρόμοιο με το Eureqa που ονομάζεται PySR. Δημιουργεί διαφορετικούς πληθυσμούς εξισώσεων σε ψηφιακά «νησιά» και επιτρέπει στις εξισώσεις που ταιριάζουν καλύτερα στα δεδομένα να μεταναστεύουν περιοδικά και να ανταγωνίζονται τους κατοίκους άλλων νησιών. Ο Cranmer συνεργάστηκε με επιστήμονες υπολογιστών στο DeepMind και στο NYU και αστροφυσικούς στο Flatiron Institute για να καταλήξουν σε ένα υβριδικό σχήμα όπου πρώτα εκπαιδεύουν ένα νευρωνικό δίκτυο για να ολοκληρώσουν μια εργασία και στη συνέχεια ζητούν από την PySR να βρει μια εξίσωση που να περιγράφει τι έχουν μάθει να κάνουν ορισμένα μέρη του νευρικού δικτύου.

Ως πρώιμη απόδειξη της ιδέας, η ομάδα εφάρμοσε τη διαδικασία σε μια προσομοίωση σκοτεινής ύλης και δημιούργησε έναν τύπο που δίνει την πυκνότητα στο κέντρο ενός νέφους σκοτεινής ύλης με βάση τις ιδιότητες των γειτονικών νεφών. Η εξίσωση ταιριάζει καλύτερα στα δεδομένα από την υπάρχουσα εξίσωση που έχει σχεδιαστεί από τον άνθρωπο.

Τον Φεβρουάριο, τροφοδότησαν το σύστημά τους με πραγματικές θέσεις 30 ετών των πλανητών και των φεγγαριών του ηλιακού συστήματος στον ουρανό. Ο αλγόριθμος παρέλειψε εντελώς τους νόμους του Κέπλερ, συνάγοντας απευθείας το νόμο της βαρύτητας του Νεύτωνα και τις μάζες των πλανητών και των φεγγαριών που θα εκκινήσουν. Άλλες ομάδες χρησιμοποίησαν πρόσφατα το PySR για να ανακαλύψουν εξισώσεις που περιγράφουν χαρακτηριστικά συγκρούσεων σωματιδίων, μια προσέγγιση του όγκου ενός κόμβου και τον τρόπο με τον οποίο τα σύννεφα σκοτεινής ύλης σμιλεύουν τους γαλαξίες στα κέντρα τους.

Από την αυξανόμενη ομάδα επιστημόνων μηχανών (ένα άλλο αξιοσημείωτο παράδειγμα είναι το «AI Feynman», που δημιουργήθηκε από τους Max Tegmark και Silviu-Marian Udrescu, φυσικούς στο Τεχνολογικό Ινστιτούτο της Μασαχουσέτης), οι ερευνητές του ανθρώπου λένε όσο περισσότερο τόσο το καλύτερο. «Χρειαζόμαστε πραγματικά όλες αυτές τις τεχνικές», είπε ο Kutz. "Δεν υπάρχει ούτε μία που να είναι μαγική σφαίρα."

Ο Kutz πιστεύει ότι οι επιστήμονες των μηχανών φέρνουν το πεδίο στο κατώφλι αυτού που αποκαλεί «GoPro physics», όπου οι ερευνητές απλώς θα στρέφουν μια κάμερα σε ένα γεγονός και θα λαμβάνουν πίσω μια εξίσωση που καταγράφει την ουσία του τι συμβαίνει. (Οι τρέχοντες αλγόριθμοι εξακολουθούν να χρειάζονται ανθρώπους για να τους τροφοδοτούν μια λίστα με πιθανές σχετικές μεταβλητές, όπως θέσεις και γωνίες.)

Αυτό είναι που ο Lipson εργάζεται τελευταία. Σε μια προεκτύπωση του Δεκεμβρίου, αυτός και οι συνεργάτες του περιέγραψαν μια διαδικασία κατά την οποία αρχικά εκπαίδευσαν ένα βαθύ νευρωνικό δίκτυο για να λαμβάνει μερικά καρέ ενός βίντεο και να προβλέπει τα επόμενα καρέ. Στη συνέχεια, η ομάδα μείωσε πόσες μεταβλητές επετράπη να χρησιμοποιήσει το νευρωνικό δίκτυο έως ότου οι προβλέψεις του άρχισαν να αποτυγχάνουν.

Ο αλγόριθμος ήταν σε θέση να υπολογίσει πόσες μεταβλητές χρειάζονταν για τη μοντελοποίηση τόσο απλών συστημάτων, όπως ένα εκκρεμές, όσο και περίπλοκων ρυθμίσεων, όπως το τρεμόπαιγμα μιας φωτιάς κατασκήνωσης — γλώσσες φλόγας χωρίς προφανείς μεταβλητές για παρακολούθηση.

«Δεν έχουμε ονόματα για αυτούς», είπε ο Λίπσον. "Είναι σαν τη φλόγα της φλόγας."

Η άκρη της (μηχανικής) επιστήμης

Οι επιστήμονες μηχανών δεν πρόκειται να υποκαταστήσουν τα βαθιά νευρωνικά δίκτυα, τα οποία λάμπουν σε συστήματα που είναι χαοτικά ή εξαιρετικά περίπλοκα. Κανείς δεν περιμένει να βρει μια εξίσωση για το catness και το dogness.

Ωστόσο, όταν πρόκειται για πλανήτες που περιστρέφονται γύρω από πλανήτες, σβήνουν υγρά και διαιρούν κύτταρα, οι συνοπτικές εξισώσεις που βασίζονται σε μια χούφτα πράξεων είναι απίστευτα ακριβείς. Είναι γεγονός ότι ο νομπελίστας Eugene Wigner αποκάλεσε «ένα υπέροχο δώρο που ούτε καταλαβαίνουμε ούτε αξίζουμε» στο δοκίμιό του του 1960 «Η παράλογη αποτελεσματικότητα των μαθηματικών στις φυσικές επιστήμες». Όπως το έθεσε ο Cranmer, "Αν κοιτάξετε οποιοδήποτε φύλλο εξισώσεων για μια εξέταση φυσικής, είναι όλες εξαιρετικά απλές αλγεβρικές εκφράσεις, αλλά έχουν εξαιρετικά καλή απόδοση."

Ο Cranmer και οι συνεργάτες του υποθέτουν ότι οι στοιχειώδεις πράξεις είναι τόσο υπερεπιτυχείς επειδή αντιπροσωπεύουν βασικές γεωμετρικές ενέργειες στο διάστημα, καθιστώντας τις μια φυσική γλώσσα για την περιγραφή της πραγματικότητας. Η πρόσθεση μετακινεί ένα αντικείμενο σε μια αριθμητική γραμμή. Και ο πολλαπλασιασμός μετατρέπει μια επίπεδη περιοχή σε όγκο 3D. Για αυτόν τον λόγο, υποψιάζονται, όταν μαντεύουμε εξισώσεις, το στοίχημα στην απλότητα έχει νόημα.

Ωστόσο, η υποβόσκουσα απλότητα του σύμπαντος δεν μπορεί να εγγυηθεί την επιτυχία.

Οι Guimerà και Sales-Pardo έχτισαν αρχικά τον μαθηματικά αυστηρό αλγόριθμό τους επειδή το Eureqa μερικές φορές έβρισκε πολύ διαφορετικές εξισώσεις για παρόμοιες εισροές. Προς απογοήτευσή τους, ωστόσο, διαπίστωσαν ότι ακόμη και ο Μπεϋζιανός επιστήμονας μηχανών τους επέστρεφε μερικές φορές πολλά εξίσου καλά μοντέλα για ένα δεδομένο σύνολο δεδομένων.

Ο λόγος, όπως έδειξε πρόσφατα το ζεύγος, είναι ψημένος στα ίδια τα δεδομένα. Χρησιμοποιώντας τον επιστήμονα μηχανών τους, εξερεύνησαν διάφορα σύνολα δεδομένων και διαπίστωσαν ότι εμπίπτουν σε δύο κατηγορίες:καθαρά και θορυβώδη. Σε καθαρότερα δεδομένα, ο επιστήμονας μηχανών μπορούσε πάντα να βρει την εξίσωση που παρήγαγε τα δεδομένα. Αλλά πάνω από ένα ορισμένο όριο θορύβου, δεν θα μπορούσε ποτέ. Με άλλα λόγια, τα θορυβώδη δεδομένα θα μπορούσαν να ταιριάζουν εξίσου καλά (ή άσχημα) με οποιονδήποτε αριθμό εξισώσεων. Και επειδή οι ερευνητές έχουν αποδείξει πιθανολογικά ότι ο αλγόριθμός τους βρίσκει πάντα την καλύτερη εξίσωση, γνωρίζουν ότι, όπου αποτυγχάνει, κανένας άλλος επιστήμονας — είτε είναι άνθρωπος είτε μηχανή — δεν μπορεί να πετύχει.

«Ανακαλύψαμε ότι αυτός είναι ένας θεμελιώδης περιορισμός», είπε ο Guimerà. "Για αυτό, χρειαζόμασταν τον επιστήμονα μηχανών."

Σημείωση του συντάκτη:Το Flatiron Institute χρηματοδοτείται από το Ίδρυμα Simons, το οποίο χρηματοδοτεί επίσης αυτό το εκδοτικά ανεξάρτητη δημοσίευση .

Διόρθωση: 10 Μαΐου 2022

Μια προηγούμενη έκδοση αυτού του άρθρου παρέλειψε τα ονόματα δύο συν-συγγραφέων ενός αλγορίθμου αραιής παλινδρόμησης που αναπτύχθηκε στο Πανεπιστήμιο της Ουάσιγκτον.

Διόρθωση: 19 Μαΐου 2022

Μια παλαιότερη έκδοση αυτού του άρθρου πιστώνει αποκλειστικά στον John Koza την ιδέα της χρήσης γενετικών αλγορίθμων για τη δημιουργία νέων εξισώσεων, ενώ στην πραγματικότητα αρκετοί επιστήμονες υπολογιστών συνέβαλαν στην ανάπτυξη της προσέγγισης.