Εξόρυξη για γαλαξίες ανάμεσα σε εκατομμύρια εικόνες γαλαξιών

Η εφεύρεση του τηλεσκοπίου είναι σαφώς το πιο σημαντικό ορόσημο στην έρευνα της αστρονομίας και η ικανότητα να βλέπει κανείς βαθύτερα στον νυχτερινό ουρανό επέτρεψε στους αστρονόμους να αποκτήσουν μια βαθιά κατανόηση των αστρονομικών φαινομένων. Για παράδειγμα, η παρατήρηση των φεγγαριών του Δία σε τροχιά γύρω από τον πλανήτη τους βοήθησε τον Γαλιλαίο να καταλάβει ότι η Γη περιφέρεται γύρω από τον Ήλιο.
Από την εποχή του Γαλιλαίου, τα τηλεσκόπια έχουν αλλάξει σημαντικά, βελτιώνοντας την ικανότητά τους να συλλέγουν φως και να βλέπουν πολύ βαθύτερα στο διάστημα. Εκτός από το μέγεθος και τη μεγέθυνσή τους, ορισμένα σύγχρονα τηλεσκόπια έχουν αλλάξει με διαφορετικό τρόπο – μετατράπηκαν σε ρομπότ. Αυτά τα ρομποτικά τηλεσκόπια σαρώνουν τον ουρανό αυτόνομα κάθε βράδυ, συλλέγοντας πληροφορίες για έναν τεράστιο αριθμό αστρονομικών αντικειμένων. Για παράδειγμα, το Sloan Digital Sky Survey (SDSS) ξεκίνησε το 2000 και κάλυψε το 35% ολόκληρου του ουρανού, συλλέγοντας πληροφορίες για περισσότερα από 500 εκατομμύρια αστρονομικά αντικείμενα. Αν και αυτό μπορεί να φαίνεται σαν πολλές πληροφορίες, το SDSS είναι, στην πραγματικότητα, μικροσκοπικό σε σύγκριση με πολύ πιο ισχυρά τηλεσκόπια που κατασκευάζονται αυτήν τη στιγμή. Για παράδειγμα, το Large Synoptic Survey Telescope (LSST), το οποίο αναμένεται να δει το πρώτο φως το 2022, θα συλλέγει τον ίδιο όγκο πληροφοριών που συλλέγει το SDSS – μία φορά κάθε τρεις ημέρες. Αναμένεται να λειτουργήσει για 10 χρόνια και θα δημιουργήσει τη μεγαλύτερη δημόσια βάση δεδομένων στον κόσμο.
Αυτά τα νέα αστρονομικά όργανα παρέχουν έναν εντελώς νέο τρόπο παρατήρησης του σύμπαντος, με ευκαιρίες για ανακαλύψεις που δεν ήταν ποτέ δυνατές πριν. Στην πραγματικότητα, μπορούμε πολύ εύλογα να υποθέσουμε ότι πολλές ανακαλύψεις υψίστου επιστημονικού ενδιαφέροντος είναι ήδη κρυμμένες μέσα στις μεγάλες βάσεις δεδομένων που δημιουργούνται από τα υπάρχοντα ρομποτικά τηλεσκόπια, και σίγουρα περισσότερες ανακαλύψεις θα παρατηρηθούν στο μέλλον καθώς τα ρομποτικά τηλεσκόπια γίνονται ακόμη πιο ισχυρά. Αλλά για να κάνουμε αυτές τις ανακαλύψεις, πρέπει πρώτα να είμαστε σε θέση να αναλύσουμε αυτές τις βάσεις δεδομένων. Επειδή είναι τόσο μεγάλα, η μη αυτόματη ανάλυση δεν είναι δυνατή, επομένως πρέπει να χρησιμοποιήσουμε υπολογιστές και τεχνητή νοημοσύνη για αυτόν τον σκοπό.
Ένα από τα πιο απαιτητικά καθήκοντα για τα οποία μπορούμε να χρησιμοποιήσουμε μηχανές είναι η αυτόματη αναγνώριση γαλαξιών που είναι οπτικά παρόμοιοι με έναν συγκεκριμένο γαλαξία για τον οποίο ενδιαφέρεται ένας αστρονόμος. Εάν οι αστρονόμοι εντοπίσουν έναν σπάνιο τύπο γαλαξία, μπορεί να θέλουν να τον μελετήσουν βρίσκοντας περισσότερους γαλαξίες που είναι παρόμοιοι με αυτόν και στη συνέχεια μπορούν να χαρακτηρίσουν αυτόν τον τύπο γαλαξία παρατηρώντας και συγκρίνοντας πολλαπλές περιπτώσεις. Για παράδειγμα, εάν ο αστρονόμος έχει μόνο ένα παράδειγμα ενός σπάνιου τύπου γαλαξία και προσδιορίσει ένα συγκεκριμένο χαρακτηριστικό σε αυτόν τον γαλαξία, δεν μπορεί να γνωρίζει εάν αυτό το χαρακτηριστικό είναι χαρακτηριστικό αυτού του τύπου γαλαξία ή απλώς έτυχε να βρίσκεται εκεί τυχαία. Εάν έχουν πολλές περιπτώσεις που μπορούν να συγκρίνουν, μπορούν να ελέγξουν αν αυτό το χαρακτηριστικό είναι επαναλαμβανόμενο και στις άλλες περιπτώσεις αυτού του σπάνιου τύπου γαλαξιών. Σε μια βάση δεδομένων με 10 δισεκατομμύρια γαλαξίες, όπως ο LSST, μπορούμε να υποθέσουμε ότι ακόμη και ένας εξαιρετικά σπάνιος τύπος γαλαξιών, ενός στο εκατομμύριο, θα εμφανιστεί περίπου 10.000 φορές. Το πρόβλημα όμως είναι να τα βρούμε. Σε μια βάση δεδομένων με 10 δισεκατομμύρια γαλαξίες, είναι σαφές ότι οι αστρονόμοι δεν μπορούν να αναζητήσουν χειροκίνητα και πρέπει να χρησιμοποιήσουμε υπολογιστές.
Για το σκοπό αυτό, αναπτύξαμε έναν αλγόριθμο μηχανικής όρασης που μπορεί να αναζητήσει αυτές τις βάσεις δεδομένων. Ο αλγόριθμος παίρνει μια εικόνα γαλαξία ως είσοδο και χρησιμοποιεί μηχανική όραση για να πραγματοποιήσει μια αναζήτηση μεταξύ ενός μεγάλου αριθμού γαλαξιών. Ο αλγόριθμος σαρώνει έναν μεγάλο αριθμό γαλαξιών και προσδιορίζει τους γαλαξίες που μοιάζουν περισσότερο με τον γαλαξία για τον οποίο ενδιαφέρεται ο αστρονόμος. Μπορεί επίσης να χρησιμοποιήσει άλλες πληροφορίες, όπως πληροφορίες μέτρησης φωτός (φωτομετρία) του γαλαξία για να βελτιώσει την αναζήτηση.
Οι αλγόριθμοι μηχανικής όρασης εξακολουθούν να μην είναι τέλειοι, και επομένως ο αλγόριθμος επιστρέφει συχνά γαλαξίες που δεν είναι απαραίτητα παρόμοιοι με τον γαλαξία ερωτήματος μεταξύ των γαλαξιών που βρίσκει. Αλλά ακόμα κι αν επιστρέφει κάποιο «θόρυβο», μειώνει το μέγεθος των δεδομένων κατά περίπου 1000 φορές από το αρχικό τους μέγεθος. Αυτό το κάνει πολύ πιο πρακτικό για μια μη αυτόματη αναζήτηση. Για παράδειγμα, αντί να ψάχνει ανάμεσα σε δύο εκατομμύρια εικόνες, ο αστρονόμος χρειάζεται να ψάξει ανάμεσα σε δύο χιλιάδες εικόνες, κάτι που γίνεται πολύ πιο πρακτικό. Αναμένεται ότι ο αλγόριθμος θα βελτιωθεί στο μέλλον και θα γίνει πιο ακριβής και, επομένως, πιο χρήσιμος για πολύ μεγάλες βάσεις δεδομένων γαλαξιών.