Ένας Αποκαλυπτής Μυστικών στα Δεδομένα της Ζωής και του Σύμπαντος
Στη στατιστική, τα αφηρημένα μαθηματικά συναντούν την πραγματική ζωή. Για να βρουν νόημα σε απείθαρχα σύνολα ακατέργαστων αριθμών, στατιστικολόγοι όπως ο Ντόναλντ Ρίτσαρντς αναζητούν πρώτα συσχετίσεις:στατιστικές σχέσεις μεταξύ, ας πούμε, του καπνίσματος και του καρκίνου του πνεύμονα ή των τιμών κλεισίματος του Χρηματιστηρίου της Νέας Υόρκης τη μια μέρα και του χρηματιστηρίου του Τόκιο την επόμενη. Περαιτέρω μελέτη μπορεί στη συνέχεια να διερευνήσει εάν το ένα φαινόμενο προκαλεί το άλλο ή εάν και τα δύο έχουν κοινές αιτίες.
«Η στατιστική είναι ένας τρόπος ανάλυσης δεδομένων και ανακάλυψης των εσωτερικών κρυμμένων μυστικών που κρύβονται από τα δεδομένα», είπε ο Richards μέσω Skype από το σπίτι του στην Πενσυλβάνια τον Ιανουάριο. «Μπορούμε να βρούμε μοτίβα που μας λένε ότι η κλιματική αλλαγή βρίσκεται σε εξέλιξη; Μπορούμε να βρούμε μοτίβα που υποδηλώνουν ότι το bitcoin έχει ξεπεράσει; Αυτό είναι που αναζητούμε συνεχώς — μοτίβα."
Τα μοτίβα μπορεί να είναι διακριτικά. Ωστόσο, η αναζήτησή τους δεν είναι εσωτερική, κατά την άποψή του, αλλά μάλλον «το μόνο πράγμα που θα έπρεπε να κάνει κάποιος με μυαλό στη ζωή του».
Στην πατρίδα του, Τζαμάικα, ο Ρίτσαρντς, 63 ετών, περιγράφει τους στατιστικολόγους ως καινοτόμους, που αναζητούν συνεχώς νέα μαθηματικά εργαλεία για την εύρεση κρυφών συσχετισμών μεταξύ φαινομένων, και συνεπώς την προώθηση της αρχαίας αναζήτησης για σύνδεση αιτιών και αποτελεσμάτων. Πώς, για παράδειγμα, οι άνθρωποι κατάλαβαν πρώτα τι μπορούσαν να φάνε; «Στην Τζαμάικα υπάρχει ένα δέντρο που ονομάζεται δέντρο ακί», είπε. «Όταν το φρούτο του ακέε δεν είναι ώριμο, είναι πολύ δηλητηριώδες, αλλά [όπως πρέπει να έχει αποκαλύψει μια θανατηφόρα έρευνα για συσχετίσεις] όταν είναι ώριμο, αν καθαριστεί σωστά μπορεί να μαγειρευτεί και να καταναλωθεί.»
Κατά τη διάρκεια μιας καριέρας που τον οδήγησε στα πανεπιστήμια των Δυτικών Ινδιών, της Βόρειας Καρολίνας, του Ουαϊόμινγκ, της Βιρτζίνια και του Πολιτειακού Πανεπιστημίου της Πενσυλβάνια στο State College, όπου είναι επί του παρόντος καθηγητής, ο Richards έχει αντλήσει πολλούς νέους μαθηματικούς τύπους για χρήση στη στατιστική. Τα έχει επίσης εφαρμόσει για να εντοπίσει συσχετισμούς σε πραγματικά δεδομένα, όπως έρευνες γαλαξιών, χρηματοοικονομικά παράγωγα, γεωργικά δεδομένα και την ασφαλιστική αγορά του Affordable Care Act. Μια φόρμουλα που απέδειξε με τον μέντορά του και μακροχρόνιο συνεργάτη του, Kenneth Gross, τη δεκαετία του 1980 βοήθησε στην ανάπτυξη πρωτοκόλλων μετάδοσης δεδομένων κινητών τηλεφώνων που έκαναν τις κλήσεις στατιστικά λιγότερο πιθανό να μειωθούν. "Κάθε φορά που βλέπω κάποιον να χρησιμοποιεί κινητό, αναρωτιέμαι αν μπορώ να τον κάνω να ξεπεράσει το ένα σεντ", αστειεύτηκε.
Τον τελευταίο καιρό, ο Richards έχει υιοθετήσει ένα ισχυρό νέο εργαλείο για την ανίχνευση συσχετίσεων, τη μέθοδο «συσχέτισης απόστασης». Το 2014, αυτός και η σύζυγός του, η Τζαμάικα-αμερικανίδα αστροφυσικός Mercedes Richards, και ένας τρίτος συν-συγγραφέας εφάρμοσαν τη μέθοδο συσχέτισης απόστασης για να ανιχνεύσουν προηγουμένως άγνωστες συσχετίσεις μεταξύ 63.500 γαλαξιών – προσδιορίζοντας, για παράδειγμα, ότι ορισμένοι ήταν «γαλαξίες με αστερίες» που καίγονται γρήγορα. επάνω.
Η πραγματική ζωή έχει επίσης έναν τρόπο να εισβάλλει με ανεπιθύμητους τρόπους. Η Mercedes πέθανε το 2016 σε ηλικία 60 ετών και ο Gross πέθανε πέρυσι στα 78. Ο Richards φοράει τη θλίψη του στο μανίκι του, παρόλο που απολαμβάνει τη χαρά των στατιστικών. Μετά τη συνέντευξη του Ιανουαρίου, Quanta ακολούθησε τηλεφωνικά με τον Richards τον Μάρτιο. Οι ακόλουθες ερωτήσεις και απαντήσεις έχουν υποστεί επεξεργασία και συμπύκνωση για λόγους σαφήνειας.
Μεγαλώνοντας στην Τζαμάικα, απολάμβανες πάντα τα μαθηματικά;
Η μητέρα μου ήταν πολύ καλή στα μαθηματικά. Επειδή ήταν δασκάλα, η μάθηση δεν σταμάτησε απλώς και μόνο επειδή το σχολείο ήταν εκτός. Κατά τη διάρκεια του καλοκαιριού, οι τρεις γιοι της, ακόμη και οι φίλοι μας από τα γειτονικά σπίτια, αν ήθελαν να παίξουν μαζί μας, έπρεπε να κάνουν σχολικές εργασίες στο σπίτι μας από τις 9 έως τις 12. Μετά το μεσημεριανό γεύμα, η υπόλοιπη μέρα ήταν δική μας.
Ένα καλοκαίρι, όταν ήμουν 10 ετών, με έβαλε να δουλέψω τα κεφάλαια ενός από τα παλιά βιβλία της άλγεβρας, Higher Algebra από τον Hall and Knight. Δεν το κατάλαβα. ήταν απλώς ανόητη άλγεβρα. Δεν είχα κανένα λόγο να πιστεύω ότι ήταν χρήσιμο για τίποτα. Αλλά το επόμενο καλοκαίρι, είπε:«Γιατί δεν ξεκινάς ξανά με τον Χολ και τον Νάιτ». Και τη δεύτερη φορά, αυτά τα κεφάλαια ήταν πολύ πιο εύκολο στον χειρισμό.
Στο γυμνάσιο, στο Kingston College, πέτυχα το τζακ ποτ με έναν υπέροχο δάσκαλο μαθηματικών στην τρίτη φόρμα [το αντίστοιχο της ένατης τάξης]. Στην τέταρτη μορφή, πέτυχα ξανά το τζακ ποτ καθώς είχα έναν άλλον υπέροχο δάσκαλο μαθηματικών. Στη συνέχεια, στην πέμπτη μορφή, χτύπησα το Powerball. Είχα έναν εξαιρετικό δάσκαλο μαθηματικών που με δίδαξε για τρία συνεχόμενα χρόνια [το Kingston φτάνει μέχρι την τάξη 13]. Έτσι, φεύγοντας από το γυμνάσιο, είχα μια από τις καλύτερες δυνατές προετοιμασίες για έναν μαθητή μαθηματικών στην Τζαμάικα, και θα τολμούσα να πω οπουδήποτε στη Βρετανική Κοινοπολιτεία, και ίσως ακόμη και στη Βρετανική Αυτοκρατορία.
Ωστόσο ήσασταν ο μόνος μαθητής στην κοόρτη των μαθηματικών που το ακολούθησε ακαδημαϊκά. Γιατί είναι αυτό;
Υπήρχε μια τάση στην Τζαμάικα οι άνθρωποι να αποφεύγουν τα μαθηματικά λόγω των οικονομικών εκτιμήσεων. Τα εισοδήματα θα έτειναν να είναι σημαντικά μικρότερα από ό,τι αν γινόμουν, ας πούμε, γιατρός, δικηγόρος ή μηχανικός.

Πώς βρήκατε τον δρόμο για τα στατιστικά;
Όταν πήγα στο Πανεπιστήμιο των Δυτικών Ινδιών, τα μαθηματικά ήταν το παν. Αν είχα προσπαθήσει να σπουδάσω φυσική ή χημεία ή βιολογία ή νομική ή ιατρική, θα είχα αποτύχει. Παρακολούθησα ένα μάθημα σχετικά με τις πιθανότητες και τη στατιστική στο δεύτερο έτος από τον Rameshwar Gupta, ο οποίος τελικά έγινε ο σύμβουλός μου στη διατριβή. Ήταν ειδικός στην πολυπαραγοντική ανάλυση [που αφορά τις σχέσεις μεταξύ πολλών μεταβλητών] και έτσι έγινε ο τομέας μου. Πιστεύω πολύ στη συνεργασία με ανθρώπους που μου αρέσουν. Και μπορούσα επίσης να δω ότι υπήρχαν πολλά ενδιαφέροντα μαθηματικά προβλήματα που δούλευαν μαζί του, επομένως ήταν το καλύτερο και των δύο κόσμων.
Έτσι μπήκα στα στατιστικά, αλλά δεν έγινα στατιστικολόγος μέχρι που κόντεψα να φοιτήσω στο Πανεπιστήμιο της Βόρειας Καρολίνας. Ήξερα όλους τους τύπους, αλλά η τέχνη και η χαρά της ανάλυσης δεδομένων δεν έφτασαν πραγματικά μέχρι τότε. Πριν από αυτό, βασικά ήμουν απλώς ένας μαθηματικός που προσποιούμαι ότι είμαι στατιστικολόγος.
Ποια είναι η διαφορά μεταξύ ενός μαθηματικού και ενός στατιστικολόγου;
Είναι τόσο δύσκολο να αποφασίσεις πού βρίσκονται τα όρια, αλλά θα έλεγα ότι τα μαθηματικά είναι ένας τομέας που ειδικεύεται στην απαγωγική λογική:Θέτουν ένα σωρό αξιώματα και μετά προσπαθούν να συναγάγουν τις λογικές συνέπειες αυτών των αξιωμάτων. Δύο σημεία ορίζουν μια γραμμή, και ούτω καθεξής και ούτω καθεξής, και μετά φεύγετε. Ενώ οι στατιστικές είναι περισσότερο η τέχνη της επαγωγικής λογικής:Εξετάζουμε το τελικό αποτέλεσμα και προσπαθούμε να καταλάβουμε τι θα μπορούσε να έχει προκαλέσει ένα τέτοιο τελικό αποτέλεσμα.
Εμείς οι «μαθηματικοί στατιστικολόγοι» βρίσκουμε τύπους που βοηθούν με την επαγωγική πτυχή των αναλύσεων δεδομένων μας. Επιτρέψτε μου να προσπαθήσω να σας δώσω ένα απλό παράδειγμα:Ας υποθέσουμε ότι έχω ένα νόμισμα στο χέρι μου και ρωτάω, είναι το νόμισμα ένα ωραίο νόμισμα ή είναι προκατειλημμένο προς τα κεφάλια ή τις ουρές; Αυτό που θα κάναμε είναι να πετάξουμε το κέρμα 100 φορές και αν το ποσοστό των κεφαλών είναι πολύ μακριά από το μισό προς οποιαδήποτε κατεύθυνση, τότε θα ήμασταν διατεθειμένοι να πούμε ότι το νόμισμα φαίνεται να είναι άδικο. Αλλά το ερώτημα είναι πόσο μακριά είναι πολύ μακριά; Ας υποθέσουμε ότι έχουμε 48 τοις εκατό κεφάλια. Τι θα λέγατε για 40 τοις εκατό κεφάλια; Το ερώτημα πόσο μακριά από το μισό είναι πολύ μακριά απαντάται χρησιμοποιώντας διάφορους μαθηματικούς τύπους και πιθανολογικούς υπολογισμούς.
Λοιπόν, πόσο μακριά είναι; Φαντάζομαι 40.
Πολύ καλή εικασία έκανες! Είμαι πολύ εντυπωσιασμένος! Αυτή η ερώτηση τράβηξε την προσοχή των ανθρώπων εδώ και αιώνες. Οι βασικοί μου κανόνες είναι:Εάν ένα νόμισμα πεταχτεί 100 φορές και ο αριθμός των κεφαλών είναι από μηδέν έως 40 ή 60 έως 100, τότε έχετε ισχυρές στατιστικές αποδείξεις ότι το νόμισμα είναι προκατειλημμένο. Επιπλέον, ανάλογα με το πόσα χρήματα διακυβεύονται, αν λάβετε 41 ή 59 κεφαλές, τότε καλό θα ήταν να φύγετε αμέσως από το καζίνο. Ακόμη και με 42 ή 58 κεφάλια, θα πρέπει να είστε νευρικοί για την εκτίναξη.
Όταν οι άνθρωποι έρχονται σε εσάς για συμβουλές, τους λέτε να παραμείνουν στη μέση οδό στις περισσότερες προσπάθειες. Τι εννοείτε με αυτό;
Πηγαίνεις πιο ασφαλής στη μέση πορεία. Η συμβουλή μου για να ακολουθήσετε τη μέση πορεία προέρχεται από το βιβλίο του Benjamin Graham, The Intelligent Investor , ένα βιβλίο του οποίου οι συνεργάτες τα καταφέρνουν γενικά πολύ καλά στις χρηματοπιστωτικές αγορές. Εάν οι άνθρωποι δεν γνωρίζουν τίποτα για οικονομικά θέματα, θα ήταν η συμβουλή μου να προχωρήσουν σε μεγάλα αμοιβαία κεφάλαια που είναι ευρέως διαφοροποιημένα και κάνουν ελάχιστες συναλλαγές. Δεν προσπαθείτε να βγάλετε πολλά χρήματα από τη μια μέρα στην άλλη. Μην αγοράζετε bitcoin. Παρεμπιπτόντως, μην αγοράζετε τίποτα καινούργιο. Υπάρχουν άνθρωποι που κερδίζουν τεράστια χρηματικά ποσά αγοράζοντας νέα πράγματα, αλλά το μεγαλύτερο μέρος των ανθρώπων που το κάνουν τελικά χάλασαν.
Οι άνθρωποι, ακόμη και ορισμένοι στατιστικολόγοι, μπορεί να εκπλαγούν όταν μάθουν ότι υπάρχει ένα πρωτοποριακό νέο μαθηματικό εργαλείο για την εύρεση στατιστικών σχέσεων — τη μέθοδο συσχέτισης απόστασης.
Χωρίς αμφιβολία υπήρξαν καινοτομίες. Επιτρέψτε μου να εξηγήσω την κατάσταση σχετικά με την έννοια της συσχέτισης. Άνθρωποι όπως ο Karl Pearson και ο Francis Galton στα τέλη του 1800 πρωτοστάτησαν στην ιδέα αυτού που σήμερα αποκαλούμε συντελεστή συσχέτισης Pearson, το ευρέως χρησιμοποιούμενο μέτρο συσχέτισης.
Ο Galton μελέτησε τη συσχέτιση μεταξύ του ύψους των πατέρων και του ύψους των γιων, σωστά;
Ναί. Ο Galton προσπαθούσε να καταλάβει πώς να μεγαλώσει ένα υπέροχο ανθρώπινο σώμα — μεγαλύτερο, ψηλότερο, δυνατότερο, πιο γρήγορο, πιο έξυπνο. Και έτσι πήρε μια μεγάλη συλλογή από πατέρες και γιους και σχεδίασε τα δεδομένα —μπορείτε να βρείτε τα διασκορπισμένα οικόπεδα στο διαδίκτυο, στην πραγματικότητα— και ταίριαξε μια ευθεία γραμμή στα δεδομένα, διαπιστώνοντας ότι αν ο πατέρας σας είναι ψηλός, τότε είναι πιθανό να να είσαι ψηλός. Αυτή η μέθοδος, την οποία ο Karl Pearson επισημοποίησε σε αυτό που σήμερα είναι γνωστό ως συντελεστής συσχέτισης Pearson, έχει τα πλεονεκτήματά της. Έχει όμως και ελαττώματα. Για παράδειγμα, μπορεί να εφαρμοστεί μόνο όταν προσπαθείτε να μελετήσετε τη σχέση μεταξύ μονοδιάστατων μεταβλητών — μεταξύ ύψους και βάρους ή ύψους πατέρα και ύψους γιου. Εάν θέλετε να μελετήσετε τη συσχέτιση μεταξύ μιας παρτίδας μεταβλητών και μιας άλλης παρτίδας, τότε δεν υπάρχει μία μόνο συσχέτιση Pearson για τη μέτρηση της ισχύος μιας συσχέτισης. Ένα δεύτερο πρόβλημα, το οποίο οι άνθρωποι συχνά παραβλέπουν στις καθημερινές εφαρμογές, είναι ότι ο συντελεστής συσχέτισης Pearson θα πρέπει να χρησιμοποιείται μόνο όταν υπάρχει μια εύλογα γραμμική σχέση μεταξύ των δύο μεταβλητών. Εάν η σχέση είναι πολύ μη γραμμική, τότε αυτή η μέθοδος δεν εφαρμόζεται.
Τι είναι ένα παράδειγμα μη γραμμικής σχέσης μεταξύ μεταβλητών;
Ύψος και ηλικία. Φανταστείτε ότι παίρνω έναν άνθρωπο και μετράω το ύψος του από τη γέννηση μέχρι την ενηλικίωση. Είναι μια καμπύλη σε σχήμα S, σωστά; Δεν ισχύει γραμμική σχέση.
Φαίνεται ότι μπορεί να υπάρχουν περισσότερες τέτοιες περιπτώσεις παρά γραμμικές σχέσεις.
Σας εγγυώμαι ότι το μεγαλύτερο μέρος των εφαρμογών του συντελεστή συσχέτισης Pearson δεν είναι έγκυρες. Συχνά χρησιμοποιείται εκεί που πραγματικά δεν είναι χρήσιμο και οδηγεί σε συμπεράσματα που δεν υποστηρίζονται από τα δεδομένα. Δεδομένα υγείας, οικονομικά δεδομένα, αστροφυσικά δεδομένα, μετεωρολογικά δεδομένα:Οι άνθρωποι απλώς μπαίνουν αμέσως και αρχίζουν να χρησιμοποιούν τη συσχέτιση του Pearson χωρίς να σκέφτονται αν υπάρχει κάποια εύλογη γραμμική σχέση μεταξύ των μεταβλητών.
Γνωρίζουμε εδώ και πολύ καιρό την ανάγκη για έναν συντελεστή συσχέτισης που μπορεί να εφαρμοστεί ανεξάρτητα από το αν υπάρχει γραμμική ή μη γραμμική σχέση και μπορεί να εφαρμοστεί όταν έχουμε παρτίδες μεταβλητών και στις δύο πλευρές. Και εκεί μπήκε ο συσχετισμός απόστασης. Γύρω στο 2007, οι Gábor Székely, Maria Rizzo και Nail Bakirov έγραψαν αυτές τις εργασίες στις οποίες όρισαν την έννοια της συσχέτισης απόστασης και την εφάρμοσαν στα δεδομένα. Και όταν είδα αυτά τα χαρτιά είπα, «Αχα! Ξέρω πώς να το εφαρμόσω σε αστροφυσικά δεδομένα». Και ήταν ακριβώς στα δεδομένα που σκεφτόμασταν η γυναίκα μου, η Mercedes, η Elizabeth Martínez-Gómez [του Ινστιτούτου Αυτόνομης Τεχνολογίας του Μεξικού] και εγώ.
Συνεχίζετε τις μελέτες σας για αστροφυσικά δεδομένα;
Η Mercedes και εγώ επρόκειτο να γράψουμε μια τρίτη εργασία σχετικά με τη συσχέτιση απόστασης για άλλα αστροφυσικά δεδομένα. Έχω τις σημειώσεις για αυτό και πρέπει να το κάνω. Αλλά όπως μπορείτε να φανταστείτε, κάθε φορά που το κοιτάζω αισθάνομαι λίγο… καλά, η λέξη που μου έρχεται στο μυαλό είναι «κατάθλιψη». Αλλά αυτό είναι κάτι που πραγματικά πρέπει να τελειώσω. Ο Ken Gross και εγώ επρόκειτο να γράψουμε μια άλλη εργασία σχετικά με αυτό που ονομάζεται υπεργεωμετρικές συναρτήσεις του ορίσματος πίνακα. Το δουλέψαμε για 20 χρόνια. Έχω εκατοντάδες σελίδες σημειώσεων. Αυτό το χαρτί θα έχει περισσότερες από 100 σελίδες και πρέπει να καθίσω και να το κάνω.
Αυτή ακριβώς τη στιγμή, δύο συγγραφείς και εγώ αναθεωρούμε ένα χειρόγραφο που θα παρέχει εφαρμογές συσχέτισης απόστασης στις διαδικασίες παραγωγής. Βρήκαμε τρόπους εφαρμογής της μεθόδου για να προσδιορίσουμε εάν οι διεργασίες είναι υπό έλεγχο ή όχι, πράγμα που σημαίνει ότι ο μέσος αριθμός ελαττωμάτων ανά προϊόν είναι κάτω από ένα συγκεκριμένο όριο.
Πώς λειτουργεί ο συσχετισμός απόστασης;
Εδώ μπαίνει η έννοια του μετασχηματισμού Fourier. Ένας μετασχηματισμός Fourier είναι ένας τρόπος διάσπασης μιας μαθηματικής συνάρτησης στις συχνότητες των συστατικών της, παρόμοιο με τον τρόπο με τον οποίο μια μουσική χορδή μπορεί να αποσυντεθεί στις νότες που την αποτελούν. Όλες οι συναρτήσεις μπορούν να χαρακτηριστούν μοναδικά από μετασχηματισμούς Fourier, έτσι οι άνθρωποι άρχισαν να προσπαθούν να ορίσουν την έννοια του μέτρου της συσχέτισης χρησιμοποιώντας μετασχηματισμούς Fourier. Αν μου δώσετε δύο κατανομές πιθανότητας - τη στατιστική εξάπλωση των τιμών που παίρνει μια μεταβλητή - και αν θέλω να ελέγξω αν οι δύο κατανομές είναι ίδιες, το μόνο που έχω να κάνω είναι να υπολογίσω τους μετασχηματισμούς Fourier τους. Εάν αυτές είναι ίσες, τότε ξέρω ότι οι δύο κατανομές πιθανοτήτων έπρεπε να είναι ίσες για αρχή. Ο συντελεστής συσχέτισης απόστασης, με απλούς όρους, είναι ένα μέτρο της απόστασης αυτών των μετασχηματισμών Fourier.
Έχετε γράψει μια εργασία πέρυσι δίνοντας παραδείγματα όπου η συσχέτιση απόστασης βελτιώνεται με τη μέθοδο του Pearson. Συζητήστε για την περίπτωση των ποσοστών ανθρωποκτονιών και την κρατική νομοθεσία περί όπλων.
Αυτό προκλήθηκε από ένα άρθρο γνώμης στην The Washington Post το 2015, από τον Eugene Volokh, καθηγητή νομικής στο UCLA. Ο τίτλος του άρθρου είναι «Μηδενική συσχέτιση μεταξύ του ποσοστού ανθρωποκτονιών και των πολιτειακών νόμων περί όπλων». Αυτό που έκανε ήταν — ξέρετε, τα μάτια μου έσκασαν. Δεν μπορούσα να το πιστέψω — βρήκε ορισμένα δεδομένα για τις βαθμολογίες του Μπρέιντι των πολιτειών, οι οποίες είναι βαθμολογίες με βάση την σκληρότητα των νόμων περί όπλων τους, και σχεδίασε τις βαθμολογίες του Μπρέιντι σε ένα x-y σχέδιο κατά των ποσοστών ανθρωποκτονιών σε καθεμία από αυτές τις πολιτείες. Και αν κοιτάξετε την πλοκή, φαίνεται ότι δεν υπάρχει μοτίβο. Χρησιμοποίησε το Excel ή κάτι άλλο για να προσαρμόσει μια ευθεία γραμμή σε αυτό το σύνολο δεδομένων και υπολόγισε τον συντελεστή συσχέτισης Pearson για αυτό το σύνολο δεδομένων και βγήκε σχεδόν μηδέν. Και είπε, "Αχα, μηδενική συσχέτιση μεταξύ του ποσοστού ανθρωποκτονιών του κράτους και της κρατικής νομοθεσίας για τα όπλα."
Δεν είναι κόσερ;
τρόμαξα. Υπάρχουν τόσα πολλά στραβά με αυτή την ανάλυση. Το πρώτο πράγμα που παρατηρείτε στην πλοκή διασποράς είναι ότι υπάρχει μια κουκκίδα που είναι διέξοδος από τις άλλες, τόσο με υψηλό σκορ Brady όσο και υψηλό ποσοστό ανθρωποκτονιών. Αυτό αποδεικνύεται ότι είναι η Περιφέρεια της Κολούμπια, η οποία δεν είναι πολιτεία. είναι πραγματικά μια πόλη, οπότε αν τη συμπεριλάβετε στην ανάλυση, επειδή είναι τόσο μακριά από όλους τους άλλους, θα έχει σημαντική επίδραση στην κλίση της γραμμής παλινδρόμησης. Αυτό είναι το πρώτο παράπονο. θα έπρεπε να είχε αφαιρέσει αυτό το σημείο δεδομένων — το μαθαίνετε στο Stat 100. Εάν το αφαιρέσετε και επανατοποθετήσετε τη γραμμή γραμμικής παλινδρόμησης, η συσχέτιση Pearson δεν είναι στην πραγματικότητα μηδέν.
Πρέπει όμως να προσαρμόσετε μια γραμμή γραμμικής παλινδρόμησης σε αυτό το σύνολο δεδομένων; Αν κοιτάξετε τα υπόλοιπα δεδομένα, δεν βλέπετε καμία γραμμικότητα στη σχέση και είναι εύκολο να καταλάβετε γιατί:Υπάρχουν δέσμες σημείων που αντιστοιχούν σε γεωγραφικές και πολιτιστικά παρόμοιες περιοχές. Εάν χωρίσετε τις πολιτείες ανά περιοχή, τότε θα δείτε εύλογα γραμμικές σχέσεις να αρχίζουν να εμφανίζονται στα διαγράμματα διασποράς. Και στη συνέχεια, σε κάθε περίπτωση, διαπιστώνετε ότι όσο υψηλότερη είναι η βαθμολογία Brady, τόσο χαμηλότερο είναι το ποσοστό ανθρωποκτονιών.
Η συσχέτιση απόστασης κάνει ακόμα καλύτερη δουλειά χωρίς να χρειάζεται να χωρίσουμε τα πράγματα, σωστά;
Ακριβώς. Η γυναίκα μου και εγώ κάναμε αυτούς τους υπολογισμούς το φθινόπωρο του ’15, όταν είδαμε το άρθρο γνώμης. Ήταν μια μάζα στον προγραμματισμό υπολογιστών — μου λείπει μόνο γι' αυτό! Είναι ένας ανόητος λόγος να της λείπεις, δεν νομίζεις; Υπολόγισε τον συντελεστή συσχέτισης απόστασης. Και ακόμη και με την περιφέρεια της Κολούμπια να συμπεριληφθεί, σήμανε ότι υπήρχε μια στατιστικά σημαντική σχέση μεταξύ των βαθμολογιών Brady και των ποσοστών ανθρωποκτονιών.
Υπάρχουν τόσα πολλά παραδείγματα όπως αυτό της κακής χρήσης των στατιστικών στο δημόσιο διάλογο. Αναρωτιέμαι αν ξοδεύετε χρόνο για να σκεφτείτε πώς να βελτιώσετε τη χρήση στατιστικών από μη ειδικούς.
Ναι, υπάρχουν αυτές οι τρομακτικές κακές εφαρμογές των στατιστικών. Και πρέπει να σας πω την αλήθεια:Μερικές φορές απλώς τα παρατάω. Απλώς δεν σταματά ποτέ, ο αριθμός των εσφαλμένων εφαρμογών. Ως εκπαιδευτικός ξέρω ότι έχω καθήκον να εκπαιδεύω συνεχώς τον κόσμο. Αλλά είμαι μόνο ένας μικρός. Κάποια στιγμή, ξέρετε τι, θα πάω να μαγειρέψω μόνος μου ένα ωραίο δείπνο και να πιω ένα ποτήρι κρασί και να αφήσω τον κόσμο να κάνει ό,τι θέλει.
Ελπίζετε ότι αναπτύσσοντας καλύτερα εργαλεία — όπως η συσχέτιση απόστασης — ότι τελικά αυτές οι μέθοδοι θα γίνουν πιο κοινή χρήση;
Ναι το ελπίζω. Και μάλιστα, έχω ακούσει ότι μια από τις μεγάλες φαρμακευτικές εταιρείες αρχίζει τώρα να χρησιμοποιεί μεθόδους συσχέτισης εξ αποστάσεως. Και ξέρω ότι οι άνθρωποι στον ακαδημαϊκό χώρο το χρησιμοποιούν περισσότερο. Ελπίζω να ζήσω αρκετά για να δω η συσχέτιση απόστασης να είναι μια τυπική αναπτυσσόμενη καρτέλα στο Excel ή αν όχι στο Excel, σίγουρα στο Wolfram Alpha. Εισαγάγετε το x-y σας δεδομένα και έκρηξη:Σας δίνει τη συσχέτιση απόστασης. Ζω για εκείνη τη μέρα!