Η ομάδα Rensselaer δείχνει πώς να αναλύσετε τα ακατέργαστα κυβερνητικά δεδομένα
Η ομάδα, με επικεφαλής τον καθηγητή πληροφορικής Jure Leskovec, δημιούργησε ένα σύστημα που ονομάζεται "Data Wrangler" που μπορεί να καθαρίσει αυτόματα και να μετατρέψει τα ακατέργαστα δεδομένα σε μορφή που είναι πιο προσιτή και χρησιμοποιήσιμη.
"Τα ακατέργαστα κυβερνητικά δεδομένα είναι συχνά βρώμικα και δύσκολο να κατανοηθούν", δήλωσε ο Leskovec. "Στόχος μας ήταν να δημιουργήσουμε ένα εργαλείο που θα μπορούσε να καταστήσει αυτά τα δεδομένα πιο προσιτά σε άτομα που θέλουν να το χρησιμοποιήσουν για έρευνα, δημοσιογραφία ή άλλους σκοπούς".
Τα δεδομένα Wrangler λειτουργούν χρησιμοποιώντας μια ποικιλία τεχνικών μηχανικής μάθησης και φυσικής γλώσσας για τον εντοπισμό και τη διόρθωση σφαλμάτων στα δεδομένα, καθώς και για την εξαγωγή σημαντικών πληροφοριών από το κείμενο.
Το σύστημα μπορεί να χρησιμοποιηθεί για την ανάλυση μιας ευρείας ποικιλίας κυβερνητικών δεδομένων, συμπεριλαμβανομένων των οικονομικών αρχείων, των στατιστικών εγκλημάτων και των περιβαλλοντικών δεδομένων.
Η Leskovec και η ομάδα του έχουν ήδη χρησιμοποιήσει το Wrangler Data για να αναλύσουν πολλά μεγάλα σύνολα δεδομένων, συμπεριλαμβανομένης της αμερικανικής κοινοτικής έρευνας του Γραφείου Απογραφής και των Δεδομένων Stop-and-Frisk της Αστυνομίας της Νέας Υόρκης.
Τα αποτελέσματα αυτών των αναλύσεων έχουν δημοσιευθεί σε διάφορα ακαδημαϊκά περιοδικά και έχουν χρησιμοποιηθεί από δημοσιογράφους και υπεύθυνους χάραξης πολιτικής για να ενημερώσουν το έργο τους.
"Πιστεύουμε ότι το Data Wrangler έχει τη δυνατότητα να φέρει επανάσταση στον τρόπο με τον οποίο οι άνθρωποι χρησιμοποιούν κυβερνητικά δεδομένα", δήλωσε ο Leskovec. "Κάνοντας αυτά τα δεδομένα πιο προσβάσιμα και χρήσιμα, μπορούμε να δώσουμε στους ανθρώπους να λαμβάνουν καλύτερες αποφάσεις σχετικά με τη ζωή τους και τις κοινότητές τους".
Η έρευνα της ομάδας δημοσιεύθηκε στο περιοδικό "Nature Machine Intelligence".