Το βασίλειό μου για μια... πυξίδα αλήθειας
ΑΦΙΕΡΩΜΑ: Νέα Εποχή σε Ανάλυση Δεδομένων και Στατιστική
Του ΣΤΕΦΑΝΟΥ ΚΕΧΑΓΙΑ
(Ph.D.), SAS Institute
Οι παραδοσιακοί ορισμοί της Στατιστικής την περιγράφουν ως την επιστήμη της συλλογής και ανάλυσης δεδομένων με σκοπό την κατανόηση μεγάλων πληθυσμών. Για πολλούς επιστήμονες, ωστόσο, η Στατιστική είναι κάτι πολύ περισσότερο. Είναι μία απαραίτητη πυξίδα αλήθειας που διασφαλίζει την πρόοδο της γνώσης υποστηρίζοντας και επικυρώνοντας έργα σε όλες τις επιστήμες.
Παρά τον σημαντικό της ρόλο στην επιστημονική πρόοδο, ένα μεγάλο μέρος της κοινωνίας μας δυσκολεύεται να κατανοήσει στατιστικές έννοιες και τις χρησιμοποιεί λανθασμένα ή καταχρηστικά. Δημόσιοι αξιωματούχοι, εκπρόσωποι της Δικαιοσύνης, υπεύθυνοι λήψης αποφάσεων, συγγραφείς και δημόσιοι ομιλητές (ποιος δεν είναι σήμερα;) εργαλειοποιούν κακοφτιαγμένα διαγράμματα, ερμηνεύουν δεδομένα μεροληπτικά και συμπεραίνουν σχέσεις αιτίας - αποτελέσματος χωρίς απαραίτητες αποδείξεις, μετατρέποντας έτσι (συχνά άθελά τους) τη Στατιστική από έναν ανιχνευτή αλήθειας σε μία γεννήτρια εσφαλμένων ειδήσεων και ψευδών συμπερασμάτων. Απέναντι στη συνεχώς αυξανόμενη απειλή παραπληροφόρησης, η κοινωνία μας δυστυχώς υψώνει ισχνές άμυνες που οφείλονται εν πολλοίς στον ανεπαρκή αλφαβητισμό δεδομένων (data literacy), δηλαδή την ικανότητα ανάγνωσης, κατανόησης και επικοινωνίας των δεδομένων και των ιστοριών τους. Οι εκπαιδευτικές μεταρρυθμίσεις και οι πολιτικές επανειδίκευσης εργατικού δυναμικού που θα καλλιεργούσαν σύγχρονα μοντέλα σκέψης βασισμένα στην ανάλυση δεδομένων έχουν αναμφίβολα καθυστερήσει πολύ.
Εμείς ως πολίτες μπορούμε (και έχουμε την εγγενή υποχρέωση) να ανανεώσουμε την κριτική μας σκέψη ενισχύοντας τις γνώσεις μας για τα δεδομένα, εφοδιάζοντας έτσι τους εαυτούς μας με μια έμπιστη πυξίδα αλήθειας
Πέρα όμως από ευθύνες τρίτων, εμείς ως πολίτες μπορούμε (και έχουμε την εγγενή υποχρέωση) να ανανεώσουμε την κριτική μας σκέψη ενισχύοντας τις γνώσεις μας για τα δεδομένα, εφοδιάζοντας έτσι τους εαυτούς μας με μια έμπιστη πυξίδα αλήθειας. Ας δούμε μερικά παραδείγματα βασικών αρχών του αλφαβητισμού δεδομένων:
1. Ποιος ανέλυσε τα δεδομένα και με ποιες μεθόδους;
Είναι το πρώτο ερώτημα που πρέπει να θέτουμε όταν εξετάζουμε μία ανάλυση. Στις κλινικές δοκιμές, παραδείγματος χάριν, η ακατάλληλη ομαδοποίηση ασθενών καθιστά αδύνατη την αξιολόγηση ενός φαρμάκου, καθώς μια διαφορά στα ποσοστά των θεραπευμένων μεταξύ αυτών που πήραν πραγματική δόση και αυτών που πήραν εικονική, είναι αδύνατον να πιστωθεί στο φάρμακο και όχι σε δημογραφικές διαφορές. Σε ένα πείραμα 10 ρίψεων ενός νομίσματος με 8 εμφανίσεις κορόνας, το μικρό δείγμα μας αποτρέπει να συμπεράνουμε ασφαλώς αν το 80% ποσοστό κορόνας απλά έτυχε ή αν οφείλεται σε ενδεχομένως κάλπικο νόμισμα. Η ποσοτικοποίηση της αβεβαιότητας, ή πιο λαϊκά η απάντηση στο ερώτημα «έτυχε ή πέτυχε», είναι ο μηχανισμός που μία «στατιστική πυξίδα» χρησιμοποιεί για να μας προσανατολίσει προς την αλήθεια.
2. Επιλογή περιληπτικών μέτρων.
Το μέσο ποσοστό ευστοχίας τριπόντων του Γιάννη Αντετοκούνμπο (2018-2022) είναι 29%, 6% χαμηλότερο από το αντίστοιχο του ΝΒΑ. Γνωρίζοντας αυτό οι αντίπαλοι παίκτες αφήνουν τον Γιάννη συστηματικά αμαρκάριστο στο τρίποντο θέλοντας να αποτρέψουν τη συνήθως καταδικαστική για αυτούς διείσδυσή του στο καλάθι. Αντίθετα με τα ποσοστά ευστοχίας που δεν ξεπερνούν το 100%, το εισόδημα ενός μέσου Έλληνα περιγράφεται καλύτερα από τη διάμεσο των εισοδημάτων, καθώς ο μέσος όρος θα επηρεαστεί σημαντικά από τα υπέρογκα εισοδήματα των λίγων πλουσίων δίνοντας ένα ποσό που δεν αντιπροσωπεύει τον μέσο πολίτη.
3. Μια εικόνα είναι χίλιες λέξεις.
Ένα καλά κατασκευασμένο διάγραμμα, ρίχνει φως στην αλήθεια των δεδομένων, ενώ μια απρόσεκτη οπτικοποίηση μπορεί να μας παρασύρει σε λανθασμένες ερμηνείες. Μία περιττή μεγέθυνση κλίμακας, για παράδειγμα, μπορεί εύκολα να μας ξεγελάσει υπερτονίζοντας ομαδικές διαφορές. Διαγράμματα με άστοχες χρωματικές επιλογές είναι δυσανάγνωστα για άτομα με αχρωματοψία, ακατάλληλα για ασπρόμαυρες εκτυπώσεις και παραπλανητικά ως προς τα αποτελέσματά τους. Διαγράμματα με πλεονάζοντα στοιχεία (όχι άλλα τρισδιάστατα ραβδογράμματα!) δημιουργούν σύγχυση, ενώ άξονες χωρίς ετικέτα αφήνουν τη φαντασία μας να ερμηνεύσει ποσότητες που θα έπρεπε να προσδιορίζονται με σαφήνεια. Για παράδειγμα, τι προβλήματα εντοπίζετε στο παραπάνω διάγραμμα;
4. Η συσχέτιση δεν συνεπάγεται σχέση αιτίας - αποτελέσματος (αιτιότητα).
Οι ευρωπαϊκές χώρες με μεγάλους πληθυσμούς πελαργών παρουσιάζουν αυξημένο αριθμό γεννήσεων! Διαψεύδοντας τις ομολογουμένως ευφάνταστες παιδικές ιστορίες, οι πελαργοί δεν παραδίδουν μωρά. Το μέγεθος της χώρας ενεργεί ως συγχυτικός παράγοντας εξηγώντας τόσο τον αριθμό των γεννήσεων όσο και των πελαργών.
5. Μεροληπτικές έρευνες.
Τι θα συμβεί αν εκτιμήσουμε το μέσο ύψος των μαθητών του γειτονικού σχολείου, συλλέγοντας ύψη από την ομάδα μπάσκετ; Η μεροληπτική δειγματοληψία (sampling bias) θα οδηγήσει σε υπερεκτίμηση του μέσου ύψους. Αν μια ερώτηση έρευνας για τη δημοτικότητα ενός αθλήματος επιτρέπει μόνο θετικές και αρνητικές απαντήσεις, τότε αποτρέπει ουδέτερους ερωτηθέντες να αποτυπώσουν την πραγματική τους άποψη (response bias).
6. Σχετικές ποσότητες.
Ο ΕΟΔΥ μέχρι πρόσφατα δημοσίευε καθημερινά τον ημερήσιο αριθμό διαθέσιμων κλινών Μονάδων Εντατικής Θεραπείας (ΜΕΘ) σε Αθήνα, Θεσσαλονίκη και λοιπή Ελλάδα. Ωστόσο, αν θέλαμε να συγκρίνουμε την πίεση του συστήματος υγείας μεταξύ διαφορετικών περιοχών, μια σχετική ποσότητα (π.χ., οι διαθέσιμες κλίνες ανά 100.000 κατοίκους) θα ήταν καταλληλότερη ποσότητα.
Τα παραπάνω παραδείγματα ίσως μοιάζουν κραυγαλέα, αλλά δεν απέχουν από την πραγματικότητα, με αναλύσεις στη δημόσια σφαίρα αλλά και σε επιστημονικές δημοσιεύσεις αμφιβόλου ποιότητος να βρίθουν από παρόμοια λάθη. Τα προβλήματα δυστυχώς επεκτείνονται γοργά και σε πιο σύνθετες αρχές αλφαβητισμού δεδομένων όπως η ηθική, η διαθεσιμότητα, η ιδιωτικότητα, η προστασία τους κ.ο.κ., καθιστώντας αδήριτη την ανάγκη να αντιδράσουμε άμεσα. Ελπίζουμε, η σύντομη ανάλυσή μας να αποτελέσει ένα έναυσμα αντίδρασης και να σας εμπνεύσει να αναπτύξετε ή να βελτιώσετε τη δική σας πυξίδα αλήθειας, βασισμένη σε επιστημονικά συμπεράσματα που προκύπτουν από στατιστική ανάλυση δεδομένων.