Στατιστική, μεροληψίες και λήψη αποφάσεων στην εποχή της πανδημίας
ΑΦΙΕΡΩΜΑ: Νέα Εποχή σε Ανάλυση Δεδομένων και Στατιστική
Του ΝΙΚΟΥ ΔΕΜΙΡΗ
Επίκουρου Καθηγητή, Τμήμα Στατιστικής, ΟΠΑ
Συχνά ως στατιστική αναφέρεται η διαδικασία της απλής παράθεσης στοιχείων και δεδομένων, ενδεχομένως σε κάποια απλοϊκά επεξεργασμένη μορφή τους. Αυτού του είδους η παρουσίαση μπορεί να είναι χρήσιμη αν γίνεται με προσοχή ώστε να περνά ένα σαφές και δίκαιο μήνυμα για την αριθμητική πλευρά ενός ζητήματος το οποίο θέλουμε να παρουσιάσουμε. Τι είναι όμως η στατιστική; Στην καρδιά της είναι η επιστήμη που προσπαθεί να βοηθήσει στη διαδικασία λήψης των βέλτιστων αποφάσεων υπό καθεστώς αβεβαιότητας και παρουσία διαφόρων μορφών μεροληψίας στα δεδομένα.
Ας δούμε ένα απλό (και τεχνητό) παράδειγμα, έστω πως θέλουμε να λάβουμε την εξής απόφαση: να επιλέξουμε ανάμεσα σε 2 τεχνικές για μια επέμβαση στο γόνατο. Έστω πως μας παρουσιάζονται δεδομένα από τις προηγούμενες επεμβάσεις όπου η τεχνική Α ήταν επιτυχής σε 700 από τις 1.000 επεμβάσεις, ήτοι ποσοστό επιτυχίας 70%, ενώ η τεχνική Β είχε ποσοστό επιτυχίας 80% με 800 επιτυχίες σε 1.000 εγχειρήσεις. Με βάση τα παραπάνω στοιχεία η προφανής επιλογή είναι φυσικά η τεχνική Β.
Η στατιστική πηγαίνει ένα βήμα παραπέρα και προσπαθεί να λάβει υπ’ όψιν όλους τους παράγοντες που παίζουν ρόλο, ώστε να μειώσει ή ενσωματώσει τις πιθανές μεροληψίες των δεδομένων και να κάνει τις συγκρίσεις όσο γίνεται πιο δίκαιες και ακριβείς, βοηθώντας στη λήψη της βέλτιστης απόφασης. Στο παραπάνω παράδειγμα, ένας στατιστικός (ή data scientist όπως συχνά αποκαλείται ο στατιστικός σήμερα) θα ρωτούσε τον γιατρό που κάνει τέτοιου είδους επεμβάσεις αν υπάρχει κάποιος ή κάποιοι παράγοντες που παίζουν ρόλο στην επιτυχία της επέμβασης. Έστω πως υπάρχει ένας τέτοιος που αφορά τη σοβαρότητα του τραύματος και πως αν κατηγοριοποιήσουμε τις επεμβάσεις με βάση αυτόν τον παράγοντα προκύπτουν τα εξής στοιχεία:
Επεμβάσεις
Τεχνική Α
(70% = 700/1.000) Τεχνική Β
(80% = 800/1.000)
Ελαφριές περιπτώσεις
Τεχνική Α
(90% = 180/200),
Τεχνική Β
(83% = 747/900)
Βαριές περιπτώσεις
Τεχνική Α
(65% = 520/800)
Τεχνική Β
(53% = 53/100)
Παρατηρούμε κάτι αναπάντεχο. Ενώ η τεχνική Β ήταν φαινομενικά καλύτερη, με βάση τα πιο αναλυτικά δεδομένα αντιλαμβανόμαστε πως η επιλογή της τεχνικής Β θα ήταν λανθασμένη! Συγκεκριμένα, είναι σαφές πως η τεχνική Α είναι καλύτερη, καθώς υπερτερεί και στις ελαφριές περιπτώσεις (ποσοστό επιτυχίας 90% έναντι 83% της Β) και στις βαριές περιπτώσεις με 65% επιτυχίες αντί 53% της τεχνικής Β. Πώς όμως γίνεται αυτή η «μαγική» αλλαγή της απόφασης;
Η απάντηση έγκειται στην ύπαρξη του παράγοντα σοβαρότητα του τραύματος, την οποία αγνοήσαμε στην πρώτη παράθεση των δεδομένων. Αυτός ο παράγων, που συχνά αναφέρεται ως συγχυτικός παράγων (confounder), επηρεάζει το αποτέλεσμα, καθώς οι ελαφριές περιπτώσεις έχουν γενικά μεγαλύτερη πιθανότητα επιτυχίας, αλλά επηρεάζει και την κατανομή της τεχνικής, καθώς η τεχνική Α ακολουθείται πιο συχνά στις δύσκολες (βαριές) περιπτώσεις. Το τελευταίο συμβαίνει συχνά στην πράξη καθώς οι καλύτερες τεχνικές μπορεί να είναι πιο επίπονες/ακριβές/δύσχρηστες κ.ο.κ. Συνεπώς, αν αγνοήσουμε ένα συγχυτικό παράγοντα μπορεί να επιλέξουμε τη λανθασμένη απόφαση.
Η αντιμετώπιση τέτοιων μεροληψιών αποτελεί θεμελιώδες πεδίο έρευνας στη σύγχρονη στατιστική και απαιτεί εννοιολογικά και πιθανοθεωρητικά προχωρημένες μεθοδολογίες. Τα δεδομένα του πραγματικού κόσμου βρίθουν τέτοιων παραγόντων και οι μεροληψίες είναι πανταχού παρούσες. Το ίδιο ισχύει και στα δεδομένα της τρέχουσας πανδημίας, όπου η στατιστική έπαιξε καταλυτικό ρόλο. Η στατιστική κατάφερε από την αρχή της πανδημίας να διασαφηνίσει τα βασικά χαρακτηριστικά του ιού SARS-CoV-2 που προκαλεί τη νόσο Covid-19:
Είναι πολύ πιο λοιμώδης από τα συνήθη λοιμώδη νοσήματα που κυκλοφορούν στην κοινότητα, όπως η γρίπη. Εχει μεγαλύτερη θνησιμότητα από τη γρίπη, περίπου δεκαπλάσια ανάλογα με την ηλικιακή κατανομή του πληθυσμού στον οποίο εξαπλώνεται, και η ηλικία είναι ο βασικός παράγων διαφοροποίησης ως προς τη θνησιμότητα η οποία αυξάνει δραστικά (για την ακρίβεια εκθετικά) με την ηλικία.
Αυτές οι διαπιστώσεις ήταν διακριτές αλλά αβέβαιες στην αρχή του 2020 και έγιναν ασφαλείς τους πρώτους μήνες της πανδημίας λόγω της στατιστικής ανάλυσης των κατάλληλων δεδομένων. Συνεπώς, η στόχευση των μη φαρμακευτικών (εν τη απουσία ενός εμβολίου) παρεμβάσεων των διαφόρων κυβερνήσεων προσαρμόστηκε ανάλογα.
Σε αυτή τη διαδικασία ήταν καθοριστική η παρουσία στατιστικών επιστημόνων στις επιστημονικές επιτροπές των χωρών, και στην αξιολόγηση των στοιχείων, όπως περί της σοβαρής νόσησης. Για παράδειγμα, είναι εύκολο να δει κανείς ότι η προστασία του εμβολίου από τη σοβαρή νόσηση είναι πολύ μεγαλύτερη από την απλή σύγκριση του ποσοστού των εμβολιασμένων ή μη εντός των ΜΕΘ. Σε αδρές γραμμές αυτό προκύπτει σκεπτόμενοι ότι η δεξαμενή των ατόμων που έχουν τον μεγαλύτερο κίνδυνο σοβαρής νόσησης, κυρίως οι άνω των 60, είναι εμβολιασμένοι σε μεγάλο ποσοστό, περίπου 90% στην Ελλάδα. Παρ’ όλα αυτά, το 10% των ανεμβολίαστων άνω των 60 «κυριαρχεί» στις ΜΕΘ καθώς οι ανεμβολίαστοι αποτελούν συχνά το 80-90% των διασωληνωμένων. Συνεπώς, μια δίκαιη σύγκριση των δύο ομάδων θα έπρεπε να λάβει υπ’ όψιν αυτά τα χαρακτηριστικά, οδηγώντας σε συντριπτικά συμπεράσματα περί της αποτελεσματικότητας του εμβολίου.
Αυτό το άρθρο αναφέρεται σε δεδομένα του Φεβρουάριου 2022, όταν η δεξαμενή των ατόμων που έχουν τον μεγαλύτερο κίνδυνο σοβαρής νόσησης, κυρίως οι άνω των 60, είναι εμβολιασμένοι σε μεγάλο ποσοστό, περίπου 90% στην Ελλάδα.