Categories
COVID-19

Covid19gr. Αναζητώντας ανοικτά δεδομένα για την πανδημία στην Ελλάδα

Εισαγωγή.

Στις 22/08/2020 δημιούργησα ένα αποθετήριο στο Github με στόχο να φιλοξενήσει δεδομένα και αναλύσεις για την εξέλιξη της πανδημίας στην Ελλάδα. Γνωρίζοντας ότι η Ελληνική Κυβέρνηση έχει δεσμευθεί να τηρεί αρχείο ανοικτών δεδομένων για διάφορα κρατικά θέματα, κάποια χρόνια πριν, θεώρησα δεδομένο ότι η δέσμευσή μας επεκτείνεται και στην διάθεση ανοικτών δεδομένων που αφορούν την εξέλιξη της πανδημίας στην χώρα μας. Άλλωστε, ήδη από τα πρώτα κιόλας κρούσματα, πολλοί οργανισμοί αλλά και κυβερνήσεις άλλων χωρών, προχώρησαν στην καταγραφή και διάθεση τέτοιων δεδομένων, ανοικτά.

Φάση Α’. Υποχρεώσεις & υφιστάμενη κατάσταση.

Προσπαθώντας να ανακαλύψω ποιες είναι οι υποχρεώσεις του κράτους μας απέναντι στην Ευρωπαϊκή Ένωση ή άλλους φορείς, ξεκίνησα μια καταγραφή του πλαισίου των ανοικτών δεδομένων το οποίο προκύπτει είτε από επίσημα έγγραφα της Ελληνικής Κυβέρνησης είτε από τη συμμετοχή μας σε διεθνείς οργανισμούς που προωθούν τα ανοικτά δεδομένα.

Σε δεύτερο επίπεδο, χρησιμοποιώντας την εμπειρία μου στα ανοικτά δεδομένα, αποφάσισα να ενσωματώσω στην μελέτη μου μερικά εργαλεία για την δημιουργία, την συντήρηση και την αξιολόγηση των ανοικτών δεδομένων.

Αμέσως μετά προχώρησα σε μια επισκόπηση της υφιστάμενης κατάστασης για να ανακαλύψω τι είδους δεδομένα παρέχονται επίσημα από την Ελληνική Κυβέρνηση, τους υγειονομικούς φορείς και το επιστημονικό προσωπικό, σχετικά με την εξέλιξη της πανδημίας. Αφότου ανακάλυψα τις πηγές, προσπάθησα να καταλάβω αν ακολουθούν της αρχές της ανοικτότητας – διάθεση δηλαδή των δεδομένων κάτω από κάποια άδεια ανοικτών δεδομένων – αλλά και το επίπεδο ανοικτότητας που επιτυγχάνουν, χρησιμοποιώντας το διεθνές σύστημα αξιολόγησης 5 ★ Open Data, που έχει προταθεί από τον Tim-Berners Lee, δημιουργό του Web.

Τέλος, επέκτεινα την αναζήτηση καταγράφοντας εθελοντικές προσπάθειες δημιουργίας συνόλων ανοικτών δεδομένων και αναλύσεις σχετικές με τα δεδομένα της πανδημίας, που είχαν ήδη αρχίσει να πολλαπλασιάζονται στο Διαδίκτυο.

Όλη αυτή η εργασία αποτυπώθηκε σε αυτήν εδώ την αναφορά με τελευταία επικαιροποίησή της στις 14/12/2020. Επιθυμώ να την ανανεώσω εκ νέου, μόλις το επιτρέψει ο χρόνος μου.

Κοντολογίς η παραπάνω μελέτη έδειξε ότι τα περισσότερα διαθέσιμα ανοικτά δεδομένα, που προσφέρονταν σε μηχαναγνώσιμη μορφή αλλά και διάφορες ενδιαφέρουσες οπτικοποιήσεις, εκείνη την περίοδο, είχαν μεν βασιστεί σε δεδομένα της Ελληνικής Κυβέρνησης που ήταν δημόσια διαθέσιμα, πλην όμως, δεν ήταν ξεκάθαρο ότι δημοσιεύονται κάτω από άδεια ανοικτών δεδομένων. Επίσης, τα επίσημα αυτά δεδομένα διατίθεντο σε μορφές μη φιλικές προς την ανάλυση και επεξεργασία από λογισμικό Η/Υ – ήταν συνήθως αναφορές .pdf ή ιστοσελίδες σε μορφή .html με ρέον κείμενο – δηλαδή όχι μηχαναγνώσιμες.

Τα αποτελέσματα της Φάσης Α’, είναι διαθέσιμα εδώ.

Φάση Β’. Το αποθετήριο ανοικτών δεδομένων covid19gr.

Το όλο εγχείρημα πυροδότησε εξ’ αρχής η διάθεσή μου να δημιουργήσω μια οπτικοποίηση των διαφόρων ζητημάτων που αφορούν την πανδημία για την πόλη της Θεσσαλονίκης, τον τόπο διαμονής μου, ή της Περιφέρειας Κεντρικής Μακεδονίας, αν δεν υπήρχαν δεδομένα για την Θεσσαλονίκη. Την περίοδο όμως που ξεκίνησα αυτήν την μελέτη τα δεδομένα ανά περιοχή, πόσο μάλλον ανά πόλη, ήταν περιορισμένα. Στην προσπάθειά μου να τα ανακαλύψω, όμως, προέκυψε κάτι άλλο.

Πολλοί από τους εθελοντές, δουλεύοντας μόνοι, είχαν αποδελτιώσει τους αριθμούς από τις ίδιες αναφορές με αποτέλεσμα να υπάρχουν πλήθος όμοιων μετρήσεων διαθέσιμες σε πολλά διαφορετικά σύνολα δεδομένων. Αυτό είναι κάτι πάρα πολύ καλό καθώς, ανάλογα με την οπτική του κάθε δημιουργού, εν δυνάμει, μπορεί να αποτυπώνεται μια διαφορετική εικόνα των δεδομένων. Αρκεί η ανάλυση και οι σχεδιαστικές επιλογές του συνόλου δεδομένων να είναι τεκμηριωμένες.

Έτσι, αφού η πλειονότητα των δεδομένων αφορούσε την επικράτεια και όχι τις περιφέρειες ή τις πόλεις που ήταν αυτό που με ενδιέφερε αρχικά, αποφάσισα να μην προχωρήσω στην οπτικοποίηση, που είχα αρχικά στο μυαλό μου, αλλά να δω σε ποια ερωτήματα απαντούσαν τα διαθέσιμα δεδομένα, μεμονωμένα ή συνδυαστικά, για ολόκληρη την επικράτεια. Μια πρώτη απάντηση στο ερώτημα, κατάφερα να δώσω με αυτήν την ανάλυση, στις 08/12/2020. Αξίζει να σημειωθεί ότι στις 08/12 η συγκεκριμένη σελίδα, στην οποία οδηγεί ο σύνδεσμος, μετρούσε 16 σύνολα δεδομένων.

Από αυτήν την ανάλυση δυο πράγματα έγιναν ξεκάθαρα:

  1. Πλήθος εθελοντών προσπαθούσε να καταγράψει, να οπτικοποιήσει και να ερμηνεύσει τα διαθέσιμα δεδομένα της πανδημίας, διαθέτοντας τα δεδομένα και τα αποτελέσματα, ως επί το πλείστον, δωρεάν και ανοικτά προς όλους.
  2. Διαφορετικά σύνολα δεδομένων, μεμονωμένα ή συνδυαστικά μπορούσαν να δώσουν μια καλή σφαιρική εικόνα της κατάστασης στην χώρα, για την καλύτερη ενημέρωση του κοινού.

Η παραπάνω ανάλυση κατέληξε στην πρώτη μορφή του αποθετηρίου covid19gr η οποία είχε την ακόλουθη δομή:

  1. Δεδομένα. Συλλογή επιλεγμένων συνόλων δεδομένων από διάφορες εθελοντικές προσπάθειες, πάντοτε με το υποκειμενικό φίλτρο του γράφοντα. Ο στόχος ήταν κάθε επιθυμητή μέτρηση να αντιστοιχιστεί σε ένα σύνολο δεδομένων.
  2. Επίσημες Αναφορές. Όλα τα σύνολα δεδομένων στηρίζονταν σε κάποια πρώτη ύλη πληροφορίας που με τη σειρά της στηρίζοντας σε κάποιες επίσημες αναφορές της Ελληνικής Κυβέρνησης, του ΕΟΔΥ, του Π.Ο.Υ., του E.C.D.C., κ.ο.κ. Θέλοντας να επιτύχω τη μέγιστη διαφάνεια ξεκίνησα να καταχωρώ στο αποθετήριο και όλες αυτές τις αναφορές σε μορφότυπο .pdf για να μπορεί, όποιος ενδιαφέρεται να πραγματοποιήσει έλεγχο των αριθμών που καταγράφηκαν στα σύνολα δεδομένων, αν το επιθυμεί.
  3. Αναλύσεις. Φιλοδοξούσα να έχω έναν χώρο ώστε να προσπαθώ να βγάλω χρήσιμα συμπεράσματα από τα δεδομένα δημιουργώντας μικρά προγράμματα ανάλυσης. Αυτό το κομμάτι βρίσκεται ακόμη σε αρκετά πειραματικό στάδιο.

Η αναλυτική παρουσίαση του αποθετηρίου στην σημερινή του μορφή, είναι διαθέσιμη εδώ.

Φάση Γ’. Συνάθροιση δεδομένων (aggregation).

Σε αυτό το σημείο είχα εξασφαλίσει διάφορες πηγές δεδομένων από τις οποίες μπορούσα να αλιεύω δεδομένα και είχα προσπαθήσει να ξεχωρίσω τα σύνολα δεδομένων που περιείχαν τις πληροφορίες που απαντούσαν σε συγκεκριμένα ερωτήματα. Εμφανίστηκαν τότε δύο νέα προβλήματα που έπρεπε να αντιμετωπισθούν.

  1. Τα σύνολα δεδομένων, αν και ήταν διαθέσιμα δημόσια ανοικτά, πράγμα που σήμαινε ότι είχα το νόμιμο δικαίωμα να τα αντιγράψω σε ένα δικό μου αποθετήριο κάνοντας αναφορά στους αρχικούς δημιουργούς, προέρχονταν από πολλές διαφορετικές πηγές.
  2. Τα ίδια σύνολα δεδομένων, ανανεώνονται πολύ συχνά (κάποια σε καθημερινή βάση) καθώς η πανδημία συνεχίζει να είναι σε εξέλιξη.

Δεδομένων λοιπόν των δύο παραπάνω σημείων προέκυψε η ανάγκη, για να μπορώ να συντηρώ το αποθετήριο με ανανεωμένα σύνολα δεδομένων τακτικά (π.χ. σε ημερήσια βάση) να μαζεύω ένα – ένα όλα τα επιλεγμένα σύνολα δεδομένων και να τα τοποθετώ στο δικό μου αποθετήριο. Έχοντας 16 τέτοια σύνολα δεδομένων και με την προοπτική ότι θα γίνονταν περισσότερα στο πέρασμα του χρόνου, η παραπάνω στρατηγική θα ήταν χρονικά ανέφικτη. Προχώρησα λοιπόν στην δημιουργία κάποιων προγραμμάτων που αυτόματα επιτελούν τις παρακάτω διεργασίες:

  1. Το πρώτο πρόγραμμα αλιεύει τα επιλεγμένα σύνολα δεδομένων κατευθείαν από της πηγές τους και τα τοποθετεί σε έναν κεντρικό φάκελο που έχω δημιουργήσει. Τα αρχικά σύνολα δεδομένων είναι όλα σε μορφότυπο (format) .csv από τους αρχικούς δημιουργούς τους. ΣΗΜΕΙΩΣΗ: Στον ίδιο φάκελο συντηρώ χειροκίνητα μερικά σύνολα δεδομένων που δημιούργησα εγώ προσωπικά.
  2. Το επόμενο πρόγραμμα φιλτράρει επιλεκτικά κάποια από τα σύνολα δεδομένων που είναι διεθνή, και παράγει ένα τελικό .csv με τις πληροφορίες που αφορούν αποκλειστικά την Ελλάδα.
  3. Το τελευταίο πρόγραμμα μετατρέπει αυτόματα τα σύνολα δεδομένων από τον μορφότυπο .csv σε μορφότυπο .json. Αυτό το βήμα δεν είναι απαραίτητο ωστόσο ο μορφότυπος .json είναι ιδανικός για την εξυπηρέτηση δεδομένων που παρέχονται για απευθείας κατανάλωση μέσα από μια διεπαφή προγραμματισμού εφαρμογών τύπου REST API.

Έχοντας δημιουργήσει αυτά τα προγράμματα, με αυτόματο τρόπο και σε καθημερινή βάση μπορώ να συναθροίζω την ενημερωμένη πληροφορία από όλα τα αποθετήρια που με ενδιαφέρουν. Μέσα σε λίγα λεπτά, 24 (πλέον) διαφορετικά σύνολα δεδομένων είναι διαθέσιμα και πλήρως ενημερωμένα, κάθε βράδυ.

Φάση Δ’. Ανάλυση δεδομένων.

Η ανάλυση των δεδομένων, αν και ήταν πρωταρχικός στόχος όταν ξεκίνησα την διαδικασία σχεδιασμού αυτού του αποθετηρίου, αποτέλεσε την 4η φάση του έργου. Βασικός λόγος που επέλεξα αυτήν την στρατηγική ήταν ότι βάση των διαθέσιμων δεδομένων που υπήρχαν όταν ξεκίνησα τη μελέτη μου αλλά και των οπτικοποιήσεων των δεδομένων από εθελοντές, ήταν ξεκάθαρο πως δεν υπήρχαν τα απαραίτητα δεδομένα για τις αναλύσεις που με ενδιέφεραν, ενώ παράλληλα, πλήθος εθελοντών είχαν κάνει εξαιρετική δουλειά στην οπτικοποίηση των δεδομένων της επικράτειας.

Στην πορεία όμως, όταν ξεκίνησα να δημιουργώ δικά μου σύνολα δεδομένων, όπως για παράδειγμα η αποτίμηση ελέγχων COVID-19 στην Ελληνική επικράτεια με δεδομένα που δημοσιεύει η Εθνική Αρχή Διαφάνειας, τότε υπήρξε εκ νέου η ανάγκη, αυτές οι αναλύσεις να είναι διαθέσιμες.

Έτσι σήμερα στο αποθετήριο covid19gr θα βρείτε στον φάκελο analysis, όλες τις διαθέσιμες αναλύσεις από εμένα. Σε κάθε περίπτωση ανάλυσης τόσο ο κώδικας του προγράμματος που εκτελεί την ανάλυση, όσο και τα αντίστοιχα δεδομένα (εισόδου και εξόδου), είναι διαθέσιμα κάτω από άδεια ανοικτού κώδικα και ανοικτών δεδομένων αντίστοιχα.

Περισσότερες πληροφορίες για την αδειοδότηση του αποθετηρίου, θα βρείτε στο τέλος του άρθρου.

Φάση Ε’. Οργάνωση του έργου.

Η εργασία που έχει πραγματοποιηθεί στο συγκεκριμένο έργο, κρύβει ένα παράπλευρο όφελος που δεν είναι εμφανές από τις πληροφορίες που διαβάσατε μέχρι τώρα. Η διαδικασία που περιγράφηκε, δηλάδή:

  1. η συλλογή των συνόλων δεδομένων
  2. η συνάθροισή τους σε ένα ενιαίο αποθετήριο
  3. η δημιουργία ενός χώρου για να γίνονται αναλύσεις δεδομένων

μπορεί να αντιγραφεί ως έχει και να χρησιμοποιηθεί από μια πόλη, μια περιφέρεια ή ένα κράτος που επιθυμεί να δημιουργήσει μια διαδικασία συλλογής, επεξεργασίας και καταγραφής δεδομένων που αφορούν την πανδημία COVID-19 ως ανοικτά δεδομένα, διαθέσιμα σε μηχαναγνώσιμη μορφή. Σε ορολογία του 5 ★ Open Data συστήματος που αναφέραμε στην αρχή του άρθρου, τα σύνολα δεδομένων που αρχικά διατίθενται σε μορφότυπο .pdf από την Κυβέρνηση (επίπεδο 1 στο 5 ★ Open Data), μετά από την διαδικασία που περιγράφουμε παραπάνω, μεταπηδούν αμέσως στο επίπεδο 3.

Εκτός αυτού, με την παραπάνω διαδικασία, τίθενται οι βάσεις να δημιουργηθεί μια κοινότητα αναλυτών των ανοικτών δεδομένων που θα θα πειραματίζεται σε αυτά, θα μοιράζεται τα ευρήματα και η επιστημονική ομάδα της κυβέρνησης θα μπορεί να αξιολογεί την κατάσταση έχοντας ακόμη πιο πολλές ιδέες και αναλύσεις για την εξέλιξη της πανδημίας. Η μέθοδος αυτή ονομάζεται πληθοπορισμός (crowd sourcing).

Πως θα μπορούσε λοιπόν ένα αποθετήριο δεδομένων να μετατραπεί σε μια κοινότητα συλλογής, επεξεργασίας / ανάλυσης και διόρθωσης των ανοικτών δεδομένων που αφορούν την πανδημία;

Πολλά από τα εργαλεία που χρειαζόμαστε μας το δίνει το ίδιο το Github η πλατφόρμα που φιλοξενεί το έργο που περιγράφουμε σε αυτό το άρθρο. Πιο συγκεκριμένα:

  • Με την δυνατότητα των έργων (projects), μπορούν να περιγράφοντα πακέτα εργασιών ώστε τα μέλη της κοινότητας να μπορούν να τα αναλαμβάνουν και να τα διεκπεραιώνουν ως υπο-έργα. Μπορείτε να βρείτε μια πρώτη προσπάθεια καταγραφής τέτοιων υπο-έργων, για την περίπτωση του covid19gr, εδώ.
  • Με την (σχετικά νέα) δυνατότητα των συζητήσεων (discussions), μπορούν τα μέλη της κοινότητας να λειτουργούν ως think tank και να συζητούν ποια είναι η καλύτερη στρατηγική αντιμετώπισης στο κάθε πρόβλημα που ανακύπτει. Ένα παράδειγμα τέτοιας συζήτησης μπορείτε να βρείτε εδώ.
  • Με την λειτουργικότητα των αιτημάτων υποστήριξης (issues), όλοι οι ενδιαφερόμενοι μπορούν να επισημαίνουν λάθη ή διορθώσεις που παρατηρούν δουλεύοντας με τα δεδομένα του αποθετηρίου ή τα προγράμματα ανάλυσης των δεδομένων.

Βιβλιογραφία.

Εκτός των προαναφερθέντων, κάνω μια προσπάθεια να συγκεντρώσω επιστημονική βιβλιογραφία για διάφορες πτυχές της εξέλιξης της πανδημίας. Ένα κομμάτι της προκύπτει από την δική μου μελέτη και ένα άλλο από τους υπόλοιπους εθελοντές που ασχολούνται με το αντικείμενο και κατά καιρούς μοιράζονται χρήσιμα links σε έγκυρες πηγές.

Οι περισσότερες αναφορές είναι από επιστημονικά περιοδικά, ερευνητικά κέντρα ή έγκριτα δημοσιογραφικά μέσα.

Μπορείτε να βρείτε την τακτικά ανανεούμενη βιλιογραφία εδώ. Εάν τυχόν εντοπίσετε κάποιο σφάλμα ή εάν θέλετε να προτείνετε κάποια αναφορά να συμπεριληφθεί στην βιβλιογραφία, μπορείτε να επικοινωνήσετε μαζί μου από εδώ.

Λίγα λόγια για την άδεια χρήσης του περιεχομένου του αποθετηρίου covid19gr.

Τα δεδομένα είναι δύναμη. Σε καιρούς κρίσεων μάλιστα, εάν χρησιμοποιηθούν σωστά μπορούν να κάνουν τη διαφορά προστατεύοντας τους συμπολίτες μας. Έχοντας αυτά σαν βασικές σκέψεις δημοσιεύουμε το περιεχόμενο αυτού του αποθετηρίου, εκτός αν αναφέρεται ρητά κάτι διαφορετικό σε κάποιο σημείο, κάτω από άδεια: Κοινό Κτήμα / Public Domain: CC0-1.0.

Καθώς το αποθετήριο προσφέρεται κάτω από άδεια Κοινού Κτήματος CC0-1.0, δεν έχετε καμία απολύτως υποχρέωση να κάνετε κανενός είδους αναφοράς σε εμένα. Εάν παρόλα αυτά θέλετε να κάνετε κάποια αναφορά θα μπορούσατε να χρησιμοποιήσετε την παρακάτω μορφή:

Apostolos Kritikos. (2021, March 21). akritiko/covid19gr: Pythagoras (Version 3.0.0). Zenodo. http://doi.org/10.5281/zenodo.4625530

ή σε μορφή BibTEX version.

Λίγα λόγια για τους εθελοντές στην δουλειά των οποίων βασίστηκε το covid19gr.

Το αποθετήριο αυτό δεν είναι τίποτε άλλο παρά μία συλλογή από σετ δεδομένων. Για τα σύνολα δεδομένων που περιλαμβάνει εργάσθηκαν οι εξής: Sandbird, Covid-19-Response-Greece, @Nyrros, iMEdD-Lab, covid19.gov.gr, CovidDEXP, covid19-projections.com, covid19.healthdata.org, Oxford Covid-19 Government Response Tracker, ActiveConclusion, Google, Apple, TomTom.

By A.

Hello. I am Apostolos Kritikos. A Software Engineer and Researcher “made in Greece”. I love coffee, music and doing the lindy hop (swing dancing).