Categories
COVID-19 Featured Greek

Covid19gr. Αναζητώντας ανοικτά δεδομένα για την πανδημία στην Ελλάδα

Reading Time: 7 min

Εισαγωγή.

Στις 22/08/2020 δημιούργησα ένα αποθετήριο στο Github με στόχο να φιλοξενήσει δεδομένα και αναλύσεις για την εξέλιξη της πανδημίας στην Ελλάδα. Γνωρίζοντας ότι η Ελληνική Κυβέρνηση έχει δεσμευθεί να τηρεί αρχείο ανοικτών δεδομένων για διάφορα κρατικά θέματα, κάποια χρόνια πριν, θεώρησα δεδομένο ότι η δέσμευσή μας επεκτείνεται και στην διάθεση ανοικτών δεδομένων που αφορούν την εξέλιξη της πανδημίας στην χώρα μας. Άλλωστε, ήδη από τα πρώτα κιόλας κρούσματα, πολλοί οργανισμοί αλλά και κυβερνήσεις άλλων χωρών, προχώρησαν στην καταγραφή και διάθεση τέτοιων δεδομένων, ανοικτά.

Φάση Α’. Υποχρεώσεις & υφιστάμενη κατάσταση.

Προσπαθώντας να ανακαλύψω ποιες είναι οι υποχρεώσεις του κράτους μας απέναντι στην Ευρωπαϊκή Ένωση ή άλλους φορείς, ξεκίνησα μια καταγραφή του πλαισίου των ανοικτών δεδομένων το οποίο προκύπτει είτε από επίσημα έγγραφα της Ελληνικής Κυβέρνησης είτε από τη συμμετοχή μας σε διεθνείς οργανισμούς που προωθούν τα ανοικτά δεδομένα.

Σε δεύτερο επίπεδο, χρησιμοποιώντας την εμπειρία μου στα ανοικτά δεδομένα, αποφάσισα να ενσωματώσω στην μελέτη μου μερικά εργαλεία για την δημιουργία, την συντήρηση και την αξιολόγηση των ανοικτών δεδομένων.

Αμέσως μετά προχώρησα σε μια επισκόπηση της υφιστάμενης κατάστασης για να ανακαλύψω τι είδους δεδομένα παρέχονται επίσημα από την Ελληνική Κυβέρνηση, τους υγειονομικούς φορείς και το επιστημονικό προσωπικό, σχετικά με την εξέλιξη της πανδημίας. Αφότου ανακάλυψα τις πηγές, προσπάθησα να καταλάβω αν ακολουθούν της αρχές της ανοικτότητας – διάθεση δηλαδή των δεδομένων κάτω από κάποια άδεια ανοικτών δεδομένων – αλλά και το επίπεδο ανοικτότητας που επιτυγχάνουν, χρησιμοποιώντας το διεθνές σύστημα αξιολόγησης 5 ★ Open Data, που έχει προταθεί από τον Tim-Berners Lee, δημιουργό του Web.

Τέλος, επέκτεινα την αναζήτηση καταγράφοντας εθελοντικές προσπάθειες δημιουργίας συνόλων ανοικτών δεδομένων και αναλύσεις σχετικές με τα δεδομένα της πανδημίας, που είχαν ήδη αρχίσει να πολλαπλασιάζονται στο Διαδίκτυο.

Όλη αυτή η εργασία αποτυπώθηκε σε αυτήν εδώ την αναφορά με τελευταία επικαιροποίησή της στις 14/12/2020. Επιθυμώ να την ανανεώσω εκ νέου, μόλις το επιτρέψει ο χρόνος μου.

Κοντολογίς η παραπάνω μελέτη έδειξε ότι τα περισσότερα διαθέσιμα ανοικτά δεδομένα, που προσφέρονταν σε μηχαναγνώσιμη μορφή αλλά και διάφορες ενδιαφέρουσες οπτικοποιήσεις, εκείνη την περίοδο, είχαν μεν βασιστεί σε δεδομένα της Ελληνικής Κυβέρνησης που ήταν δημόσια διαθέσιμα, πλην όμως, δεν ήταν ξεκάθαρο ότι δημοσιεύονται κάτω από άδεια ανοικτών δεδομένων. Επίσης, τα επίσημα αυτά δεδομένα διατίθεντο σε μορφές μη φιλικές προς την ανάλυση και επεξεργασία από λογισμικό Η/Υ – ήταν συνήθως αναφορές .pdf ή ιστοσελίδες σε μορφή .html με ρέον κείμενο – δηλαδή όχι μηχαναγνώσιμες.

Τα αποτελέσματα της Φάσης Α’, είναι διαθέσιμα εδώ.

Φάση Β’. Το αποθετήριο ανοικτών δεδομένων covid19gr.

Το όλο εγχείρημα πυροδότησε εξ’ αρχής η διάθεσή μου να δημιουργήσω μια οπτικοποίηση των διαφόρων ζητημάτων που αφορούν την πανδημία για την πόλη της Θεσσαλονίκης, τον τόπο διαμονής μου, ή της Περιφέρειας Κεντρικής Μακεδονίας, αν δεν υπήρχαν δεδομένα για την Θεσσαλονίκη. Την περίοδο όμως που ξεκίνησα αυτήν την μελέτη τα δεδομένα ανά περιοχή, πόσο μάλλον ανά πόλη, ήταν περιορισμένα. Στην προσπάθειά μου να τα ανακαλύψω, όμως, προέκυψε κάτι άλλο.

Πολλοί από τους εθελοντές, δουλεύοντας μόνοι, είχαν αποδελτιώσει τους αριθμούς από τις ίδιες αναφορές με αποτέλεσμα να υπάρχουν πλήθος όμοιων μετρήσεων διαθέσιμες σε πολλά διαφορετικά σύνολα δεδομένων. Αυτό είναι κάτι πάρα πολύ καλό καθώς, ανάλογα με την οπτική του κάθε δημιουργού, εν δυνάμει, μπορεί να αποτυπώνεται μια διαφορετική εικόνα των δεδομένων. Αρκεί η ανάλυση και οι σχεδιαστικές επιλογές του συνόλου δεδομένων να είναι τεκμηριωμένες.

Έτσι, αφού η πλειονότητα των δεδομένων αφορούσε την επικράτεια και όχι τις περιφέρειες ή τις πόλεις που ήταν αυτό που με ενδιέφερε αρχικά, αποφάσισα να μην προχωρήσω στην οπτικοποίηση, που είχα αρχικά στο μυαλό μου, αλλά να δω σε ποια ερωτήματα απαντούσαν τα διαθέσιμα δεδομένα, μεμονωμένα ή συνδυαστικά, για ολόκληρη την επικράτεια. Μια πρώτη απάντηση στο ερώτημα, κατάφερα να δώσω με αυτήν την ανάλυση, στις 08/12/2020. Αξίζει να σημειωθεί ότι στις 08/12 η συγκεκριμένη σελίδα, στην οποία οδηγεί ο σύνδεσμος, μετρούσε 16 σύνολα δεδομένων.

Από αυτήν την ανάλυση δυο πράγματα έγιναν ξεκάθαρα:

  1. Πλήθος εθελοντών προσπαθούσε να καταγράψει, να οπτικοποιήσει και να ερμηνεύσει τα διαθέσιμα δεδομένα της πανδημίας, διαθέτοντας τα δεδομένα και τα αποτελέσματα, ως επί το πλείστον, δωρεάν και ανοικτά προς όλους.
  2. Διαφορετικά σύνολα δεδομένων, μεμονωμένα ή συνδυαστικά μπορούσαν να δώσουν μια καλή σφαιρική εικόνα της κατάστασης στην χώρα, για την καλύτερη ενημέρωση του κοινού.

Η παραπάνω ανάλυση κατέληξε στην πρώτη μορφή του αποθετηρίου covid19gr η οποία είχε την ακόλουθη δομή:

  1. Δεδομένα. Συλλογή επιλεγμένων συνόλων δεδομένων από διάφορες εθελοντικές προσπάθειες, πάντοτε με το υποκειμενικό φίλτρο του γράφοντα. Ο στόχος ήταν κάθε επιθυμητή μέτρηση να αντιστοιχιστεί σε ένα σύνολο δεδομένων.
  2. Επίσημες Αναφορές. Όλα τα σύνολα δεδομένων στηρίζονταν σε κάποια πρώτη ύλη πληροφορίας που με τη σειρά της στηρίζοντας σε κάποιες επίσημες αναφορές της Ελληνικής Κυβέρνησης, του ΕΟΔΥ, του Π.Ο.Υ., του E.C.D.C., κ.ο.κ. Θέλοντας να επιτύχω τη μέγιστη διαφάνεια ξεκίνησα να καταχωρώ στο αποθετήριο και όλες αυτές τις αναφορές σε μορφότυπο .pdf για να μπορεί, όποιος ενδιαφέρεται να πραγματοποιήσει έλεγχο των αριθμών που καταγράφηκαν στα σύνολα δεδομένων, αν το επιθυμεί.
  3. Αναλύσεις. Φιλοδοξούσα να έχω έναν χώρο ώστε να προσπαθώ να βγάλω χρήσιμα συμπεράσματα από τα δεδομένα δημιουργώντας μικρά προγράμματα ανάλυσης. Αυτό το κομμάτι βρίσκεται ακόμη σε αρκετά πειραματικό στάδιο.

Η αναλυτική παρουσίαση του αποθετηρίου στην σημερινή του μορφή, είναι διαθέσιμη εδώ.

Φάση Γ’. Συνάθροιση δεδομένων (aggregation).

Σε αυτό το σημείο είχα εξασφαλίσει διάφορες πηγές δεδομένων από τις οποίες μπορούσα να αλιεύω δεδομένα και είχα προσπαθήσει να ξεχωρίσω τα σύνολα δεδομένων που περιείχαν τις πληροφορίες που απαντούσαν σε συγκεκριμένα ερωτήματα. Εμφανίστηκαν τότε δύο νέα προβλήματα που έπρεπε να αντιμετωπισθούν.

  1. Τα σύνολα δεδομένων, αν και ήταν διαθέσιμα δημόσια ανοικτά, πράγμα που σήμαινε ότι είχα το νόμιμο δικαίωμα να τα αντιγράψω σε ένα δικό μου αποθετήριο κάνοντας αναφορά στους αρχικούς δημιουργούς, προέρχονταν από πολλές διαφορετικές πηγές.
  2. Τα ίδια σύνολα δεδομένων, ανανεώνονται πολύ συχνά (κάποια σε καθημερινή βάση) καθώς η πανδημία συνεχίζει να είναι σε εξέλιξη.

Δεδομένων λοιπόν των δύο παραπάνω σημείων προέκυψε η ανάγκη, για να μπορώ να συντηρώ το αποθετήριο με ανανεωμένα σύνολα δεδομένων τακτικά (π.χ. σε ημερήσια βάση) να μαζεύω ένα – ένα όλα τα επιλεγμένα σύνολα δεδομένων και να τα τοποθετώ στο δικό μου αποθετήριο. Έχοντας 16 τέτοια σύνολα δεδομένων και με την προοπτική ότι θα γίνονταν περισσότερα στο πέρασμα του χρόνου, η παραπάνω στρατηγική θα ήταν χρονικά ανέφικτη. Προχώρησα λοιπόν στην δημιουργία κάποιων προγραμμάτων που αυτόματα επιτελούν τις παρακάτω διεργασίες:

  1. Το πρώτο πρόγραμμα αλιεύει τα επιλεγμένα σύνολα δεδομένων κατευθείαν από της πηγές τους και τα τοποθετεί σε έναν κεντρικό φάκελο που έχω δημιουργήσει. Τα αρχικά σύνολα δεδομένων είναι όλα σε μορφότυπο (format) .csv από τους αρχικούς δημιουργούς τους. ΣΗΜΕΙΩΣΗ: Στον ίδιο φάκελο συντηρώ χειροκίνητα μερικά σύνολα δεδομένων που δημιούργησα εγώ προσωπικά.
  2. Το επόμενο πρόγραμμα φιλτράρει επιλεκτικά κάποια από τα σύνολα δεδομένων που είναι διεθνή, και παράγει ένα τελικό .csv με τις πληροφορίες που αφορούν αποκλειστικά την Ελλάδα.
  3. Το τελευταίο πρόγραμμα μετατρέπει αυτόματα τα σύνολα δεδομένων από τον μορφότυπο .csv σε μορφότυπο .json. Αυτό το βήμα δεν είναι απαραίτητο ωστόσο ο μορφότυπος .json είναι ιδανικός για την εξυπηρέτηση δεδομένων που παρέχονται για απευθείας κατανάλωση μέσα από μια διεπαφή προγραμματισμού εφαρμογών τύπου REST API.

Έχοντας δημιουργήσει αυτά τα προγράμματα, με αυτόματο τρόπο και σε καθημερινή βάση μπορώ να συναθροίζω την ενημερωμένη πληροφορία από όλα τα αποθετήρια που με ενδιαφέρουν. Μέσα σε λίγα λεπτά, 24 (πλέον) διαφορετικά σύνολα δεδομένων είναι διαθέσιμα και πλήρως ενημερωμένα, κάθε βράδυ.

Φάση Δ’. Ανάλυση δεδομένων.

Η ανάλυση των δεδομένων, αν και ήταν πρωταρχικός στόχος όταν ξεκίνησα την διαδικασία σχεδιασμού αυτού του αποθετηρίου, αποτέλεσε την 4η φάση του έργου. Βασικός λόγος που επέλεξα αυτήν την στρατηγική ήταν ότι βάση των διαθέσιμων δεδομένων που υπήρχαν όταν ξεκίνησα τη μελέτη μου αλλά και των οπτικοποιήσεων των δεδομένων από εθελοντές, ήταν ξεκάθαρο πως δεν υπήρχαν τα απαραίτητα δεδομένα για τις αναλύσεις που με ενδιέφεραν, ενώ παράλληλα, πλήθος εθελοντών είχαν κάνει εξαιρετική δουλειά στην οπτικοποίηση των δεδομένων της επικράτειας.

Στην πορεία όμως, όταν ξεκίνησα να δημιουργώ δικά μου σύνολα δεδομένων, όπως για παράδειγμα η αποτίμηση ελέγχων COVID-19 στην Ελληνική επικράτεια με δεδομένα που δημοσιεύει η Εθνική Αρχή Διαφάνειας, τότε υπήρξε εκ νέου η ανάγκη, αυτές οι αναλύσεις να είναι διαθέσιμες.

Έτσι σήμερα στο αποθετήριο covid19gr θα βρείτε στον φάκελο analysis, όλες τις διαθέσιμες αναλύσεις από εμένα. Σε κάθε περίπτωση ανάλυσης τόσο ο κώδικας του προγράμματος που εκτελεί την ανάλυση, όσο και τα αντίστοιχα δεδομένα (εισόδου και εξόδου), είναι διαθέσιμα κάτω από άδεια ανοικτού κώδικα και ανοικτών δεδομένων αντίστοιχα.

Περισσότερες πληροφορίες για την αδειοδότηση του αποθετηρίου, θα βρείτε στο τέλος του άρθρου.

Φάση Ε’. Οργάνωση του έργου.

Η εργασία που έχει πραγματοποιηθεί στο συγκεκριμένο έργο, κρύβει ένα παράπλευρο όφελος που δεν είναι εμφανές από τις πληροφορίες που διαβάσατε μέχρι τώρα. Η διαδικασία που περιγράφηκε, δηλάδή:

  1. η συλλογή των συνόλων δεδομένων
  2. η συνάθροισή τους σε ένα ενιαίο αποθετήριο
  3. η δημιουργία ενός χώρου για να γίνονται αναλύσεις δεδομένων

μπορεί να αντιγραφεί ως έχει και να χρησιμοποιηθεί από μια πόλη, μια περιφέρεια ή ένα κράτος που επιθυμεί να δημιουργήσει μια διαδικασία συλλογής, επεξεργασίας και καταγραφής δεδομένων που αφορούν την πανδημία COVID-19 ως ανοικτά δεδομένα, διαθέσιμα σε μηχαναγνώσιμη μορφή. Σε ορολογία του 5 ★ Open Data συστήματος που αναφέραμε στην αρχή του άρθρου, τα σύνολα δεδομένων που αρχικά διατίθενται σε μορφότυπο .pdf από την Κυβέρνηση (επίπεδο 1 στο 5 ★ Open Data), μετά από την διαδικασία που περιγράφουμε παραπάνω, μεταπηδούν αμέσως στο επίπεδο 3.

Εκτός αυτού, με την παραπάνω διαδικασία, τίθενται οι βάσεις να δημιουργηθεί μια κοινότητα αναλυτών των ανοικτών δεδομένων που θα θα πειραματίζεται σε αυτά, θα μοιράζεται τα ευρήματα και η επιστημονική ομάδα της κυβέρνησης θα μπορεί να αξιολογεί την κατάσταση έχοντας ακόμη πιο πολλές ιδέες και αναλύσεις για την εξέλιξη της πανδημίας. Η μέθοδος αυτή ονομάζεται πληθοπορισμός (crowd sourcing).

Πως θα μπορούσε λοιπόν ένα αποθετήριο δεδομένων να μετατραπεί σε μια κοινότητα συλλογής, επεξεργασίας / ανάλυσης και διόρθωσης των ανοικτών δεδομένων που αφορούν την πανδημία;

Πολλά από τα εργαλεία που χρειαζόμαστε μας το δίνει το ίδιο το Github η πλατφόρμα που φιλοξενεί το έργο που περιγράφουμε σε αυτό το άρθρο. Πιο συγκεκριμένα:

  • Με την δυνατότητα των έργων (projects), μπορούν να περιγράφοντα πακέτα εργασιών ώστε τα μέλη της κοινότητας να μπορούν να τα αναλαμβάνουν και να τα διεκπεραιώνουν ως υπο-έργα. Μπορείτε να βρείτε μια πρώτη προσπάθεια καταγραφής τέτοιων υπο-έργων, για την περίπτωση του covid19gr, εδώ.
  • Με την (σχετικά νέα) δυνατότητα των συζητήσεων (discussions), μπορούν τα μέλη της κοινότητας να λειτουργούν ως think tank και να συζητούν ποια είναι η καλύτερη στρατηγική αντιμετώπισης στο κάθε πρόβλημα που ανακύπτει. Ένα παράδειγμα τέτοιας συζήτησης μπορείτε να βρείτε εδώ.
  • Με την λειτουργικότητα των αιτημάτων υποστήριξης (issues), όλοι οι ενδιαφερόμενοι μπορούν να επισημαίνουν λάθη ή διορθώσεις που παρατηρούν δουλεύοντας με τα δεδομένα του αποθετηρίου ή τα προγράμματα ανάλυσης των δεδομένων.

Βιβλιογραφία.

Εκτός των προαναφερθέντων, κάνω μια προσπάθεια να συγκεντρώσω επιστημονική βιβλιογραφία για διάφορες πτυχές της εξέλιξης της πανδημίας. Ένα κομμάτι της προκύπτει από την δική μου μελέτη και ένα άλλο από τους υπόλοιπους εθελοντές που ασχολούνται με το αντικείμενο και κατά καιρούς μοιράζονται χρήσιμα links σε έγκυρες πηγές.

Οι περισσότερες αναφορές είναι από επιστημονικά περιοδικά, ερευνητικά κέντρα ή έγκριτα δημοσιογραφικά μέσα.

Μπορείτε να βρείτε την τακτικά ανανεούμενη βιλιογραφία εδώ. Εάν τυχόν εντοπίσετε κάποιο σφάλμα ή εάν θέλετε να προτείνετε κάποια αναφορά να συμπεριληφθεί στην βιβλιογραφία, μπορείτε να επικοινωνήσετε μαζί μου από εδώ.

Λίγα λόγια για την άδεια χρήσης του περιεχομένου του αποθετηρίου covid19gr.

Τα δεδομένα είναι δύναμη. Σε καιρούς κρίσεων μάλιστα, εάν χρησιμοποιηθούν σωστά μπορούν να κάνουν τη διαφορά προστατεύοντας τους συμπολίτες μας. Έχοντας αυτά σαν βασικές σκέψεις δημοσιεύουμε το περιεχόμενο αυτού του αποθετηρίου, εκτός αν αναφέρεται ρητά κάτι διαφορετικό σε κάποιο σημείο, κάτω από άδεια: Κοινό Κτήμα / Public Domain: CC0-1.0.

Καθώς το αποθετήριο προσφέρεται κάτω από άδεια Κοινού Κτήματος CC0-1.0, δεν έχετε καμία απολύτως υποχρέωση να κάνετε κανενός είδους αναφοράς σε εμένα. Εάν παρόλα αυτά θέλετε να κάνετε κάποια αναφορά θα μπορούσατε να χρησιμοποιήσετε την παρακάτω μορφή:

Apostolos Kritikos. (2021, January 15). akritiko/covid19gr: Cebes (Version 2.0.0). Zenodo. http://doi.org/10.5281/zenodo.4444185.

ή σε μορφή BibTEX version.

Λίγα λόγια για τους εθελοντές στην δουλειά των οποίων βασίστηκε το covid19gr.

Το αποθετήριο αυτό δεν είναι τίποτε άλλο παρά μία συλλογή από σετ δεδομένων. Για τα σύνολα δεδομένων που περιλαμβάνει εργάσθηκαν οι εξής: Sandbird, Covid-19-Response-Greece, @Nyrros, iMEdD-Lab, covid19.gov.gr, CovidDEXP, covid19-projections.com, covid19.healthdata.org, Oxford Covid-19 Government Response Tracker, ActiveConclusion, Google, Apple, TomTom.

Categories
COVID-19 English Featured

Reading during the COVID-19 pandemic

Reading Time: 2 min

This year was undoubtedly a troubled one. A worldwide pandemic forced us to live completely isolated from our friends and loved ones for 10 out of the 12 months. Moreover we had to request permission to move around and live with a curfew for almost half of the year.

So what do you do in a quarantine? Apart from trying to figure things out, obviously! Well, for one, you read. Reading was a habit I had seriously neglected for nearly a decade. Lock-downs were a golden opportunity to get back to it.

During 2020 I read 10 books in total. Following you can find the list and a brief comment:

  1. The Last Bluff: How Greece came face-to-face with financial catastrophe & the secret plan for its euro exit. An interesting book about Greece’s nearly Grexit, the referendum and the negotiations of SYRIZA with the IMF.
  2. The road to character. Nicely written, this book discusses the concepts of ego, personal ethics in the age of information (and social media) and how / if we can navigate through this flood of information to a better character.
  3. Enchiridion. Stoic philosophers became a trend during the pandemic. I thought I dive a little into them. (NOTE: Follow the link to find the full version of the book available for free).
  4. Shakespear’s Sonnets. Amazing work by Shakespear. Made the difficult days of the quarantine, well… not so difficult.
  5. The subtle art of not giving a f*ck. Interesting and with some pretty practical tips, but overatted in my honest opinion.
  6. OFF – Life starts when you turn your mobile OFF. A bit harsh since technology was a great part in our quarantined life but reading it while in quarantine might make us appreciate face to face contact when we get it back.
  7. I will teach you to be rich. A guide to automate our personal finance, organize our savings and get to investing. Written with the US bank system in mind, but many of the recipes can be applied to the EU financial reality as well.
  8. Bushido. The soul of Japan. Great philosophical work from the Japanese philosophy. (NOTE: Follow the link to find the full version of the book available for free).
  9. Egcheiridio Vlakeias (in Greek). A rational book about stupidity being a part of the world and how to use that in our everyday life.
  10. Meditations by Marcus Aurelius. The second Stoic philosophy work I read during 2020. (NOTE: Follow the link to find the full version of the book available for free).

Looking forward to more reading during 2021 (pandemic aside :P)!

PS: For more information about the books you can visit my Goodreads Reading Challenge page (2020 edition).