Categories
Thoughts

Συζητώντας με το ChatGPT για τις ανάγκες πρασίνου στον Δήμο Θεσσαλονίκης

Photo by Lazarescu Alexandra on Unsplash.

Στον Δήμο Θεσσαλονίκης υπάρχει η Εφαρμογή Διαχείρισης Αστικών Δένδρων (GreenTree). Σε αυτήν την εφαρμογή, εν γένει, ο επισκέπτης μπορεί να δει την κατανομή των δένδρων στον Δήμο Θεσσαλονίκης σε μορφή χάρτη αλλά και κάποια στατιστικά στοιχεία για το πράσινο στον Δήμου Θεσσαλονίκης 👇

Η Θεσσαλονίκη πιθανότατα δεν έχει όσα δένδρα θα έπρεπε. Το καταλαβαίνουμε αυτό – στην πράξη – όταν, τους καλοκαιρινούς μήνες κυρίως, περπατούμε στο κέντρο της πόλης και η θερμοκρασία είναι υψηλή ενώ οι σκιές λίγες. Σκεπτόμενος λοιπόν ότι μάλλον δεν έχουμε αρκετό πράσινο, μου δημιουργήθηκαν οι εξής απορίες:

  • Τι σημαίνει αρκετό πράσινο σε μια πόλη;
  • Αν δεν έχουμε όσο πράσινο πρέπει, πόσα δένδρα παραπάνω θα έπρεπε να είχαμε;
  • Τι συμβαίνει σε άλλα ευρωπαϊκά αστικά κέντρα;

Κοιτάζοντας την εφαρμογή του Δήμου Θεσσαλονίκης και τα δεδομένα που μας παρέχει, αναρωτήθηκα αν θα μπορούσα να βρώ απαντήσεις στις ερωτήσεις μου. Σε πρώτη ανάγνωση, δεν φαίνεται να υπάρχει κάποια αναφορά στο κατά πόσο τα υπάρχοντα δένδρα, καλύπτουν τις βασικές ανάγκες πρασίνου του δήμου Θεσσαλονίκης. Αυτό όμως που υπάρχει σε αυτήν την εφαρμογή, είναι η καταγραφή των δένδρων που σήμερα θεωρούνται ζωντανά στον Δήμο Θεσσαλονίκης, μαζί με κάποια βασικά χαρακτηριστικά τους (τύπος δένδρου, ύψος, στηθιαία διάμετρος και προβολή κόμης). Αυτά τα στοιχεία είναι διαθέσιμα εδώ.

Αποφάσισα λοιπόν να προσπαθήσω να αναζητήσω απαντήσεις στα παραπάνω ερωτήματά, συζητώντας με το ChatGPT.

Disclaimer: Δεν έχω την απαραίτητη εκπαίδευση ενός δασολόγου οπότε είναι πιθανό σε αυτήν “την συζήτηση” να έχω παρανοήσει κάποιους όρους. Ο στόχος της δημοσίευσης, ωστόσο, δεν είναι να προσεγγίσω μια στρατηγική δενρδοφύτευσης ή να λύσω το πρόβλημα πρασίνου της πόλης. Προσπαθώ να αναδείξω πως η ύπαρξη καλοδιατηρημένων συνόλων ανοικτών δεδομένων, φέρνει μια σειρά πλεονεκτημάτων:

  • Η ίδια η διοίκηση μπορεί να παίρνει αποφάσεις, οδηγούμενες από δεδομένα (data-driven decision making).
  • Οι δημότες και οργανισμοί που ενδιαφέρονται μπορούν να έχουν πρόσβαση στα δεδομένα και να κάνουν τις δικές τους αναλύσεις. Τέτοιοι δημότες θα μπορούσαν να είναι ερευνητές, φοιτητές που φοιτούν σε σχετικές σχολές, πανεπιστήμια, ερευνητικά κέντρα, ΜΚΟ, κοκ.
  • Τα ανοικτά δεδομένα αποτελούν εξαιρετικό μέσο για εκπαιδευτικές διαδικασίες. Θα μπορούσαν να χρησιμοποιηθούν από εκπαιδευτικούς για περιβαλλοντικά σχολικά προγράμματα ή άλλα σχολικά projects.

***

H συζήτηση

Ξεκίνησα την κουβέντα ζητώντας πληροφορίες για το πως μπορώ να καταλάβω αν το πράσινο στην πόλη μου είναι αρκετό. Σύμφωνα με το ChatGPT, ο τρόπος για να απαντηθεί αυτή η ερώτηση, είναι να γνωρίζω το Tree Canopy Cover (TCC) του δήμου, δηλαδή το ποσοστό της περιοχής του Δήμου Θεσσαλονίκης που καλύπτεται από δένδρα.

Το ChatGPT “με συμβουλεύει” ότι ένα καλό TCC είναι το 40%. Επίσης μου γράφει τί κερδίζω αν έχω καλό TCC στον δήμο μου:

  • Καλύτερες μέσες θερμοκρασίες και επίπεδα υγρασίας.
  • Καλύτερη ποιότητα αέρα.
  • Υψηλότερη αισθητική και σημεία αναψυχής και χαλάρωσης για τους κατοίκους.
  • Βιοποικιλότητα.

Στην συνέχεια, αναρωτήθηκα ποιο είναι το μέσο TCC μιας ευρωπαϊκής αστικής πόλης για να δω αν το 40%, που μου ανέφερε, έχει νόημα να είναι το κατώφλι της έρευνάς μου.

Φαίνεται ότι ο μέσος όρος κυμμαίνεται στο 15% ενώ μια “πιο ρεαλιστική πρόταση” είναι το 30% ώστε να αρχίσει η πόλη να επωφελείται από το πράσινο. Οπότε η ερώτηση μετασχηματίστηκε ως ακολούθως: Βάσει των δένδρων που έχουμε σήμερα, πόσα δένδρα μακριά είμαστε από τον στόχο του 15%, 30% ή 40%.

Για να βοηθήσω το ChatGPT να με βοηθήσει, έφτιαξα ένα αρχείο τιμών, χρησιμοποιώντας την Εφαρμογή Διαχείρισης Αστικών Δένδρων του Δήμου Θεσσαλονίκης που ανέφερα παραπάνω. Το αρχείο είναι διαθέσιμο εδώ (για όποιον ενδιαφέρεται να το χρησιμοποιήσει). Εν τέλει έδωσα στο ChatGPT την ακόλουθη είσοδο:

και πήρα τις ακόλουθες πληροφορίες:

Αυτή είναι η λογική που θα ακολουθήσει το ChatGPT για να μου δώσει τις απαντήσεις στις ερωτήσεις μου. Ακολουθούν οι υπολογισμοί:

Το τρέχον TCC του Δήμου Θεσσαλονίκης φαίνεται να είναι είναι 2.68%!

Οπότε φθάνουμε στο τελικό ερώτημα που είναι: Πόσο μακριά είμαστε από τους στόχους των 15%, 30% και 40% TCC; Εδώ το ChatGPT σωστά έλαβε υπόψη τις 3 κατηγορίες δένδρων με βάση την προβολή κόμης των δένδρων όπως υπάρχει στο σύνολο δεδομένων του Δήμου Θεσσαλονίκης και δημιούργησε 3 σενάρια ανά επιθυμητό ποσοστό.

  • Το Category 1 αναφέρεται στον αριθμό δένδρων που θα χρειαζόμασταν αν φυτεύαμε αποκλειστικά δένδρα με προβολή κόμης < 4 τ.μ.
  • Το Category 2 αναφέρεται στον αριθμό δένδρων που θα χρειαζόμασταν αν φυτεύαμε αποκλειστικά δένδρα με προβολή κόμης 4 – 16 τ.μ.
  • Το Category 3 αναφέρεται στον αριθμό δένδρων που θα χρειαζόμασταν αν φυτεύαμε αποκλειστικά δένδρα με προβολή κόμης > 16 τ.μ.

Τα τελικά νούμερα φαίνονται στην παρακάτω ανάλυση.

***

Το ChatGPT ως σύμβουλος

Ας υποθέσουμε τώρα ότι θέλουμε να το πάμε λίγο παρακάτω και να προσπαθήσουμε να πάρουμε κάποιες πρώτες πληροφορίες για το τι θα σήμαινε για τον Δήμο Θεσσαλονίκης, να “κυνηγούσε” τον στόχο του 15% TCC. Υπενθυμίζουμε ότι σήμερα βρισκόμαστε στο 2.68%.

Δίνουμε την παρακάτω είσοδο:

Εξηγούμε στο ChatGPT ότι θα θέλαμε έναν ρεαλιστικό χρόνο δενδροφύτευσης και μας ενδιαφέρει να κρατήσουμε το κόστος χαμηλό.

Με βάση αυτούς τους περιορισμούς, το ChatGPT μας κάνει μια πρώτη ανάλυση των υπέρ και κατά της κάθε κατηγορίας δένδρου.

Στην συνέχεια υπολογίζει την έξτρα περιοχή που πρέπει να καλύψουμε με δένδρα.

Και μας φτιάχνει μια “πιθανή στρατηγική” συνδυάζοντας τις 3 κατηγορίες δένδρων.

Τέλος υπολογίζει τους αριθμούς δένδρων που θα χρειάζονταν να αγοράσουμε και να φυτεύσουμε με βάση αυτήν την πιθανή στρατηγική.

***

Συμπεράσματα

Η ύπαρξη ανοικτών δεδομένων μπορεί να πυροδοτήσει ενδιαφέρον μελετών και αναλύσεων γύρω από τα δεδομένα μιας πόλης ή ενός δήμου. Αυτή η πρόχειρη “συνομιλία” που έκανα εγώ – από προσωπική περιέργεια – δαπανώντας περίπου 2 ώρες, θα μπορούσε να είναι η ανάθεση μιας σοβαρής πτυχιακής ή διπλωματικής εργασία ενός σπουδαστή ενός σχετικού κλάδου – που δεν θα είχε καμία από τις δικές μου απορίες -. Όταν μάλιστα τα διαθέσιμα δεδομένα είναι ανοικτά, ο σπουδαστής, το τμήμα, το πανεπιστήμιο δεν χρειάζεται να μπουν στην διαδικασία να ζητήσουν τα δεδομένα από τον δήμο και να εμπλακούν σε γραφειοκρατεία. Μπαίνουν, αναλύουν και τα δημοσιευμένα αποτελέσματα μπορούν εύκολα να γυρίσουν πίσω στον Δήμο Θεσσαλονίκης για αξιοποίηση.

Ένα άλλο συμπέρασμα είναι πως τα ανοικτά δεδομένα μπορούν να δημιουργήσουν τις προϋποθέσεις, ο δήμος να συνεργαστεί απευθείας με τους δημότες του. Τα ανοικτά δεδομένα δημιουργούν αίσθηση διαφάνειας οπότε οι δημότες εμπιστεύονται ευκολότερα τα συμπεράσματα που μοιράζεται ο δήμος μαζί τους και, εφόσον μπορούν να τα επαληθεύσουν, ενδιαφέρονται ευκολότερα να συμμετέχουν σε πιθανές λύσεις, εθελοντικά.

Κοίταζα για παράδειγμα την εφαρμογή PotiZo, που καλεί τους δημότες να αναλάβουν εθελοντικά να ποτίζουν ένα δένδρο στην περιοχή τους. Σκεπτόμουν πως αν υπήρχε η αντίστοιχη χαρτογράφιση των νέων δένδρων που θέλει ο δήμος να φυτεύσει, θα μπορούσαμε να είχαμε και την έννοια του αναδόχου – δημότη ενός νέου δένδρου, μέσω της ίδιας ή μιας άλλης εφαρμογής.

Μία άλλη ιδέα θα ήταν να εκμεταλλευθούμε τις πλατφόρμες και τις εφαρμογές που αφορούν στο θέμα του πρασίνου για να αναζητήσουμε χορηγούς (π.χ. κάποια φυτώρια) και σε αντάλλαγμα, να αναφέρουμε την χορηγία τους στις πλατφόρμες αυτές.

Categories
COVID-19 Stories

Covid19gr. Αναζητώντας ανοικτά δεδομένα για την πανδημία στην Ελλάδα

Εισαγωγή.

Στις 22/08/2020 δημιούργησα ένα αποθετήριο στο Github1https://github.com/akritiko/covid19gr με στόχο να φιλοξενήσει δεδομένα και αναλύσεις για την εξέλιξη της πανδημίας στην Ελλάδα. Γνωρίζοντας ότι η Ελληνική Κυβέρνηση έχει δεσμευθεί να τηρεί αρχείο ανοικτών δεδομένων για διάφορα κρατικά θέματα, κάποια χρόνια πριν, θεώρησα δεδομένο ότι η δέσμευσή μας επεκτείνεται και στην διάθεση ανοικτών δεδομένων που αφορούν την εξέλιξη της πανδημίας στην χώρα μας. Άλλωστε, ήδη από τα πρώτα κιόλας κρούσματα, πολλοί οργανισμοί αλλά και κυβερνήσεις άλλων χωρών, προχώρησαν στην καταγραφή και διάθεση τέτοιων δεδομένων, ανοικτά.

Φάση Α’. Υποχρεώσεις & υφιστάμενη κατάσταση.

Προσπαθώντας να ανακαλύψω ποιες είναι οι υποχρεώσεις του κράτους μας απέναντι στην Ευρωπαϊκή Ένωση ή άλλους φορείς, ξεκίνησα μια καταγραφή του πλαισίου των ανοικτών δεδομένων το οποίο προκύπτει είτε από επίσημα έγγραφα της Ελληνικής Κυβέρνησης είτε από τη συμμετοχή μας σε διεθνείς οργανισμούς που προωθούν τα ανοικτά δεδομένα.

Σε δεύτερο επίπεδο, χρησιμοποιώντας την εμπειρία μου στα ανοικτά δεδομένα, αποφάσισα να ενσωματώσω στην μελέτη μου μερικά εργαλεία για την δημιουργία, την συντήρηση και την αξιολόγηση των ανοικτών δεδομένων.

Αμέσως μετά προχώρησα σε μια επισκόπηση της υφιστάμενης κατάστασης για να ανακαλύψω τι είδους δεδομένα παρέχονται επίσημα από την Ελληνική Κυβέρνηση, τους υγειονομικούς φορείς και το επιστημονικό προσωπικό, σχετικά με την εξέλιξη της πανδημίας. Αφότου ανακάλυψα τις πηγές, προσπάθησα να καταλάβω αν ακολουθούν της αρχές της ανοικτότητας – διάθεση δηλαδή των δεδομένων κάτω από κάποια άδεια ανοικτών δεδομένων – αλλά και το επίπεδο ανοικτότητας που επιτυγχάνουν, χρησιμοποιώντας το διεθνές σύστημα αξιολόγησης 5 ★ Open Data, που έχει προταθεί από τον Tim-Berners Lee, δημιουργό του Web.

Τέλος, επέκτεινα την αναζήτηση καταγράφοντας εθελοντικές προσπάθειες δημιουργίας συνόλων ανοικτών δεδομένων και αναλύσεις σχετικές με τα δεδομένα της πανδημίας, που είχαν ήδη αρχίσει να πολλαπλασιάζονται στο Διαδίκτυο.

Όλη αυτή η εργασία αποτυπώθηκε σε αυτήν εδώ την αναφορά με τελευταία επικαιροποίησή της στις 14/12/2020. Επιθυμώ να την ανανεώσω εκ νέου, μόλις το επιτρέψει ο χρόνος μου.

Κοντολογίς η παραπάνω μελέτη έδειξε ότι τα περισσότερα διαθέσιμα ανοικτά δεδομένα, που προσφέρονταν σε μηχαναγνώσιμη μορφή αλλά και διάφορες ενδιαφέρουσες οπτικοποιήσεις, εκείνη την περίοδο, είχαν μεν βασιστεί σε δεδομένα της Ελληνικής Κυβέρνησης που ήταν δημόσια διαθέσιμα, πλην όμως, δεν ήταν ξεκάθαρο ότι δημοσιεύονται κάτω από άδεια ανοικτών δεδομένων. Επίσης, τα επίσημα αυτά δεδομένα διατίθεντο σε μορφές μη φιλικές προς την ανάλυση και επεξεργασία από λογισμικό Η/Υ – ήταν συνήθως αναφορές .pdf ή ιστοσελίδες σε μορφή .html με ρέον κείμενο – δηλαδή όχι μηχαναγνώσιμες.

Τα αποτελέσματα της Φάσης Α’, είναι διαθέσιμα εδώ.

Φάση Β’. Το αποθετήριο ανοικτών δεδομένων covid19gr.

Το όλο εγχείρημα πυροδότησε εξ’ αρχής η διάθεσή μου να δημιουργήσω μια οπτικοποίηση των διαφόρων ζητημάτων που αφορούν την πανδημία για την πόλη της Θεσσαλονίκης, τον τόπο διαμονής μου, ή της Περιφέρειας Κεντρικής Μακεδονίας, αν δεν υπήρχαν δεδομένα για την Θεσσαλονίκη. Την περίοδο όμως που ξεκίνησα αυτήν την μελέτη τα δεδομένα ανά περιοχή, πόσο μάλλον ανά πόλη, ήταν περιορισμένα. Στην προσπάθειά μου να τα ανακαλύψω, όμως, προέκυψε κάτι άλλο.

Πολλοί από τους εθελοντές, δουλεύοντας μόνοι, είχαν αποδελτιώσει τους αριθμούς από τις ίδιες αναφορές με αποτέλεσμα να υπάρχουν πλήθος όμοιων μετρήσεων διαθέσιμες σε πολλά διαφορετικά σύνολα δεδομένων. Αυτό είναι κάτι πάρα πολύ καλό καθώς, ανάλογα με την οπτική του κάθε δημιουργού, εν δυνάμει, μπορεί να αποτυπώνεται μια διαφορετική εικόνα των δεδομένων. Αρκεί η ανάλυση και οι σχεδιαστικές επιλογές του συνόλου δεδομένων να είναι τεκμηριωμένες.

Έτσι, αφού η πλειονότητα των δεδομένων αφορούσε την επικράτεια και όχι τις περιφέρειες ή τις πόλεις που ήταν αυτό που με ενδιέφερε αρχικά, αποφάσισα να μην προχωρήσω στην οπτικοποίηση, που είχα αρχικά στο μυαλό μου, αλλά να δω σε ποια ερωτήματα απαντούσαν τα διαθέσιμα δεδομένα, μεμονωμένα ή συνδυαστικά, για ολόκληρη την επικράτεια. Μια πρώτη απάντηση στο ερώτημα, κατάφερα να δώσω με αυτήν την ανάλυση, στις 08/12/2020. Αξίζει να σημειωθεί ότι στις 08/12 η συγκεκριμένη σελίδα, στην οποία οδηγεί ο σύνδεσμος, μετρούσε 16 σύνολα δεδομένων.

Από αυτήν την ανάλυση δυο πράγματα έγιναν ξεκάθαρα:

  1. Πλήθος εθελοντών προσπαθούσε να καταγράψει, να οπτικοποιήσει και να ερμηνεύσει τα διαθέσιμα δεδομένα της πανδημίας, διαθέτοντας τα δεδομένα και τα αποτελέσματα, ως επί το πλείστον, δωρεάν και ανοικτά προς όλους.
  2. Διαφορετικά σύνολα δεδομένων, μεμονωμένα ή συνδυαστικά μπορούσαν να δώσουν μια καλή σφαιρική εικόνα της κατάστασης στην χώρα, για την καλύτερη ενημέρωση του κοινού.

Η παραπάνω ανάλυση κατέληξε στην πρώτη μορφή του αποθετηρίου covid19gr η οποία είχε την ακόλουθη δομή:

  1. Δεδομένα. Συλλογή επιλεγμένων συνόλων δεδομένων από διάφορες εθελοντικές προσπάθειες, πάντοτε με το υποκειμενικό φίλτρο του γράφοντα. Ο στόχος ήταν κάθε επιθυμητή μέτρηση να αντιστοιχιστεί σε ένα σύνολο δεδομένων.
  2. Επίσημες Αναφορές. Όλα τα σύνολα δεδομένων στηρίζονταν σε κάποια πρώτη ύλη πληροφορίας που με τη σειρά της στηρίζοντας σε κάποιες επίσημες αναφορές της Ελληνικής Κυβέρνησης, του ΕΟΔΥ, του Π.Ο.Υ., του E.C.D.C., κ.ο.κ. Θέλοντας να επιτύχω τη μέγιστη διαφάνεια ξεκίνησα να καταχωρώ στο αποθετήριο και όλες αυτές τις αναφορές σε μορφότυπο .pdf για να μπορεί, όποιος ενδιαφέρεται να πραγματοποιήσει έλεγχο των αριθμών που καταγράφηκαν στα σύνολα δεδομένων, αν το επιθυμεί.
  3. Αναλύσεις. Φιλοδοξούσα να έχω έναν χώρο ώστε να προσπαθώ να βγάλω χρήσιμα συμπεράσματα από τα δεδομένα δημιουργώντας μικρά προγράμματα ανάλυσης. Αυτό το κομμάτι βρίσκεται ακόμη σε αρκετά πειραματικό στάδιο.

Η αναλυτική παρουσίαση του αποθετηρίου στην σημερινή του μορφή, είναι διαθέσιμη εδώ.

Φάση Γ’. Συνάθροιση δεδομένων (aggregation).

Σε αυτό το σημείο είχα εξασφαλίσει διάφορες πηγές δεδομένων από τις οποίες μπορούσα να αλιεύω δεδομένα και είχα προσπαθήσει να ξεχωρίσω τα σύνολα δεδομένων που περιείχαν τις πληροφορίες που απαντούσαν σε συγκεκριμένα ερωτήματα. Εμφανίστηκαν τότε δύο νέα προβλήματα που έπρεπε να αντιμετωπισθούν.

  1. Τα σύνολα δεδομένων, αν και ήταν διαθέσιμα δημόσια ανοικτά, πράγμα που σήμαινε ότι είχα το νόμιμο δικαίωμα να τα αντιγράψω σε ένα δικό μου αποθετήριο κάνοντας αναφορά στους αρχικούς δημιουργούς, προέρχονταν από πολλές διαφορετικές πηγές.
  2. Τα ίδια σύνολα δεδομένων, ανανεώνονται πολύ συχνά (κάποια σε καθημερινή βάση) καθώς η πανδημία συνεχίζει να είναι σε εξέλιξη.

Δεδομένων λοιπόν των δύο παραπάνω σημείων προέκυψε η ανάγκη, για να μπορώ να συντηρώ το αποθετήριο με ανανεωμένα σύνολα δεδομένων τακτικά (π.χ. σε ημερήσια βάση) να μαζεύω ένα – ένα όλα τα επιλεγμένα σύνολα δεδομένων και να τα τοποθετώ στο δικό μου αποθετήριο. Έχοντας 16 τέτοια σύνολα δεδομένων και με την προοπτική ότι θα γίνονταν περισσότερα στο πέρασμα του χρόνου, η παραπάνω στρατηγική θα ήταν χρονικά ανέφικτη. Προχώρησα λοιπόν στην δημιουργία κάποιων προγραμμάτων που αυτόματα επιτελούν τις παρακάτω διεργασίες:

  1. Το πρώτο πρόγραμμα αλιεύει τα επιλεγμένα σύνολα δεδομένων κατευθείαν από της πηγές τους και τα τοποθετεί σε έναν κεντρικό φάκελο που έχω δημιουργήσει. Τα αρχικά σύνολα δεδομένων είναι όλα σε μορφότυπο (format) .csv από τους αρχικούς δημιουργούς τους. ΣΗΜΕΙΩΣΗ: Στον ίδιο φάκελο συντηρώ χειροκίνητα μερικά σύνολα δεδομένων που δημιούργησα εγώ προσωπικά.
  2. Το επόμενο πρόγραμμα φιλτράρει επιλεκτικά κάποια από τα σύνολα δεδομένων που είναι διεθνή, και παράγει ένα τελικό .csv με τις πληροφορίες που αφορούν αποκλειστικά την Ελλάδα.
  3. Το τελευταίο πρόγραμμα μετατρέπει αυτόματα τα σύνολα δεδομένων από τον μορφότυπο .csv σε μορφότυπο .json. Αυτό το βήμα δεν είναι απαραίτητο ωστόσο ο μορφότυπος .json είναι ιδανικός για την εξυπηρέτηση δεδομένων που παρέχονται για απευθείας κατανάλωση μέσα από μια διεπαφή προγραμματισμού εφαρμογών τύπου REST API.

Έχοντας δημιουργήσει αυτά τα προγράμματα, με αυτόματο τρόπο και σε καθημερινή βάση μπορώ να συναθροίζω την ενημερωμένη πληροφορία από όλα τα αποθετήρια που με ενδιαφέρουν. Μέσα σε λίγα λεπτά, 24 (πλέον) διαφορετικά σύνολα δεδομένων είναι διαθέσιμα και πλήρως ενημερωμένα, κάθε βράδυ.

Φάση Δ’. Ανάλυση δεδομένων.

Η ανάλυση των δεδομένων, αν και ήταν πρωταρχικός στόχος όταν ξεκίνησα την διαδικασία σχεδιασμού αυτού του αποθετηρίου, αποτέλεσε την 4η φάση του έργου. Βασικός λόγος που επέλεξα αυτήν την στρατηγική ήταν ότι βάση των διαθέσιμων δεδομένων που υπήρχαν όταν ξεκίνησα τη μελέτη μου αλλά και των οπτικοποιήσεων των δεδομένων από εθελοντές, ήταν ξεκάθαρο πως δεν υπήρχαν τα απαραίτητα δεδομένα για τις αναλύσεις που με ενδιέφεραν, ενώ παράλληλα, πλήθος εθελοντών είχαν κάνει εξαιρετική δουλειά στην οπτικοποίηση των δεδομένων της επικράτειας.

Στην πορεία όμως, όταν ξεκίνησα να δημιουργώ δικά μου σύνολα δεδομένων, όπως για παράδειγμα η αποτίμηση ελέγχων COVID-19 στην Ελληνική επικράτεια με δεδομένα που δημοσιεύει η Εθνική Αρχή Διαφάνειας, τότε υπήρξε εκ νέου η ανάγκη, αυτές οι αναλύσεις να είναι διαθέσιμες.

Έτσι σήμερα στο αποθετήριο covid19gr θα βρείτε στον φάκελο analysis, όλες τις διαθέσιμες αναλύσεις από εμένα. Σε κάθε περίπτωση ανάλυσης τόσο ο κώδικας του προγράμματος που εκτελεί την ανάλυση, όσο και τα αντίστοιχα δεδομένα (εισόδου και εξόδου), είναι διαθέσιμα κάτω από άδεια ανοικτού κώδικα και ανοικτών δεδομένων αντίστοιχα.

Περισσότερες πληροφορίες για την αδειοδότηση του αποθετηρίου, θα βρείτε στο τέλος του άρθρου.

Φάση Ε’. Οργάνωση του έργου.

Η εργασία που έχει πραγματοποιηθεί στο συγκεκριμένο έργο, κρύβει ένα παράπλευρο όφελος που δεν είναι εμφανές από τις πληροφορίες που διαβάσατε μέχρι τώρα. Η διαδικασία που περιγράφηκε, δηλάδή:

  1. η συλλογή των συνόλων δεδομένων
  2. η συνάθροισή τους σε ένα ενιαίο αποθετήριο
  3. η δημιουργία ενός χώρου για να γίνονται αναλύσεις δεδομένων

μπορεί να αντιγραφεί ως έχει και να χρησιμοποιηθεί από μια πόλη, μια περιφέρεια ή ένα κράτος που επιθυμεί να δημιουργήσει μια διαδικασία συλλογής, επεξεργασίας και καταγραφής δεδομένων που αφορούν την πανδημία COVID-19 ως ανοικτά δεδομένα, διαθέσιμα σε μηχαναγνώσιμη μορφή. Σε ορολογία του 5 ★ Open Data συστήματος που αναφέραμε στην αρχή του άρθρου, τα σύνολα δεδομένων που αρχικά διατίθενται σε μορφότυπο .pdf από την Κυβέρνηση (επίπεδο 1 στο 5 ★ Open Data), μετά από την διαδικασία που περιγράφουμε παραπάνω, μεταπηδούν αμέσως στο επίπεδο 3.

Εκτός αυτού, με την παραπάνω διαδικασία, τίθενται οι βάσεις να δημιουργηθεί μια κοινότητα αναλυτών των ανοικτών δεδομένων που θα θα πειραματίζεται σε αυτά, θα μοιράζεται τα ευρήματα και η επιστημονική ομάδα της κυβέρνησης θα μπορεί να αξιολογεί την κατάσταση έχοντας ακόμη πιο πολλές ιδέες και αναλύσεις για την εξέλιξη της πανδημίας. Η μέθοδος αυτή ονομάζεται πληθοπορισμός (crowd sourcing).

Πως θα μπορούσε λοιπόν ένα αποθετήριο δεδομένων να μετατραπεί σε μια κοινότητα συλλογής, επεξεργασίας / ανάλυσης και διόρθωσης των ανοικτών δεδομένων που αφορούν την πανδημία;

Πολλά από τα εργαλεία που χρειαζόμαστε μας το δίνει το ίδιο το Github η πλατφόρμα που φιλοξενεί το έργο που περιγράφουμε σε αυτό το άρθρο. Πιο συγκεκριμένα:

  • Με την δυνατότητα των έργων (projects), μπορούν να περιγράφοντα πακέτα εργασιών ώστε τα μέλη της κοινότητας να μπορούν να τα αναλαμβάνουν και να τα διεκπεραιώνουν ως υπο-έργα. Μπορείτε να βρείτε μια πρώτη προσπάθεια καταγραφής τέτοιων υπο-έργων, για την περίπτωση του covid19gr, εδώ.
  • Με την (σχετικά νέα) δυνατότητα των συζητήσεων (discussions), μπορούν τα μέλη της κοινότητας να λειτουργούν ως think tank και να συζητούν ποια είναι η καλύτερη στρατηγική αντιμετώπισης στο κάθε πρόβλημα που ανακύπτει. Ένα παράδειγμα τέτοιας συζήτησης μπορείτε να βρείτε εδώ.
  • Με την λειτουργικότητα των αιτημάτων υποστήριξης (issues), όλοι οι ενδιαφερόμενοι μπορούν να επισημαίνουν λάθη ή διορθώσεις που παρατηρούν δουλεύοντας με τα δεδομένα του αποθετηρίου ή τα προγράμματα ανάλυσης των δεδομένων.

Βιβλιογραφία.

Εκτός των προαναφερθέντων, κάνω μια προσπάθεια να συγκεντρώσω επιστημονική βιβλιογραφία για διάφορες πτυχές της εξέλιξης της πανδημίας. Ένα κομμάτι της προκύπτει από την δική μου μελέτη και ένα άλλο από τους υπόλοιπους εθελοντές που ασχολούνται με το αντικείμενο και κατά καιρούς μοιράζονται χρήσιμα links σε έγκυρες πηγές.

Οι περισσότερες αναφορές είναι από επιστημονικά περιοδικά, ερευνητικά κέντρα ή έγκριτα δημοσιογραφικά μέσα.

Μπορείτε να βρείτε την τακτικά ανανεούμενη βιλιογραφία εδώ. Εάν τυχόν εντοπίσετε κάποιο σφάλμα ή εάν θέλετε να προτείνετε κάποια αναφορά να συμπεριληφθεί στην βιβλιογραφία, μπορείτε να επικοινωνήσετε μαζί μου από εδώ.

Λίγα λόγια για την άδεια χρήσης του περιεχομένου του αποθετηρίου covid19gr.

Τα δεδομένα είναι δύναμη. Σε καιρούς κρίσεων μάλιστα, εάν χρησιμοποιηθούν σωστά μπορούν να κάνουν τη διαφορά προστατεύοντας τους συμπολίτες μας. Έχοντας αυτά σαν βασικές σκέψεις δημοσιεύουμε το περιεχόμενο αυτού του αποθετηρίου, εκτός αν αναφέρεται ρητά κάτι διαφορετικό σε κάποιο σημείο, κάτω από άδεια: Κοινό Κτήμα / Public Domain: CC0-1.0.

Καθώς το αποθετήριο προσφέρεται κάτω από άδεια Κοινού Κτήματος CC0-1.0, δεν έχετε καμία απολύτως υποχρέωση να κάνετε κανενός είδους αναφοράς σε εμένα. Εάν παρόλα αυτά θέλετε να κάνετε κάποια αναφορά θα μπορούσατε να χρησιμοποιήσετε την παρακάτω μορφή:

Apostolos Kritikos. (2021, March 21). akritiko/covid19gr: Pythagoras (Version 3.0.0). Zenodo. http://doi.org/10.5281/zenodo.4625530

ή σε μορφή BibTEX version.

Λίγα λόγια για τους εθελοντές στην δουλειά των οποίων βασίστηκε το covid19gr.

Το αποθετήριο αυτό δεν είναι τίποτε άλλο παρά μία συλλογή από σετ δεδομένων. Για τα σύνολα δεδομένων που περιλαμβάνει εργάσθηκαν οι εξής: Sandbird, Covid-19-Response-Greece, @Nyrros, iMEdD-Lab, covid19.gov.gr, CovidDEXP, covid19-projections.com, covid19.healthdata.org, Oxford Covid-19 Government Response Tracker, ActiveConclusion, Google, Apple, TomTom.

References

Categories
Videos & Podcasts

re:publica Thessaloniki 2017. Smart Cities, Open Data & Citizen Participation

(the original article – in greek – can be found here)

This year I had the privilege of participating in the maiden voyage of re:publica (2017) in Thessaloniki, as an ODI Open Data Certified Trainer and an entrepreneur, in a panel about smart cities, open data and citizen participation in open government procedures. Following you can watch the video with greek and english subtitles available (thanks to Heinrich Böll Stiftung Greece).

Following you will find three key points that, in my personal opinion, summarize the discussion:

I. Why bother working with open data when the citizens don’t seem to care?

A sound open data infrastructure can, potentially, function as a means of transparency and / or fighting corruption. The possibility that citizens are indifferent towards open data should not discourage a public authority that wants to continuously evolve and become better. Moreover, we need to ask ourselves whether the information published as open data is understandable and has a practical use for the interested parties (citizens, companies, organizations, etc.).

II. Civil servants might hesitate or  be negative  towards open data education.

Yes they might! However, their reaction depends on the motivators that accompany education. If dealing with open data is, or will become in the near future, a de facto responsibility of all civil servants, the idea that an expert can train them to undertake this “new” responsibility quick and easy, might not strike them as such a bad idea.

III. Open data published by public authorities are  usually too “specific” for a third party (i.e. freelancer, company, etc.) to exploit.

A great opportunity accompanying open data is the fact that open datasets can be combined. For example lets say we have an open dataset of the public schools in a city and another open dataset about crime in that same city. Studying them separately those two datasets probably give as basic knowledge but, combined, could become the fuel for an application that could help a young couple to choose in which neighborhood to live.

Open Data can be the means to innovation for companies that develop software, freelance developers, students, researcher and so forth. And (ideally) this software can then function as the interface between the citizen and the public authorities.

(special thanks to Heinrich Böll Stiftung Greece for the invitation)