Data journalism, un po’ più di fantasia e di rigore scientifico

Alberto Cairo ha scritto un pezzo molto interessante sul blog del Nieman Journalism Lab, spiegando come testate di data-journalism come FiveThirtyEight, Vox e Upshot avessero fatto delle promesse esagerate e non mantenute circa la qualità dei loro contenuti. E sottolineando la necessità di trattare i dati con maggiore rigore scientifico.

Questo aspetto è al centro di una riflessione di Derrick Harris, che – su Gigaom – ha aggiunto alcune considerazioni. E’ un post del 9 luglio, ma pensiamo che valga la pena riproporlo.

Lo scienziato dei dati ideale, viene detto spesso, deve avere competenze di base in statistica / matematica, elaborazione di dati non strutturati, interrogazione dei dati attraverso SQL e programmazione. Questi – spiega Harris – sono i requisiti nativi del web, dove i dati assumono spesso forme diverse da i classici numeri in una tabella, e questo richiede un po’ di fatica in più rispetto ai metodi di analisi tradizionali. In mancanza di dati specifici o di prima mano sugli utenti o sui comportamenti che desiderano analizzare, i data-scienziati sono diventati abili nel combinare vari ‘’data point’’ per costruire migliori modelli degli utenti o dedurne alcuni tratti di comportamento.
Questi metodi, secondo Harris, non sono sempre produttivi per il mondo del giornalismo basato sui fatti, ma nonostante questo un posto per loro c’ è. A patto però che i giornalisti che puntano sui dati abbiano più fantasia e coraggio.

Harris fa l’ esempio di Premise Data, che, ritenendo i Rapporti tradizionali sull’ economia mondiale troppo ‘’lenti’’ e spesso privi di una visione di quello che sta accadendo sul terreno in molte aree, ha deciso di cominciare a produrre direttamente le proprie previsioni. Una rete di cittadini in varie città di tutto il mondo scattano foto di cose specifiche in momenti specifici (ad esempio, i banconi del latte in un mercato locale) e Premise scava da quelle foto informazioni sui prezzi, sulla distribuzione, ecc.

Il fatto – dice Harris – è che là fuori c’ è una fitta rete di dati a disposizione dei giornalisti che vogliano trovarli e fare qualcosa di creativo con essi. Ci sono grandi dataset geosociali, come GDELT e il corpus Flickr di Yahoo per le immagini. Ci sono API di vari siti, pattaforme di social media e persino specialisti di musica come Echo Nest (che ora fa capo a Spotify). Ci sono un numero incalcolabile di pagine web, messaggi e altri contenuti testuali, così come centinaia di milioni o addirittura miliardi di foto, tutti in attesa di essere ‘’raschiati’’ e analizzati.

E se non c’ è niente di buono immediatamente disponibile, non è escluso che le redazioni possano creare le proprie scorte di dati. Come fa Premise, o come ha fatto questo entomologo per ottenere dei dati di qualità sul suono delle ali degli insetti e sui loro cicli di attività.

Nonostante il luogo comune secondo cui i numeri non mentono – osserva ancora Harris -, spesso invece questo accade. Oppure, come sottolinea Cairo nel suo post su Nieman Journalism Lab, sono almeno suscettibili di interpretazioni e caratterizzazioni sbagliate. Allora perché non puntare a fare una analisi più completa, cercando al di là dei numeri ufficiali e di quelli presenti in studi ampiamente pubblicizzati, e iniziare a pensare quali punti possono essere collegati utilizzando i social media, quali testi possono essere analizzati per temi e per taglio cuturale e, in generale, quali dati supplementari possono essere tirati fuori in per costruire un argomento più forte o una previsione più accurata?

Quantificare gli argomenti che interessano e cercare di illuminare i lettori è un obiettivo nobile – conclude il giornalista -, ma è difficile farlo utilizzando gli stessi dati intorno a cui si gira sempre e che non sono serviti concretamente per raggiungere quegli obiettivi. Dico insomma, più creatività, altrimenti si rischia di riprodurre gli stessi vecchi risultati mettendoli solo, semmai, in una confezione più accattivante.