Site icon LSDI

Data journalism, un po’ più di fantasia e di rigore scientifico

Alberto Cairo ha scritto un pezzo molto interessante sul blog del Nieman Journalism Lab,  spiegando come testate di data-journalism come FiveThirtyEight, Vox e Upshot avessero fatto delle promesse esagerate e non mantenute circa la qualità dei loro contenuti. E sottolineando la necessità di trattare i dati con maggiore rigore scientifico.

 

Questo aspetto è al centro di una riflessione di Derrick Harris, che – su Gigaom – ha aggiunto alcune considerazioni. E’ un post del 9 luglio, ma pensiamo che valga la pena riproporlo.

 

 

Lo scienziato dei dati ideale, viene detto spesso,  deve avere competenze di base in statistica / matematica, elaborazione di dati non strutturati, interrogazione dei dati attraverso SQL e programmazione. Questi – spiega Harris – sono i requisiti nativi del web, dove i dati assumono spesso forme diverse da i classici numeri in una tabella, e questo richiede un po’ di fatica in più rispetto ai metodi di analisi tradizionali. In mancanza di dati specifici o di prima mano sugli utenti o sui comportamenti che desiderano analizzare, i data-scienziati sono diventati abili nel combinare vari ‘’data point’’ per costruire migliori modelli degli utenti o dedurne alcuni tratti di comportamento.
Questi metodi, secondo Harris, non sono sempre produttivi per il mondo del giornalismo basato sui fatti, ma nonostante questo un posto per loro c’ è. A patto però che i giornalisti che puntano sui dati abbiano più fantasia e coraggio.
 
Harris fa l’ esempio di Premise Data, che, ritenendo i Rapporti tradizionali sull’ economia mondiale troppo ‘’lenti’’ e spesso privi di una visione di quello che sta accadendo sul terreno in molte aree,   ha deciso di cominciare a produrre direttamente le proprie previsioni. Una rete di cittadini in varie città di tutto il mondo scattano foto di cose specifiche in momenti specifici (ad esempio, i banconi del latte in un mercato locale) e Premise scava da quelle foto informazioni sui prezzi, sulla distribuzione, ecc.

 

Il fatto – dice Harris –  è che là fuori c’ è una fitta rete di dati a disposizione dei giornalisti che vogliano trovarli e fare qualcosa di creativo con essi. Ci sono  grandi dataset geosociali, come GDELT e il corpus Flickr di Yahoo per le immagini. Ci sono API di vari siti, pattaforme di social media e persino specialisti di musica  come Echo Nest (che ora fa capo a Spotify). Ci sono un numero incalcolabile di pagine web, messaggi e altri contenuti testuali, così come centinaia di milioni o addirittura miliardi di foto, tutti in attesa di essere ‘’raschiati’’ e analizzati.
 
E se non c’ è niente di buono immediatamente disponibile, non è escluso che le redazioni possano creare le proprie scorte di dati. Come fa Premise, o come ha fatto questo entomologo per ottenere dei dati di qualità sul suono delle ali degli insetti e sui loro cicli di attività.

 
Nonostante il luogo comune secondo cui i numeri non mentono – osserva ancora Harris -, spesso invece questo accade. Oppure, come sottolinea Cairo nel suo post su Nieman Journalism Lab,  sono almeno suscettibili di interpretazioni e caratterizzazioni sbagliate. Allora perché non puntare a fare una analisi più completa, cercando al di là dei numeri ufficiali e di quelli presenti in studi ampiamente pubblicizzati, e iniziare a pensare quali punti possono essere collegati utilizzando i social media, quali testi possono essere analizzati per temi e per taglio cuturale e, in generale, quali dati supplementari possono essere tirati fuori in per costruire un argomento più forte o una previsione più accurata?
 
Quantificare gli argomenti che interessano e cercare di illuminare i lettori è un obiettivo nobile – conclude il giornalista -, ma è difficile farlo utilizzando gli stessi dati intorno a cui si gira sempre e che non sono serviti concretamente per raggiungere quegli obiettivi. Dico insomma, più creatività, altrimenti si rischia di riprodurre gli stessi vecchi risultati mettendoli solo, semmai, in una confezione più accattivante.

 

Exit mobile version