Quando bisogna diffidare del data journalism…

Data«Con il lancio di 538, Vox e la sezione Upshot del New York Times, sembra sia finalmente arrivata l’era del ‘data journalism’, salutata con molte lodi  ma anche preoccupazione dai critici. Eppure il data journalism non è affatto una cosa nuova.

 

Questi siti non sono altro che l’iterazione delle più recenti applicazioni del settore, a sua volta iterazione del giornalismo basato sul computer, e questo già iterazione del ‘giornalismo di precisione’.
 

Tutte definizioni che indicano tecniche e strategie specifiche usate nel servizio di raccontare la verità e creare una certa narrativa. In altri termini, si tratta di giornalismo che parte dall’analisi dei dati, applicando a questi il medesimo scetticismo e rigore che si richiede alla testimonianza di un esperto contattato tradizionalmente via telefono».

 

Questa l’apertura di un intervento senza peli sulla lingua in cui Jacob Harris (@harrisj, architetto software e news hacker del New York Times) spiega come, nell’attuale contesto mediatico, a volte occorre proprio «diffidare dei dati», tenendo a mente che «funzioni tradizionali come accuratezza e verifica vengono sempre prima dell’attenzione visuale (eyeballs)».

 

L’occasione per l’intervento è dato da un post in cui Buzzfeed, nel suo tipico stile basato su statistiche e titoli provocanti, informa su una “ricerca” di Pornhub intitolata: “Who Watches More Porn: Republicans Or Democrats?” (Chi guarda più porno, repubblicani o democratici?). Harris smonta passo passo le tecniche usate per raggruppare e analizzare i dati al riguardo, sottolineando i classici errori che si fanno con le statistiche, a partire dal fatto che «correlazione non significa con-causa, ovvero è del tutto plausibile che la relazione tra due variabili sia pura coincidenza».

 

Nel complesso, uno studio inutile e inaccurato, ammesso che volesse servire a dimostrare qualcosa, dove manca perfino «l’esplicita descrizione della metodologia usata da Pornhub, cosa che non è mai un buon segno». E se Buzzfeed, come sembra, lo ha ripreso solo «come storia divertente», ciò sembra piuttosto dovuto al ciclo sempre più rapido delle news, dove servono nuovi pezzi da buttare a ripetizione sul sito, senza avere il  tempo o l’accortezza di fare un minimo di verifica.

 

Harris sottolinea poi che l’analisi dei dati è sempre un processo complesso, tedioso e costoso, quindi da prendere (e proporre) con la dovuta cautela. A cui si aggiunge un puntuale commento al post, centrato sul fatto che non esiste «alcun vaccino per rendere l’autore immune a errori e incubi alle prese tutti quei dati. … Oltre alle tipiche semplificazioni di ogni passaggio della filiera dell’informazione, si assume che i dati siano corretti quando sarebbe invece necessario l’approccio opposto: dovremmo assumere che i dati NON non corretti e lavorare per verificarne la veridicità. … Servono molteplici livelli di controllo sulla qualità dei dati, e più importante è la notizia, e maggiore lo scrutinio a cui vanno sottoposti».

 

A ribadire la necessità di un sano scetticismo, Harris segnala pure due utili fonti relative alla ricerca scientifica in senso lato, campo non troppo lontano dal giornalismo: On Being A Data Skeptic (ebook gratuito edito da O’Reilly) e una mini-guida per mettere a nudo studi sceintifici sballati o inaccurati (A Rough Guide To Spotting Bad Science). Senza dimenticare l’approccio analitico tipico della programmazione software: «Aggiungere nuovi funzioni a un sistema significa scrivere altro codice e aggiungervi complessità. E ciò comporta naturalmente anche l’aggiunta di altri bugs. … Ne consegue che i programmatori (e gli utenti) imparano a riconoscere e ‘fiutare’ questi problemi, un po’ come si odora qualcosa andato a male nel frigorifero. Lo stesso va fatto rispetto ai dati. … E il giornalista deve anche tener conto dell’agenda nascosta di chi fornisce tali dati».

 

E se tutto ciò è ancora troppo per un giornalista – conclude l’articolo – almeno «impariamo a pensare come uno studioso di statistica e vediamo se ciò può cambiare il nostro approccio ai dati».

&nbsp