Robot giornalisti per le cronache sportive

| 5 dicembre 2010 |

Basket Negli Stati Uniti si continua a lavorare per mettere a punto dei programmi di scrittura automatica di cronache sportive sulla base dei dati relativi ai singoli incontri. Dopo il baseball e il softball una piccola azienda della Carolina del Nord ci prova col basket, costruendo un software (ancora in beta) che costruisce automaticamente articoli sugli incontri di basket . StatSheet Network copre per ora le 345 squadre dei College Usa fornendo oltre a gran quantità di dati statistici anche le cronache delle partite e personalizzandole anche sulla base delle aspettative delle varie squadre. E un esperto di linguistica le giudica abbastanza favorevolmente, anche se ci sono ancora molti problemi. Un articolo del New York Times

—–

When the Software Is the Sportswriter
di Randall Stross, docente di economia alla San Jose State University

(Nytimes.com)

Solo un redattore (umano)  può distillare da un mucchio di dati sportivi un articolo avvincente. O almeno i redattori (umani) sono contenti di credere che sia così.

Statsheet.com, un’ azienda di Durham (Nord Carolina) che sforna dati e statistiche sportive in quantità mostruose la pensa diversamente. L’ azienda, con nove addetti, sta lavorando per mettere a punto un software in grado di trasformare i dati di un tabellino o altri elementi quantitativi in articoli di cronaca sulle partite di basket.

Nata nel 2007, StatSheet.com diffonde per ora analisi statistiche sul circuito di basket dei college, su quello del  Nascar (corse automobilistiche) e su altri sport. Rielabora i dati in molti modi diversi in maniera che qualsiasi appassionato possa essere interessato. Ma tabelle, grafici e classifiche non possono sostituire le parole che raccontano una storia; la passione per il racconto sembra essere un elemento essenziale della nostra natura.

Qualche settimana fa StatSheet ha presentato StatSheet Network, una rete composta da tutti i siti web delle 345 squadre del circuito delle squadre di basket dei college Usa (N.C.A.A.). Oltre a dati a profusione, ciascun sito riceve quelli che l’ azienda chiama ‘’contenuti automatizzati’’. Articoli scritti interamente da uno specifico software, incluse delle ricostruzioni sulle varie gare. Con un efficace gioco di parole, il fondatore dell’ azienda, Robbie Allen parla di  “Esercito di Robot.”

I siti online di ogni squadra della rete StatSheet si appoggiano a degli indirizzi web gratuiti  dando così l’ impressione che tutto è concepito nell’ interesse dei tifosi di quella scuola (per cercare il nome di un dominio, il fan comincia da http://statsheet.com/#websites.)

Il software è pieno di furbizie per compiacere ogni squadra: ad esempio gli stessi dati, relativi allo stesso incontro, producono una ricostruzione completamente diversa, conm anche titli diversi, a seconda dell’ una o dell’ altra squadra.

Una squadra indicata come  #1 come quella del Duke — il cui sito web sullo StateSheet Network è al  BlueDevilDaily.com — non ha bisogno certo dell’ attenzione dei giornalisti sportivi. Ma StatSheet punta sul fatto che i programmi sportivi dei piccoli college apprezzeranno l’ avvento del giornalismo-robot.

“Ci sono almeno 200 squadre di prima divisione che le principali testate sportive del paese trascurano’’, osserva Robert Allen, di StatSheet. “Una volta che il nostro algoritmo sarà a regime, non ci costerà nulla aggiungere ai Dukes squadre di scuole come Lamars o Elons’’.

Le piccole squadre probabilmente hanno una base di alunni inferiore e quindi un traffico meno significativo, aggiunge Allen, e quindi busseremo alle loro porte per verificare l’ ipotesi di accordi di partnership.

Allen spiega che questo software non è in grado di compiere delle analisi linguistiche, masi limita a utilizzare delle citazioni stereotipe e un data base che per ora contiene circa 5.000 frasi.

“Il mio obbiettivo è fare in modo che l’ 80% dei lettori non si accorga che i contenuti non siano stati scritti da umani – commenta -, e ora che lo abbiamo lanciato, penso che la percentuale sarà anche più alta’’.

Randall Stross, l’ autore dell’ articolo sul NYT, che ha collaborato col team di StatSheet, ha preferito chiedere un’ analisi della scrittura dell’ ‘’esercito di robot’’ a un esperto esterno, Michael W. White, assistente di linguistica all’ Ohio State e specialista nel campo del linguaggio naturale.

Per l’ osservazione – racconta Stross – è stata scelta la squadra dell’ Ohio State , i BuckeyesBeat.com — e la cronaca della partita del 12 novembre scritta espressamente per I sostenbitori del Buckeyes fans: ”Ohio State Gets 102-61 Monster Win Over North Carolina A&T.7

L’ articolo è scritto in 10 righe e 156 parole. Per il professor White nel complesso ‘’è carino’’, il primo rigo è ottimo e l’ uso di quel ‘’waxed’’ nel secondo rigo è un tocco simpatico.

Certo, ci sono anche dei problemi. In un passaggio il software evita di indicare chi ha battutto chi e dimentica di mettere il ‘’the’’ quando riferisce della vittoria dell’ Ohio State ‘’over Buckeyes’’. E poi una nota che seguiva la cronaca era stata troppo impaziente di mostrare che la squadra era finora imbattuta in questa fase della stagione, mentre aveva subito un 1-0.

Il programma comunque – osserva Stross – è ancora in fase sperimentale (in beta) e questi errori minori potranno essere eliminati dando una regolata al meccanismo. Il problema maggiore, secondo il docente, è che il software non ha il dominio delle strutture linguistiche che potrebbero permettergli di produrre delle frasi più complesse.

Il software di StatSheet evita le difficoltà usando delle frasi semplici e usando dei dettagli particolari. ‘’Questo lo rende perfettamente leggibile, ma lo può rendere anche assolutamente freddo’’, aggiunge White.

Allen dice di credere però che quello che un lettore ritiene freddo possa invece essere apprezzato dagli altri: ‘’Non voglio la personalizzazione, preferisco i fatti’’.

Allen poi vede poi la possibilità che il robot-giornalismo possa essere estesa dallo sport ad altri settori – per esempio le notizie finanziarie – in cui ci sia una grande abbondanza di dati disponibili.

Il giornalismo automatizzato di StatSheet sostituirà i giornalisti economici?  Nessuna chance: noi umani siamo imbattuti. L’ unico problema è che, come per i Buckeyes due settimane fa, noi siamo proprio sull’ 1-0. Per ora.

Leggi anche:

I commenti sono chiusi.