Giornalismo semantico: una serie di esperimenti

Gli strumenti del web semantico potrebbero consentire in futuro ai giornalisti di ottenere con estrema semplicità una grande quantità di materiali, lasciando loro solo “i compiti che sanno fare meglio: analizzare e verificare” – Un primo articolo dell’ equipe dell’ Online Journalism Blog, che effettuerà una serie di test nel campo delle applicazioni semantiche

———-

Nelle prossime settimane l’ equipe dell’ Online Journalism Blog effettuerà una serie di test nel campo delle applicazioni semantiche per dare una mano ai giornalisti. Lo annuncia sul suo sito, windowthemedia.com , Nicolas Kayser-Bril, assicurando che verranno “separate le ciarlatanerie dalle innovazione autentiche” e che verrà aperto un dibattito pubblico sull’ eventuale valore aggiunto delle applicazioni semantiche.

Il giornalismo semantico – spiega Kayser-Bril – è una “anticipazione del giornalismo del futuro. Quando il giornalista si mette al lavoro, il suo pc gli cerca i materiali per l’ articolo: dalle immagini per illustrarlo fino all’ opinione della blgosfera sull’ argomento. Il programma che verrà utilizzato legge anche le pagine di Wikipedia ed è in grado di sintetizzare i concetti chiave. E un algoritmo semantico mette insieme una selezione degli esperti più ferrati sull’ argomento”.

Al giornalista non resta da fare altro che quelle cose che sa fare meglio: analizzare e verificare i dati”.

E questo – aggiunge il giornalista e ricercatore francese – "significa evitargli di pubblicare la stessa cosa di 3.000 altri autori. Significa evitargli di scrivere senza sapere niente dell’ argomento. Significa evitargli di chiedere le loro opinioni ai soliti esperti autoproclamati".

Ci sembra molto interessante questo impegno dell’ equipe dell’ Online Journalism Blog e lo seguiremo con attenzione. Intanto pubblichiamo il primo di quattro articoli sull’ argomento a cura dell’ equipe del blog.

1. Il web semantico: quale rivoluzione?

da Online Journalism Blog

Il giornalismo semantico è molto vicino al web semantico. Quest’ ultimo riassume il fenomeno di costruzione del web dopo l’ inizio degli anni 2000, separando il contenuto dalla struttura. Lo scopo è di rendere il web leggibile da parte delle macchine. Le parole chiave: XML, RDF e RSS. Il guru : Tim Berners-Lee.

Da qui a fare in modo che le macchine possano capire il senso delle frasi ce ne vuole. La ricerca in un archivio-dati in linguaggio naturale si fa dagli anni Settanta. Concretamente significa che quando si digita “Che tempo fa oggi a Parigi?”, la macchina risponde: “Bel tempo, 20° C”.

Ma dopo gli anni Settanta le cose si sono un po’ evolute. IL programma legge la frase, identifica qualche parola e la loro funzione sintattica, poi cerca negli archivi in funzione dei criteri identificati. A ciascuna parola viene attributo un senso in funzione dei diversi significanti che esso porta dentro di sé.

Nell’ esempio di prima, il pc può sapere che la parola ‘tempo’ non si riferisce a una nozione di durata. Quindi in terrosa il data-base che contiene le informazioni metereologiche per sapere qual è il tempo a Parigi.

La rapida evoluzione della semantica in questi ultimi anni fa riferimento soprattutto alla legge di Moore e ai suoi cloni, secondo cui è più facile e meno costoso archiviare dei dati. Le applicazioni semantiche possono aggiungere maggiori significati a ciascuna parola. Un giorno, un programma semantico potrà ad esempio riconoscere che ‘temps mort’ può fare riferimento a un film del 1963. E con un data-base molto grande, potrà accedere a tutte le informazioni metereologiche disponibili.

Tuttavia, quando Léo Férré canta che avec le temps, va, tout s’en va, un pc non ce la farà a capire che quello che se ne va non è niente di reale, qualsiasi sia il data-base che interroga. Per capire quel testo, bisogna sapere che si tratta di una poesia.

Alcuni ricercatori sono persuasi che l’ approccio tradizionale non risolverà questo problema della semantica
e che la soluzione non verrà da un un aumento della potenza di calcolo.

Al posto di un metodo stratificato, con cui il programma identifica la sintassi e i diversi significati di ciascuna parola, preferiscono un approccio dinamico con cui il programma cerca prima di tutto di capire quello che succede (Si chiama costruzione dinamica del senso, in opposizione al calcolo composizionale classico, come ci dice il linguista Bernard Victorri).

In un articolo, Daniel Kayser (padre di Nicolas Kayser-Bril) e Farid Nouioua spiegano che, quando un computer legge la frase Il camion davanti a me ha frenato bruscamente, la chiave del senso non sta in nessuna dele parole, ma piuttosto in quello che non viene detto.
Tabella semantica Il senso della frase non viene dall’ aggregazione del senso delle diverse parole, come le si trova in un vocabolario. Al contrario, bisogna conoscere le condizioni di guida normali per afferrare quello che un lettore qualsiasi comprende facilmente (cioè la velocità dei veicoli, il rischio di incidente, ecc.).

Le conoscenze necessarie non si trovano in nessuna enciclopedia o data-base, per quanto grandi esse siano. Gli autori affermano quindi che il senso non viene da quello che è scritto, ma da ciò che si suppone sia saputo e non scritto.

La semantica non si è particolarmente evoluta nel corso dell’ ultimo decennio. I riassunti automatici, ad esempio, restano un problema insolubile per i linguisti, nonostante 40 anni di ricerca. Peggio, è difficile distinguere una eventuale chiave tecnologica che, una volta aperta, spingerebbe la semantica in una nuova dimensione.

I – segue.