Se Google desse un segnale di buona volontà…

Potranno mai un giorno Google e gli editori capirsi l’ un l’ altro? Difficile, secondo Frederic Filloux, che ha dedicato al tema un’ ampia riflessione dopo il 62/o Congresso dell’ Associazione mondiale dei giornali (WAN), dove il ‘’dagli a Google’’ è stato un po’ il motivo conduttore – Gli editori sono un po’ gli artigiani dell’ informazione e Google rappresenta la grande industria e, secondo Filloux, è stupefacente vedere a Mountain View un tale dispiegamento di cervelli rovinare un rapporto così importante e significativo come quello con il mondo dei media, mentre ci sarebbero varie misure, indolori, che Google potrebbe prendere per allentare un po’ la tensione
(nella foto FF, l’ avvocato di Google, David Drummond al termine del suo intervento al Congresso WAN)
———-

di Frédéric Filloux
(MondayNote)

Come avevo scritto nella nota precedente (vedi The Misdirected Revolt of the Dinosaurs) il momento culminante al Congresso della WAN è stato il ‘dibattito’ fra il presidente degli editori, Gavin O’Reilly e il capo dell’ Ufficio legale di Google, Dave Drummond. Uno viene da Alpha Centauri, l’ altro, dice, da Pandora.

Il punto di vista degli editori è qui e quello dell’ avvocato di Google qui.

In poche parole, gli editori lamentano le sempre più frequenti violazioni del copyright da parte di Google. Instancabili, i robot di Google dragano internet, indicizzando e mostrando dei ritagli su Google News, senza pagare un centesimo per i contenuti che pubblicano. Alla fine, ha detto Gavin O’ Reilly, ‘’Google fa un sacco di soldi sulle nostre spalle’’.

Dave Drummond replica: “Noi mandiamo sulle notizie online degli editori circa un miliardo di click al mese tramite Google News e più di 3 miliardi di visitatori provengono dal motore di ricerca e da altri servizi di Google. Si tratta di 100.000 opportunità di guadagno – per le inserzioni o le offerte di abbonamento – ogni minute. E non chiediamo un soldo per questo!’’. Aggiungenbdo che il comportamento di Google è assolutamente in linea con i principi del Fair Use.
Il Fair Use è solo ‘’noiosa retorica’’, ha affondato O’Reilly.

A questo punto la discussione diventa tecnica. E interessante. E tira in ballo una evoluzione cruciale del copyright, da una forma binaria (autorizzato ≠ proibito) a un concetto più variegato (l’ uso è consentito ma vi sono delle restrizioni). Questa evoluzione del copyright è legato al Creative Commons (coniato dal giurista Lawrence Lessig), che definisce una nozione di proprietà intellettuale dalla forma non rigida ma adattabile.

Qui c’ è il primo intoppo: come si traduce una costruzione intellettuale come il copyright flessibile in un protocollo digitale? A Hyderabad, gli editori hanno rinfocolato la discussione sul modo migliore per proteggere i loro materiali giornalistici. E’ il Robots.txt contro il cosiddetto ACAP.

Robots.text è un protocollo del 1994 (due anni prima che Google nascese), erano I primi giorni di Internet. E funziona così:
– Sono un editore online. Nella struttura del mio sito decido di aprire delle sezioni (directory) ai robot dei motori di ricerca. I risultati della ricerca possono essere ‘’digeriti’’ da aggregatori come Google News. Ma, per ragioni come delle restrizioni su materiali non miei, una parte del mio sito deve essere protetta dall’ utilizzo da parte di Google.
Come protezione contro il prelievo non voluto, inserirò due righe di codice nel mio sito:

User-agent: *
Disallow: /

La prima riga conterrà il niome dekl robot che io voglio escludere (”*” significa tutti) e la seconda riga specifica le directory che voglio proteggere.

Per esempio:

User-agent: Googlebot
Disallow: /sport-foot-ligue1/
Disallow: /sport-football/
Disallow: /sport-rugby-top14/
Disallow: /sport-rugby/

In questo caso, il sito del quotidiano france lemonade impedirà che il robot di indicizzazione di Google scavi nelle directory sportive, in particolare calico e rugby.

E’ semplice. Per avere una idea delle varie politiche di protezioni che vengono scelte dai vari siti, basta digitare l’ extension “robots.txt” dopo l’ Url.

Per esempio: http://www.timesonline.co.uk/robots.txt. Si vedrà l’ elenco di tutti i robot che il London Times vuole “vietare”. Abbastanza interessante è il fatto che, anche se Rupert Murdoch è in prima fila nela crociata anti-Google, il noto giornale inglese di sua prioprietà non esclude Google del tutto; così come The Australian, un’altra storica proprietà di Murdoch che è più tollerante nei confronti dei robot (vedere qui). Io amo questa duplicità – scusate, questo pragmatismo. (Ora lo scontro è sul contratto pubblicitario con MySpace).

Di fronte a robots.txt, un protocollo goffo ma molto semplice, ce n’ è ora uno molto più moderno: ACAP. Sta per Automated Content Access Protocol ed è stato creato nel 2006. Ma, cosa molto più importante, è sostenuto da 150 editori e della WAN.
Ecco.

ACAP e Robots.txt sembrano simili: semplici righe di codice, messe al punto giusto per definire I file e le directory da escludere. Anche se ACAP è un p’ più sofisticato. Infatti, in particolare, può indicare:
• quante righe di un articolo il robot può riprendere
• se deve realizzare una sintesi (snippet)
• a che ora il sistema può scavare in quale parte del sito, ad esempio “0700-1230 GMT”
• a quale velocità scavare
• bloccare I link a una parte del sito
• definire un termine di validità della sintesi
• decidere a quale paese (tramite i numeri di IP) è consentito vedere e che cosa (ma qui siamo alla balcanizzazione di internet, pessima idea)
… ecc.

Qual è il migliore? ACAP in teoria. Infatti aumenta drammaticamernte la granularità delle condizioni di uso di ciascun determinate contratto. Comunque, per avere una prospettiva piena e, credo, equilibrata, si può leggere un dettagliato articolo su Search Engine Land.

Ma c’ è un secondo problema: Google ignora ACAP; la posizione dell’ azienda è che il protocollo Robots.txt fa abbastanza per proteggere i contenuti. Da qui la collera del presidente della WAN.

Ho chiesto a François Bourdoncle, CEO del motore di ricerca francese Exalead il suo punto di vista sul conflitto. Nel 2007, Exalead era diventata il partner tecnico di un consorzio editoriale che desiderava un sistema migliore di Robot.txt. (Exalead realizzò un prototipo pro bono). Se consideriamo miglior protocollo quello che è più ampiamente adottato, ACAP è fritto: la sua versione 1.1 è stata adottata da 1250 editori, contro le 20.000 fonti che restano sotto GoogleNews.

François Bourdoncle offre la migliore analogia per descrivere l’ antagonismo fra media online e Google: ‘’E’ lo scontro fra gli artigiani dell’ informazione e gli industriali’’. Da una parte ci sono gli editori: maneggiano migliaia di documenti ciascuno sui loro siti web. E firmano dei complicati contratti di copyright, con delle clausole che definiscono ogni sfumatura del diritto degli autori. Dall’ altra parte ci sono quelli di Google. Per loro l’ unità di misura è il miliardo di documenti. Non c’ è spazio per le finezze, là. Il problema è che si tratta di processi di massa, qualcosa che può essere affrontato solo con gli algoritmi. E quindi con il metodo Google.

Gli editori vogliono essere in grado di definire il numero di righe che un robot può estrarre da un articolo? Google dirà: io voglio essere l’ unico che può definire come i miei risultati di ricerca (su Google News) devono attualmente apparire; se il sito x vuole una sintesi limitata a 3 righe e il sito y ne vuole 9, sarà un casino. Quando i geek di Googleplex decideranno che è il momento, aggiorneranno il protocollo Robots.txt per renderlo più vicino ad ACAP e mantenere il proprio protocollo, che è il più diffuso.

Ma qui Google sta facendo una brutta politica. E’ stupefacente vedere un tale dispiegamento di cervelli rovinare un rapporto così importante e significativo come quello con l’ industria dei media. Qui di seguito qualche misura che Google potrebbe prendere per allentare un po’ la tensione:

1. Robots.txt è uno strumento vecchio. OK, più o meno fa ancora il suo lavoro, ma Google potrebbe adottare l’ ACAP immediatamente.
2. In alternativa, potrebbe fare qualcosa di simile, insieme con gli editori. Contrariamente a quello che dice WAN, ciò non potrebbe modificare il declino economico dell’ informazione online, ma potrebbe essere un apprezzato gesto simbolico.
3. Google potrebbe organizzare quanto prima possibile un serio lavoro di verifica delle posizioni degli editori sul copyright, ma anche sulle questioni del traffico, della condivisione dei ricavi e dei pay wall. In tutte le principali testate editoriali del mondo ci sono un sacco di persone intelligenti che gestiscono grossi siti e che non hanno dei pregiudizi anti-Google. Potrebbero essere interpellati per discutere di proposte e risposte concrete

Il peggior errore che Google potrebbe fare in questo momento sarebbe di continuare a ignorare le lamentele degli editori. Ogni grande testata lo sa: Google ora domina il mondo dell’ editoria online. Ma col dominio vengono anche i doveri. Mostrare magnanimità potrebbe essere un’ ottima tattica. Perché è venuto alla luce un nuovo elemento. E’ il motore di ricerca di Microsoft, Bing, che sta aspettando di capitalizzare tutta la rabbia di tutti gli editori del mondo. Gli ingegneri di Googleplex potrebbero integrare questo nel loro algoritmo primario.