Algoritmi per combattere il furto dei contenuti

Il sistema della ‘’Graduated Response” (due avvisi ai ‘’ladri’’ di articoli prima di far partire una causa legale) messo in piedi dalla società ‘Attributor’ è troppo lento e macchinoso e, basandosi esclusivamente su operazioni manuali, è insufficiente rispetto alla natura di internet con i suoi 23 miliardi di pagine – Secondo Francois Filloux, l’ algoritmo di Attributor, che ha inventato il sistema, dovrebbe essere fortemente potenziato e ampliato attraverso una acquisizione da parte delle grandi società della Rete, come Google o Bing, o da un consorzio degli editori realizzato ad hoc, per poter intervenire in poche ore puntando soprattutto sul ‘taglio’ delle inserzioni pubblicitarie – Un articolo su Monday Note elenca i vari tipi di intervento

—–

Fighting Unlicensed Content With Algorithms

di Frédéric Filloux

(MondayNote)

E’ davvero tempo di combattere i ladri di contenuti giornalistici. Un paio di settimane fa, Attributor – http://www.attributor.com/ -, una società americana, ha diffuso le conclusioni di uno studio sull’ uso di contenuti online non autorizzati. Il progetto, chiamato Graduated ResponseTrial for News, si basa su una forte idea centrale: una volta che un’ infrazione viene verificata, piuttosto che una accanita offensiva legale, una “email amichevole”, secondo il linguaggio di Attributor, chiede gentilmente al responsabile dell’ illecito di rimuovere il contenuto illegale. In mancanza di una risposta entro 14 giorni, arriva una seconda email.

Come secondo passo, Attributor avverte che contatterà il motore di ricerca e le agenzie pubblicitarie. Ai primi verrà chiesto di eliminare link e indicizzazione verso le pagine colpevoli; ai secondi di rimuovere le pubblicità, così da far cessare la monetizzazione dei contenuti illegali.

Dopo altri 14 giorni, il sito che si comporta scorrettamente riceve una notifica di “smettere e desistere” e si troverà a dover fronteggiare una azione legale piena (i dettagli nel Fair Syndacation Consortium). Attributor e FSC dichiarano con orgoglio che il 75% dei siti negligenti si ravvedono dopo il secondo messaggio. In altre parole, una volta avvisati con le buone, i ‘’ladri’’ cambiano atteggiamento e si comportano bene. Forte.

In termini numerici, il Graduated Response Trial for News ha individuato 400.000 oggetti clonati senza licenza su 45.000 siti. Che significa lo sconvolgente dato di 900 usi illegali per sito. Come avevo già raccontato in una mia Monday Note del febbraio scorso , una precedente analisi condotta da Attributor aveva scoperto 112.000 brani copiati da articoli di giornali americani su 75000 siti; il che significava una media di 1,5 articoli rubati per ogni sito.

Ma allora, come si può passare da 1,5 a 900? I due studi non erano stati progettati per essere confrontati, la capacità di localizzazione di Attributor sta crescendo velocemente, il perimetro preso in considerazione era differente, etc. Quando, qualche giorno fa, ho chiesto a Jim Pitkow, CEO di Attributor, che ne pensava di questi numeri, ha ammesso che l’ uso di contenuti rubati in internet è in aumento.

Non ci sono dubbi: la tecnologia e gli accordi raggiunti da Attributor con i provider di contenuti e i motori di ricerca sono passi verso la giusta direzione. Ma parliamoci chiaro: per ora, questa è una goccia nell’oceano.

Innanzitutto, il sistema ‘’Graduated Response” testato dall’azienda di San Mateo e dai suoi partner ha bisogno di tempo per produrre i suoi effetti. Una coppia di notifiche in 14 giorni prima di far partire l’ obice legale non ha molto senso considerata la durata del ciclo delle notizie: il valore dell’ oggetto notizia appassisce dell’80% in circa 48 ore. L’intervallo di 14 giorni tra i due colpi d’ avvertimento non è esattamente un deterrente per coloro che fanno affari rubando contenuti. In secondo luogo, il metodo descritto sopra si basa troppo su operazioni manuali: valutare l’ampiezza della violazione, determinare la risposta, notificare, monitorare, notificare nuovamente, etc. A dir poco insufficiente, rispetto alla natura di internet con i suoi 23 miliardi di pagine.

Ecco qual è il punto secondo me. Il problema richiede una risposta molto più risoluta e con una ampiezza tale da coinvolgere tutti gli interlocutori: fornitori di contenuti, aggregatori, motori di ricerca, network pubblicitari e aziende. Ecco qui qualche possibile traccia:

1 Attributor dovrebbe essere rilevata da qualche azienda più grossa. E’ troppo piccola per il lavoro che deve fare. Potrebbero andar bene qualche giorno di ricavi di Google (68 milioni di dollari in 24 ore) o meno di un mese di quelli di Bing. Ancor più intelligentemente potrebbe essere rilevata da un gruppo di editori e testate giornalistiche americane uniti in un consorzio ad hoc.

2 Consigliamo a Google o a Bing di acquisire il nocciolo del know-how di Attributor. Si potrebbe poi adattare e ampliare il suo algoritmo in modo da poterlo rendere efficace contro l’intero world wide web – in tempo reale. Due ore dopo che una notizia viene “presa in prestito” da un editore, questo viene segnalato, il sito riceve una notifica mirata. Potrebbe essere una email, o un commento che si genera automaticamente al di sotto dell’ articolo. O, ancora meglio, un link sponsorizzato ben piazzato come quello fittizio qui sotto:

Inevitabilmente, le pubblicità si prosciugano. Per primi, i network pubblicitari affiliati al sistema smettono di fornire inserzioni. E, in seconda battuta, dato che il motore di ricerca fornisce collegamenti ipertestuali, le inserzioni su pagine orfane diventano irrilevanti. Ogni passaggio è automatico.

Pensate ai vantaggi per il motore di ricerca: invece che apparire come il più grande saccheggiatore di internet, diventa il crociato del copyright.

3 Il modello di vendita. Gli editori pagano una quota affinché i propri contenuti siano rintracciati. Per gli editori più grossi, il costo/beneficio è evidente se la quota viene fissata in rapporto alla quantità di entrate pubblicitarie che i ‘’ladri’’ ottenevano dalla proprietà illecita. In alternativa, se Bing decide di diventare il cavaliere bianco, una tale mossa potrebbe diventare un efficace elemento di differenziazione – reale e in termini di percezione – rispetto a Google.

Naturalmente, da solo il rafforzamento dei sistemi di tracciamento dei contenuti illegittimi basati su algoritmi non sarà sufficiente per risolvere gli enormi problemi di pirateria nel campo dell’ informazione. Molti siti fanno affari riscrivendo, elaborando e incrociando storie già pubblicate, oppure ‘catturando’ testi che si reggono autonomamente, e generando così un sacco di visite per pagina a spese degli editori originali. Questa battaglia sarà lunga. Ma dev’ essere combattuta. E’ in gioco il denaro guadagnato in maniera seria e legittima.

(traduzione di Stefania Cavalletto)