Prevedere non significa comprendere

Redazione

8 anni fa

Il nostro Marco Dal Pozzo ci regala una sua nuova riflessione sul concetto diÂ “trasparenza degli algoritmi”. Lo studioso spulciando come al solito dentro alcuni articoli e saggi inerenti al tema recentemente pubblicati, prova ad allargare il contenuto delle elaborazioni di altriÂ esperti, per distillare un suo specifico ragionamento che riporti l’attenzione del lettore sul tema, a suo e nostro avviso,Â centrale nella cosiddetta: “societÃ degli algoritmi” come noi stessi abbiamo piÃ¹ volte definito il nostroÂ consesso sociale.

E’ ormai noto che il GDPR permette la portabilitÃ dei dati personali. Antonello Soro – riporta Luca De Biase in un recente articolo su Nova 24 – puntualizza che:Â “Lo scopo della portabilitÃ dei dati Ã¨ quello di aprire il mercato e mettere in gioco della alternative”. Luigi Zingales, poi – sempre nel pezzo “Il mercato dei dati personali” a firma De Biase – ponendo la questione dell’eventuale necessitÃ di regolare o meno le piattaforme, pensa ad una soluzione per cui l’interoperabilitÃ sia opportunamente incentivata.

La soluzione che De Biase propone nel suo “Crossroads” Ã¨ quella di Viktor Mayer-SchÃ¶nberger, autore di “Reinventing Capitalism in the Age of Big Data”: “le imprese devono essere obbligate a condividere una parte dei loro dati con altre imprese che non ne hanno abbastanza per competere: in cambio avranno una piccola riduzione del carico fiscale. I dati devono essere anonimizzati. E selezionati casualmente dall’insieme dei dati raccolti dai giganti”.

Sembra strano che, nonostante una ottima premessa (ancora Mayer-SchÃ¶nberger: “Il problema Ã¨ che nell’economia dei dati, chi ne detiene molto piÃ¹ degli altri finisce per possedere algoritmi e sistemi di machine learning molto meglio allenati”), poi non si affondi il colpo: la questione centrale Ã¨ proprio l’algoritmo: la protezione offerta dall’anonimizzazione Ã¨ poco piÃ¹ che una etichetta quando il detentore dei dati non Ã¨ protetto (in termini di consapevolezza, se non di completa trasparenza) anche e soprattutto dagli effetti dell’algoritmo che li macina.

Michele Mezza, nel suo volume “Algoritmi di LibertÃ “, spiega bene la questione con l’esempio paradigmatico di Spotify amplificando gli argomenti posti qualche anno fa da Eli Pariser: “Spotify – dice Mezza – gioca a curling con ognuno di noi, grazie ai suoi algoritmi predittivi, eliminando lâ€™attrito che devia la nostra rotta. Si tratta, di fatto, di una learning machine applicata alla crescita dei gusti, dunque della personalitÃ e delle relazioni, di ognuno dei suoi utenti, che impara e prevede le caratteristiche dei gusti in base a una poderosa massa di dati raccolti su ogni fattore che incide sulla nostra vita, e, giocando sulle correlazioni, le assonanze e somiglianze dei comportamenti di milioni individui simili in ambienti simili, arriva a determinare schemi di evoluzione.” Schemi che, come aveva dimostrato la rassegna di Cathy Oâ€™Neil nel suo â€œArmi di distruzione matematicaâ€, Â trovano applicazione in ogni ambito della nostra esistenza (esiste l’algoritmo per accedere agli studi, l’algoritmo per attribuire punteggi agli insegnanti, l’algoritmo per regolare l’orario di lavoro, l’algoritmo che stabilisce la affidabilitÃ per l’accesso al credito, etc…).

Non Ã¨ quindi l’anonimizzazione del dato a salvare gli individui dagli effetti dell’algoritmo predittivo. Algoritmo che, “nel gioco delle correlazioni, delle assonanze e delle somiglianze di comportamenti di milioni di individui in ambienti simili” e – per citare ancora Mezza – nel suo essere concepito dal suo proprietario (il dirigente scolastico, il proprietario di Just Eat, Foodora o Uber, il direttore di banca) come:Â “ultimo strumento di una volontÃ di primato di alcuni uomini sulla stragrande maggioranza di esecutori”, decidono che uno studente non puÃ² accedere ad un corso, che un insegnante deve perdere il suo posto, che bisogna guidare dodici ore al giorno o che Ã¨ accettabile il rischio di perdere una gamba, che non si puÃ² accendere un mutuo in banca.

Del resto ci sono esempi pratici sull’uso, l’abuso o anche la ripetuta violazione e messa alla berlina dei sistemi algoritmiciÂ che dimostrano, come direbbero in un’aula di tribunale negli States (o forse solo in un episodio di un legal drama tv) : “oltre ogni ragionevole dubbio” la fondatezza del ragionamento del nostro Marco Dal Pozzo. Proviamo a vederne alcuni cosÃ¬ come sono stati indagati, scovati, segnalati e riportati nella rubrica digit segnali dalla nostra Claudia Dani.

Ad esempio: Â questo algoritmo sa come voterai in base allâ€™auto che guidi

I ricercatori hanno creato un algoritmo in grado di identificare le auto direttamente su Google Street View per avere un rilevamento accurato e molto Â piÃ¹ rapido ed economico

Gli scienziati â€œhanno addestratoâ€ i loro algoritmi a riconoscere la marca, il modello e lâ€™anno di ogni auto viste in 50 milioni di immagini da 200 diverse cittÃ degli USA su Google Street View. Questo dato Ã¨ stato a sua volta confrontato con un database demografico chiamato American Community Survey e i dati di voto sulle ultime elezioni presidenziali. I risultati sono stati infine pubblicati in PNAS.

I dati dellâ€™auto sono stati confrontati con le informazioni demografiche e sono state fatte â€œforti associazioni tra distribuzione dei veicoli e fattori socio-economici disparatiâ€, scrivono i ricercatori. Gli abitanti dei quartieri con una grande popolazione asiatica si sono dimostrati piÃ¹ propensi a guidare Honda e Toyota; Le popolazioni delle aree afro-americane sono state Â associate a Chrysler, Buick e Oldsmobile, mentre camioncini, Volkswagen e Aston Martin sono stati attribuiti con buona approssimazione ai residenti dei quartieri prevalentemente popolati da caucasici.

I ricercatori affermano che questo tipo di lavoro non Ã¨ destinato a sostituire i sondaggi porta a porta molto Â piÃ¹ laboriosi ma decisamente piÃ¹ accurati, ma potrebbe contribuire a completarli e ad accelerare le procedure per il raggiungimento dei risultati.

Secondo gli scienziati: â€œle previsioni del documento sono applicabili solo a livello di gruppo e Â potrebbero esserci tecniche piÃ¹ accurate. Gli autori guardano ad un livello aggregato dei dati piuttosto che a un livello individuale, come ad esempio accade nellâ€™atteggiamento di voto rispetto ai dati derivanti dallâ€™applicazione di uno specifico Â Â codice di avviamento postale di zona o di circoscrizione piuttosto che i dati raccolti da un singolo individuo. Anche in termini di accuratezza, i risultati non sono cosÃ¬ buoni. Un buon indicatore, per gli esperti, potrebbe emergere, confrontando i dati raccolti con la proporzione del voto di un distretto messa in luce dopo lâ€™ultima votazioneâ€.

Oppure,Â i sistemi di raccomandazione: suggerimenti per gli acquisti di Amazon e Netflix utilizzano una tecnica chiamata â€œfiltro collaborativoâ€.

Per determinare quali prodotti potrebbero piacere a un cliente , cercano altri clienti che hanno dato valutazioni simili a una gamma di prodotti simili ed estrapolano questi specifici prodotti in una lista ad hoc.

Il successo di questo tipo di approccio dipende in modo particolare da quella che viene definita:Â â€œnozione di somiglianzaâ€.

La maggior parte dei sistemi di raccomandazione utilizza una misura chiamata similaritÃ del coseno, che sembra funzionare bene nella pratica. Lâ€™anno scorso, alla conferenza sui sistemi di elaborazione delle informazioni neurali, i ricercatori del MIT hanno utilizzato un nuovo quadro teorico per dimostrare perchÃ©, effettivamente, la similaritÃ del coseno produce risultati cosÃ¬ buoni.

Un nuovo algoritmo di raccomandazione che dovrebbe funzionare meglio di quelli in uso oggi, in particolare quando i dati di classificazione sono â€œsparsiâ€ â€“ cioÃ¨, quando câ€™Ã¨ poca sovrapposizione tra i prodotti recensiti e le valutazioni assegnate dai diversi clienti.

La strategia di base dellâ€™algoritmo Ã¨ semplice: quando si tenta di prevedere la valutazione di un cliente riguardo un particolare prodotto, bisogna utilizzare non solo le valutazioni di persone con gusti simili alle nostre, ma anche le valutazioni di persone che sono simili a quelle persone e cosÃ¬ via a scendere allargando sempre di piÃ¹ il campione.

Lâ€™idea Ã¨ intuitiva, ma in pratica tutto dipende ancora dalla misura specifica della somiglianza.

Ma anche: come gli studenti del MIT hanno imbrogliato un algoritmo di Google

Questo nuovo modo di ingannare lâ€™intelligenza artificiale potrebbe essere un affare piÃ¹ grande di quanto si possa pensare.

Negli ultimi anni, i ricercatori hanno dimostrato che un tipo di algoritmo chiamato classificatore di immagini â€“ si pensi ad esso come a un programma a cui Ã¨ possibile mostrare unâ€™immagine di un animale domestico, ed esso rivelerÃ se si tratta di Â un cane o un gatto â€“ puÃ² essere vulnerabile. Questi programmi risultano suscettibili agli attacchi di qualcosa che potremmo chiamare â€œadversarial examplesâ€ â€œesempi contraddittoriâ€.

Un gruppo di studenti del MIT ha dimostrato di essere in grado di creare oggetti tridimensionali capaci di creare errori di classificazione degli algoritmi, mostrando che gli adversarial examples siano una minaccia reale.

Ãˆ una modalitÃ di attacco efficiente e potrebbe rendere piÃ¹ facile chi non ha buone intenzioni di ingannare qualsiasi classificatore di immagini.

“Non Ã¨ l’anonimizzazione del dato a salvare gli individui dagli effetti dell’algoritmo predittivo”, come sottolinea Marco Dal Pozzo a conclusione della sua riflessione, serve, permetteteci di aggiungere, consapevolezza, conoscenza e soprattutto Ã¨ necessario che nella costruzione di ciascun algoritmo venga inserita una clausola obbligatoria di “trasparenza”.Â E per chiudere aggiungendo ancora utili notizie sul tema attingiamo ancora una volta agli approfondimenti di Claudia Dani sul mondo degli algoritmi riportando l’interessante iniziativa assunta dal Comune di una cittadina degli Stati Uniti, avete presente New York City?

TechCrunch riporta che la cittÃ di NY ha deciso di istituire una task force che monitorizzi, Â o meglio controlli, gli algoritmi utilizzati dalle istituzioni locali. Lo spunto interessante qui sta nelle raccomandazioni che la task force dovrebbe dare, che ci paiono fondamentali, nellâ€™ambito di un processo Â democratico.

Lâ€™unitÃ sarÃ formata da esperti di sistemi automatizzati (algoritmi) e rappresentanti di gruppi interessati da tali sistemi (avvocati, poliziotti, ecc.) e dovrÃ esaminare attentamente gli algoritmi utilizzati e fornire indicazioni su come migliorare il loro uso ed evitare pregiudizi. Â (confidiamo che ci siano anche i giornalisti in questa squadra, ci permettiamo di aggiungere)

la task force suggerirÃ raccomandazioni riguardanti:

In quale modo le persone possono sapere se loro, o le loro azioni, verranno valutate da un algoritmo e come informare le persone su tale procedimento
comprendere se un determinato algoritmo possa falsificare le comunicazioni prodotte a beneficio di alcuni gruppi sociali specifici, come gli anziani, gli immigrati, i disabili, le minoranze, ecc.
In caso affermativo, che cosa potrebbe essere fatto a nome del gruppo coinvolto nellâ€™azione pregiudizievole per renderla trasparente
Come funziona un determinato algoritmo, sia in termini piÃ¹ tecnici che di modalitÃ di applicazione
Come devono essere documentati e archiviati questi sistemi e in che modo apprendono

Per chi avesse voglia di approfondire, Â qui trova il testo integrale del provvedimento emesso dalla cittÃ di New York.