giovedì 10 aprile 2014

Prevedere il futuro con i big data


Minority Report, film del 2002 di Steven Spielberg, tratto da un racconto di Philip K. Dick, narra di una società futura in cui la polizia è in grado di prevedere i crimini e arrestarne preventivamente i colpevoli.
Fantascienza? Non proprio. Dal 2006, infatti, nella città di Memphis è in funzione il programma Blue CRUSH (Crime Reduction Utilizing Statistical History), che dopo aver analizzato dati di varia natura è in grado di prevedere con una relativa precisione dove e quando è più probabile che la legge venga infranta.
Allo stesso modo il Dipartimento di Sicurezza interna degli Stati Uniti ricorre a FAST (Future Attribute Screening Technology) per individuare potenziali terroristi monitorando i segni vitali, il linguaggio del corpo e altri dati dei sospettati.
Ciò che accomuna questi due sistemi, oltre all'acronimo cool, è il fatto che entrambi basano le loro previsioni sull'analisi e, soprattutto, sulla correlazione di una vastissima quantità di dati.
Nè Blue Crush né FAST sarebbero stati possibili fino a qualche anno fa, in un'epoca caratterizzata dalla scarsità di informazioni disponibili.
Il progresso delle tecnologie informatiche ha aumentato la facilità e la possibilità con cui raccogliere e immagazzinare dati (non a caso si parla di information explosion), ormai disponibili dalle fonti più eterogenee.
Negli anni '90 per indicare le crescenti raccolte di dataset è stato coniato il termine big data.
Sono state individuate tre caratteristiche principali di questo tipo di dati: il volume (di dimensioni enormi), la velocità (di analisi sempre più rapida) e la varietà (in quanto dati provenienti da fonti diverse). A questo modello, comunemente chiamato delle 3 V, spesso si aggiunge un'ulteriore caratteristica: la veridicità, per indicare la qualità informativa dei dati.



Grandi aziende come Google, Amazon e Facebook hanno cementato il loro successo sul possesso e sull'analisi dei big data, grazie ai quali è possibile conoscere ogni mossa del consumatore e, addirittura, anticiparne desideri e bisogni.
In questa direzione si muove il recente brevetto di Amazon, basato sull'anticipatory shipping, in grado, dopo aver scandagliato gli acquisti passati, le ricerche effettuate e il contenuto dei carrelli, di prevedere quali prodotti acquisteremo in futuro, in modo così da trasferirli nei centri di spedizione a noi più vicini.
Studiando le nostre abitudini, Amazon può così prevedere la nostra prossima mossa.
Il meccanismo alla base, quindi, è lo stesso del correttore ortografico del nostro smartphone o, in maniera più complessa, dei cosiddetti “intelligent personal assistant” come Siri o Google Now.
Quest'ultima analizzando la posizione tramite il GPS, il contenuto delle email e il calendario del nostro device, può non solo ricordarci di un particolare appuntamento, ma anche informarci dello stato del traffico e del meteo del luogo in cui questo avrà luogo. Il tutto senza averglielo chiesto.
Come appare chiaro, la merce di scambio sono i nostri dati personali. Quanto più dati forniremo a questi sistemi e a queste applicazioni, tanto più funzioneranno meglio.
Una sorta di patto luciferino, secondo Jaron Lanier, che ha portato ad un generale senso di passività digitale e ad una preoccupante economia della sorveglianza.
Lanier non è il solo a sollevare questioni di questo tipo, essendo il tema della privacy una delle maggiori preoccupazioni riguardo i "grandi dati". D'altronde eventi recenti, come lo scandalo datagate del NSA o Heartbleed, dimostrano come sia sottile il confine tra big data e Big Brother.
Le attuali norme di tutela della privacy non sono più adeguate per garantire la sicurezza dei nostri dati.
Il modello della notifica-consenso, secondo cui le compagnie sono tenute a mettere al corrente gli utenti della raccolta e dell'utilizzo dei proprio dati, spesso non rende gli individui consapevoli delle proprie scelte.

Viktor Mayer-Schönberger e Kenneth Cukier nel loro libro Big Data: A Revolution That Will Transform How We Live, Work, and Think, avanzano l'idea di spostare l'attenzione dal consenso individuale alla responsabilità di chi gestisce questi grandi quantitativi di informazioni.
La proposta tiene in considerazione il problema degli usi secondari dell'informazione, ovvero il fatto che nel momento in cui i big data vengono raccolti non sempre è possibile prevedere per quale scopo verranno utilizzati.
Un modo, insomma, non solo di tutelare la privacy degli utenti ma anche di non limitare le potenzialità informative e i possibili riutilizzi di questi dati.
La visione di Mayer-Schönberger e Cukier è, nonostante la preoccupazione riguardo privacy e “dittatura dei dati”, ottimistica nei confronti delle potenzialità offerte dai big data.
I due arrivano ad affermare che spesso non è importante interrogarsi sul perché qualcosa succeda, in quanto è sufficiente sapere che quella cosa accada. L'eccessiva fiducia nei big data ha portato i due autori a considerare il metodo scientifico come ormai superato. E non sono i soli.

Già nel 2008, il teorizzatore della coda lunga Chris Anderson, proclamava la “fine della teoria”, considerando il metodo scientifico obsoleto e chiedendosi cosa la scienza avrebbe potuto imparare da Google.
Secondo Anderson i numeri "parlano da soli", e non c'è bisogno di interpretarli attraverso i modelli tradizionali della scienza., poiché le enormi quantità di dati sarebbero sufficienti per spiegare e comprendere i fenomeni osservati.
In realtà non è proprio così e Google lo sa bene.
L'azienda di Mountain View, infatti, nel 2008 ha lanciato Google Flu Trends, con l'ambizioso compito di prevedere, per quanto riguarda gli USA, la diffusione dei picchi influenzali, semplicemente monitorando le ricerche contenenti parole chiave come tosse, febbre, vaccino, virus, ecc.
Il punto di forza del servizio è la sua rapidità d'analisi, impossibile per i normali centri per la prevenzione e il controllo delle malattie (questi ultimi necessitano di una settimana o più, laddove a GFT basta un solo giorno).
Tuttavia un recente studio, pubblicato su Science, ha dimostrato che negli ultimi tre anni Google Flu Trends ha sovrastimato i casi, prevedendo, ad esempio, nell'anno 2012/2013 il doppio delle visite mediche rispetto a quelle registrate dai centri di prevenzione.
Appaiono chiari i limiti dei big data, che se lasciati a loro stessi, senza un'opportuna metodologia, producono previsioni errate e fuorvianti.
Sarebbe, invece, opportuno integrare le analisi basate sui big data con quelle “tradizionali”, combinando l'approccio quantitativo con quello qualitativo, in modo da ottenere modelli predittivi più accurati e attendibili.
Al contrario, affidarsi ciecamente ai grandi numeri potrebbe portare a delle previsioni affidabili quanto quelle ottenute leggendo i fondi del caffè.

2 commenti:

  1. a proposito di big data vi segnalo un articolo interessante http://mashable.com/2014/04/26/big-data-pregnancy che racconta di come una docente di sociologia di princeton ha "nascosto" la propria gravidanza ai network pubblicitari illustrando come organizzare una vera e propria forma di resistenza ai big data

    come

    RispondiElimina
  2. Da questo articolo di mashable si imparano varie cose in termini di tecniche di resistenza al tracciamento. La filosofia generale è quella di un mix di high e low technology, tor + telefono. Ma questione centrale è quella del denaro: potere spendere liberamente il denaro contante è una forma di libertà cui non credo si debba rinunciare, nonostante le "nobili" lotte per la carta di credito come strumento contro l'evasione fiscale. In questo credo che libertà e liberismo abbiano un punto di contatto significativo.

    RispondiElimina