N = tutti, o del non perdersi fra i dati

A completamento del post precedente sul libro di Viktor Mayer-Schönberger e Kenneth Cukier Big Data, ecco che cosa gli autori aggiungono a proposito dei rischi insiti nell’uso dei big data e dei possibili rimedi.

“Il pericolo di non governare i big data nel rispetto della privacy, o di farsi ingannare dal significato dei dati, va molto al di là di bazzecole come la pubblicità mirata su Internet. La storia del XX secolo è fin troppo ricca di situazioni in cui i dati hanno prodotto risultati sanguinosi. Nel 1943 lo U.S. Census Bureau cedette in blocco alle autorità militari gli elenchi nominativi (ma senza l’indirizzo e il numero civico, in modo da salvare le apparenze) dei nippo-americani per facilitarne l’internamento. I registri anagrafici proverbialmente super aggiornati dell’Olanda vennero usati dagli invasori nazisti per rastrellare gli ebrei. I numeri a cinque cifre tatuati sull’avambraccio degli internati nei campi di concentramento nazisti corrispondevano inizialmente ai numeri registrati con la scheda perforata di Hollerith che fece la fortuna dell’IBM; la processazione dei dati agevolò la carneficina organizzata.” (p. 205)

In sostanza, gli autori individuano tre aree di rischio piuttosto importanti:

“Anche qui, il punto essenziale sui big data è che un cambiamento nella dimensione porta a un cambiamento della situazione. Come vedremo, questa trasformazione, oltre a rendere molto più problematica la tutela della privacy, porta con sé una minaccia totalmente nuova: le penalizzazioni basate sulle propensioni. Ovvero della possibilità di usare le previsioni che emergono dai big data sulle persone per giudicarle e punirle ancor prima che agiscano. Ed è la negazione dei concetti di equità, giustizia e libero arbitrio.
Esiste poi un terzo pericolo, oltre a quelli che si profilano per la privacy e per le propensioni. Rischiamo di cadere vittime di una dittatura dei dati, in base alla quale eleviamo a feticcio le informazioni, l’output delle nostre analisi, e finiamo per farne un cattivo uso. Se gestiti razionalmente, i big data sono un utile strumento per la razionalizzazione del processo decisionale. Se gestiti impropriamente, rischiano di diventare uno strumento al servizio dei potenti, che potrebbero farne un mezzo di repressione, limitandosi a creare frustrazione nei clienti e nei dipendenti o, peggio, danneggiando i cittadini.” (p. 204)

La prima area di rischio è dunque costituita dalla privacy. Dallo scandalo NSA in poi (credevamo che Assange fosse un paranoico, adesso sembra un’anima candida), questo è l’elemento che più intuitivamente si impone all’attenzione. La verità, purtroppo, è che coi big data la privacy – per come la concepiamo oggi – semplicemente non esiste più.

La normativa attuale che si occupa della protezione dei dati si basa sull’idea del consenso concesso dall’interessato volta per volta, rispetto al singolo contesto in cui avverrà il trattamento dei suoi dati, pratica che lo dovrebbe garantire da abusi e dovrebbe riservargli un’area di libero arbitrio considerata fino a oggi sufficiente. Quando poi si intende utilizzare i dati per macro analisi, aggregandone grandi quantità, interviene la procedura dell’anonimizzazione: la malattia che avete avuto nell’ultimo anno verrà conteggiata insieme a quelle di tutti gli altri cittadini, ma senza che ci resti attaccata un’etichetta col vostro nome.
Ma sorgono almeno due problemi: l’autorizzazione al trattamento dei dati è prevalentemente concessa per forza (pena l’esclusione da un servizio, ad esempio), con uno scarso livello di comprensione del suo significato e sempre più spesso come formalità senza importanza (giusto una casella da spuntare che si frappone tra noi e l’obiettivo). Ma soprattutto, la pratica di rendere anonimi i dati viene vanificata dal fatto di disporre di set di dati enormi:

“In presenza di un quantitativo sufficiente di dati, la totale anonimizzazione è assolutamente impossibile. Come se non bastasse, i ricercatori hanno dimostrato che non solo i dati convenzionali, ma anche il grafico sociale – le interconnessioni tra le persone – sono vulnerabili alla de-anonimizzazione.” (p. 210)

Per la seconda area di rischio, quella delle penalizzazioni basate sulle propensioni, sono gli autori stessi a citare l’esempio di Minority Report, il film basato sull’ipotesi di una polizia futuribile che tenta di impedire gli omicidi prima che vengano commessi.
Fantascienza a parte, si può pensare al settore assicurativo per capire che cosa questo punto significhi: immaginate di appartenere per caso a una classe demografica o sociologica che presenta una correlazione statistica importante con un comportamento a rischio, o ancora con una malattia. Come reagireste se vi venisse negata un’assicurazione sulla base di questo e non del vostro comportamento o del vostro stato di salute reali?

La terza area di rischio, quella che gli autori chiamano della possibile dittatura dei dati fa l’ipotesi del caso in cui i dati siano di cattiva qualità, vengano analizzati impropriamente o misurino l’indicatore sbagliato. Ci sono esempi storici di tutto ciò, come ad esempio il famigerato uso del body count (la contabilità dei nemici uccisi) che Robert McNamara fece durante la guerra del Vietnam per misurare il grado di avvicinamento alla vittoria militare, e che con gli anni fu riconosciuto – cinismo del metodo a parte – come dato falsato in primo luogo dai generali statunitensi per motivi di carriera.

“… i big data consentono una maggiore sorveglianza sulla nostra vita, e rendono praticamente obsoleti alcuni degli strumenti giuridici finalizzati alla tutela della privacy. Mandano in soffitta anche il metodo tecnico principale per la protezione dell’anonimato. E, cosa non meno inquietante, le previsioni sugli individui ricavate dai big data si potrebbero usare, di fatto, per punire le loro propensioni, anziché le loro azioni. Questo meccanismo perverso nega il libero arbitrio e intacca la dignità umana.
Nello stesso tempo, c’è il rischio reale che i benefici offerti dai big data spingano le persone ad applicare le tecniche dove non si addicono perfettamente alla situazione specifica, o a fidarsi un po’ troppo dei risultati delle analisi. Man mano che miglioreranno le previsioni estrapolate dai big data, la prospettiva di utilizzarle diverrà sempre più irresistibile, alimentando un’autentica ossessione per i dati, apparentemente giustificata dalla loro ‘onnipotenza’. Ecco di nuovo la maledizione di McNamara e la lezione che ci viene dalla sua storia.” (p. 228)

Di fronte a un quadro così complesso, gli autori sostengono la necessità di nuove forme di regolazione.

Rispetto alla privacy, un quadro normativo e delle sanzioni che spostino la responsabilità reale del trattamento dei dati dagli individui alle organizzazioni, “meno focalizzato sul consenso individuale al momento della raccolta e più incentrato sulla responsabilizzazione degli utilizzatori per quello che fanno.“ (p. 233)

Quanto al rischio della penalizzazione dei singoli sulla base delle loro propensioni, si sostiene che, nell’era dei big data, “dovremo espandere il nostro concetto di giustizia, e pretendere che includa salvaguardie per il libero agire umano così come oggi esigiamo il pieno rispetto delle procedure.” Dunque maggiore trasparenza (“mettere a disposizione i dati e l’algoritmo sottostanti alla previsione che coinvolge l’individuo”, p. 238), un sistema di certificazione degli algoritmi e procedimenti formalmente riconosciuti per la loro confutabilità.

L’unica strada da non prendere? Quella della limitazione a priori dello sfruttamento delle potenzialità dei big data:

“Con il passare dei secoli, abbiamo optato per il sempre maggiore ampliamento dei flussi informativi, e ci siamo abituati a prevenirne gli eccessi non più attraverso la censura, ma tramite regole che limitassero l’uso improprio delle informazioni.” (p. 232)

N = tutti, o del trovare la rotta

Commander Matthew Fontaine Maury USN paintingNel 1839 questo signore era un giovane ufficiale della Marina statunitense desideroso di partire per mare per un nuovo incarico, quando la diligenza su cui si trovava finì fuori strada. Ne uscì con una frattura che lo rese inabile al servizio attivo e cambiò, assieme alla traiettoria della sua carriera, anche lo studio dell’oceanografia e della metereologia di allora. Si chiamava Matthew Fontaine Maury e da allora gli fu dato l’incarico di dirigere gli archivi della Marina.

“All’epoca dell’entrata in marina di Maury e delle sue prime esperienze come navigatore, le navi usavano seguire rotte tramandate per tradizione piuttosto che affrontare zone ignote e considerate pertanto rischiose dei mari. Come sovrintendente del Depot of Charts and Instruments Maury raccolse il materiale a disposizione negli archivi della marina comprendente registri, mappe e carte nautiche e libri di bordo delle passate navigazioni. In essi trovò informazioni fino ad allora non messe in correlazione fra loro relativamente ai venti, le correnti e le condizioni atmosferiche. Grazie a tale lavoro di aggregazione dei dati, riuscì a creare un nuovo tipo di carta nautica in cui l’Atlantico venne suddiviso in riquadri di cinque gradi di longitudine e di latitudine, in ognuno dei quali vennero registrate le condizioni utili alla navigazione nei vari mesi dell’anno, rendendo possibile stabilire nuove rotte sicure.
Allo scopo di ottenere ulteriori informazioni in base alle quali progredire nel lavoro, Maury creò anche una forma standard di registrazione dei dati di navigazione, che fu utilizzata da tutta la marina americana. Ottenne la collaborazione dei mercantili mettendo a disposizione le nuove carte nautiche in cambio dei diari di bordo. Infine, escogitò un metodo di rilevazione di nuovi dati grazie a bottiglie che i comandanti lasciavano in acqua a intervalli regolari, contenenti un biglietto con informazioni su posizione, periodo dell’anno, venti e correnti. Le bottiglie venivano recuperate durante la navigazione, fornendo dati sui percorsi e la velocità delle correnti. Alla fine della sua vita, Maury aveva creato il sistema di rotte che è sostanzialmente rimasto in uso per tutto il XX secolo.”
Fonte: Matthew Fontaine Maury, //it.wikipedia.org/w/index.php?title=Matthew_Fontaine_Maury&oldid=63344267 (in data 26 gennaio 2014).

Maury viene citato in Big data: una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, di Viktor Mayer-Schönberger e Kenneth Cukier, Garzanti, 2011, come uno dei primi casi di persone che hanno basato il loro lavoro sull’analisi di set di dati aventi queste due caratteristiche: il costituire la totalità (o quasi) dei dati disponibili su un certo fenomeno, e il fatto che i dati fossero originariamente stati raccolti per uno scopo diverso da quello per cui sono stati poi effettivamente usati.

I big data sono, in sostanza, questo. Quantità di dati molto grandi (tendenzialmente, tutti i dati esistenti, N = tutti), non necessariamente digitali, messi a contatto fra loro in modo da rivelare correlazioni altrimenti invisibili. Non necessariamente digitali, anche se ovviamente non è un caso che di big data si parli adesso:

“Maury datificò i viaggi dei navigatori del passato con una meticolosa tabulazione manuale, facendo emergere così preziose informazioni di grandissimo valore. Oggi abbiamo gli strumenti (statistiche e algoritmi) e le attrezzature (processori digitali e memoria) che occorrono per svolgere compiti analoghi molto più rapidamente, su vasta scala, e in tanti contesti diversi.” (p. 133)

L’equivalente odierno degli studi di Maury si può vedere nei molti esempi citati nel libro.

Un paio riguardano Google, il raccoglitore per eccellenza di dati digitali. Raccontano di come attraverso l’analisi delle parole chiave utilizzate nelle ricerche sia risultato possibile fare previsioni realistiche sulla diffusione di un’epidemia di influenza in un certo territorio. Oppure di come avere utilizzato lo sterminato database testuale che è la rete per migliorare gli strumenti di traduzione automatica abbia prodotto risultati migliori di quelli ottenuti dai migliori linguisti assoldati dall’azienda.

Ancora meglio si capisce di che si tratta seguendo la traccia di aziende che, utilizzando dati geolocalizzati inviati dalle auto, e mettendoli insieme a dati storici sull’andamento del traffico e sulle condizioni atmosferiche, ottengono previsioni sui flussi di traffico attuali che, a loro volta, risultano utili per misurare la vitalità delle economie locali: il livello di traffico “parla” anche del tasso di vendite al dettaglio, delle attività svolte nel tempo libero, addirittura dei livelli di disoccupazione (se non sei impiegato, probabilmente non intasi le strade nelle ore di punta).

Questo libro ha alcuni grandi pregi: spiega nel tipico stile felicemente didascalico degli autori americani una questione che rischia di diventare uno slogan prima ancora che si sia capito di che si tratta. Lo fa senza prendere posizioni banalmente entusiastiche o, viceversa, paranoidi (e c’è spazio per entrambe quando si parla di questo argomento).

Dal punto di vista di un bibliotecario, credo che faccia riflettere su alcune cose in particolare.

Innanzitutto l’intero libro (che è lungo e anche leggermente prolisso) costituisce una cura forzata contro l’ingenuità con cui tendiamo ad accogliere i ragionamenti di tipo causale. Dico noi bibliotecari in quanto persone spesso provenienti da studi umanistici, ma il fenomeno è trasversalmente umano. L’analisi dei big data cerca infatti non di dimostrare le cause di un fenomeno, ma le correlazioni fra fenomeni, evidenziando una cosa nota al metodo scientifico ma del tutto controintuitiva per la mente umana: non sappiamo davvero perché accadono le cose, sappiamo solo che probabilmente a) è legato a b) e non a c). (Se vi piace la cioccolata, leggete qui).

“In un mondo dominato dagli small data, dimostrare la fallacia delle intuizioni causali richiedeva molto tempo. Non sarà più così. In futuro, le correlazioni tra i big data verranno impiegate abitualmente per confutare le nostre intuizioni causali, dimostrando che in molti casi c’è un collegamento statistico assai tenue – ammesso che ci sia – tra l’effetto e la presunta causa.” (p. 92)

In secondo luogo, questo è un libro che incide sull’idea che potremmo esserci fatti degli ordini di grandezza implicati nel nostro mestiere. Mettiamo a confronto il “non tutto si trova su Google” ed espressioni simili che possano risultarci familiari (e che non sono in sé false) con questo:

“Vale la pena osservare che nel 2007 solo un 7 per cento dei dati era in forma analogica (giornali, libri, stampe fotografiche e così via). Il resto era in forma digitale.” (p. 19)

Anche avendo ben presente che si parla qui di dati (opere dell’intelletto, videogiochi, telefonate, dati provenienti dai sistemi di navigazione delle automobili e così via) e non di soli documenti, una domanda sulla rilevanza delle collezioni fisiche e dei set di metadati che gestiamo io me la farei.

Infine, una delle implicazioni dei big data è che vanno a colpire la figura dell'”esperto” in diversi campi:

“… l’expertise è come l’esattezza: va bene per un mondo dominato dagli small data, in cui non si hanno mai abbastanza informazioni, o le informazioni giuste, perciò bisogna affidarsi all’intuito e all’esperienza. In un mondo di questo tipo, l’esperienza ha un ruolo critico perché è la prolungata accumulazione di conoscenze latenti – conoscenze che non si possono trasmettere facilmente, apprendere da un libro o possedere consapevolmente – a farci prendere decisioni più intelligenti.
Ma quando siete strapieni di dati, potete sfruttarli, e con esiti più soddisfacenti. Di conseguenza, chi è in grado di analizzare ingenti masse di dati potrebbe andare contro le superstizioni e il pensiero convenzionale non perché sia più intelligente, ma perché possiede i dati.” (p. 192)

Quanti sono i dati in possesso delle biblioteche? A quali frutti potrebbero portare se venissero sistematicamente resi pubblici e offerti all’analisi? Che cosa digitano veramente i nostri utenti sui cataloghi e che cosa ne deduciamo? I bambini che leggono da piccoli restano davvero lettori per tutta la vita? Che cosa è legato alla tendenza a leggere saggistica anziché narrativa? I consigli di lettura stilati manualmente hanno senso o non fanno che replicare l’errore umano? I nerd leggono davvero fantascienza e fantasy come si vede nei film? I bibliotecari navigano a vista?

“… le analisi statistiche costringono le persone a riconsiderare le proprie scelte istintive. Con i big data, ciò diventa ancora più essenziale. Il grande esperto, il super specialista, perderà terreno rispetto allo statistico e all’analista di dati, che non sono condizionati dai vecchi metodi e lasciano parlare i dati. Questa nuova categoria di professionisti andrà a cercare delle correlazioni senza preconcetti e senza pregiudizi, così come Maury non prendeva per oro colato quello che raccontavano su una certa traversata dei marinai incartapecoriti al pub davanti a una birra…” (p. 190)

(Sì, poi questo libro tratta anche dei rischi insiti nei big data, e di come arginarli. Ne parlo nel prossimo post).

If Book Then 2013: il big bang dei dati

Me ne stavo seduta da un po’ nella sala della lussuosa If Book Then 2013, al Museo della scienza e della tecnologia di Milano lo scorso 19 marzo, dopo aver sentito solo i primi dei molti interventi della giornata, quando ha cominciato ad affacciarsi in me una sensazione particolare, anzi una sorta di eco.

In queste settimane sto scrivendo un capitolo per un prossimo futuro manuale di biblioteconomia e una delle cose che mi riesce più difficile esprimere nella sintesi a cui devo attenermi è il fatto che già oggi, appena nascosti dietro i rassicuranti oggetti finiti che chiamiamo libri, c’è una pluralità di forme della pubblicazione che in biblioteca non trattiamo e non sapremmo al momento trattare.

Questo tema comincia a riecheggiarmi in mente sentendo alcune frasi, a partire dall’idea che il mercato di cui qui si sta parlando (e vedo in giro i nomi di grandi marchi editoriali) non è quello del publishing ma quello del digital. Nell’idea che gli attori con cui collaborare sono le case di produzione cinematografica o i produttori di videogiochi. O in quella che di tutto ciò si possa parlare come dell’attività del raccontare storie, del digital storytelling (ci rientra anche la non fiction, guardando le cose con un po’ di ampiezza).

Trovo confermata una cosa che amici editori digitali mi hanno ripetuto molte volte: se ho un buon contenuto (una buona storia) posso declinarlo in versioni e formati differenti, l’ebook, la app, l’audiolibro, e progettarne la produzione in diverse lingue perché esso farà la sua apparizione su un mercato che è nativamente globale. O, viceversa, posso scegliere la versione più adatta a quella particolare storia, perché non tutto è traducibile. Vanno incontro a queste necessità aziende che vendono contenuti ma anche servizi per l’editoria come Atavist e Sourcefabric.
Atavist, che si definisce una “storytelling company”, editore in proprio con prodotti di lunghezza a metà fra il magazine e il libro, ne fornisce simultaneamente la versione app, quella per il web e quella in puro testo per ereader. Ma è anche fornitore di un software che mette a disposizione di chiunque voglia pubblicare contenuti un’interfaccia per la produzione ottimizzata di prodotti editoriali per versioni e device differenti (ne sono un esempio i TED Books).
La seconda, Sourcefabric, che raccoglie e organizza soli software open source per la produzione editoriale e guadagna dai suoi clienti (giornalisti, editori) non con le licenze d’uso ma coi servizi, dalle consulenze all’ottimizzazione dei flussi di lavoro ai workshop formativi. Il suo Booktype, ad esempio, è uno strumento di creazione collaborativa di ebook classici e di ebook fruibili via browser indirizzato agli autori, agli editori, alle academic press, alle piattaforme di self-publishing, ai servizi di print on demand e alle aziende.

Dunque si moltiplicano, assieme al numero degli attori in grado di pubblicare (fino a farci pensare che “l’editoria non è più un’industria, ma una funzione“), le forme e le tipologie delle pubblicazioni.

Si tratta di un futuro a venire? Non esattamente. Un nome: Kate Pullinger, autrice di fiction e di digital fiction tra il romanzo e il romanzo breve, analista di se stessa quando cita l’idea degli spreadable media di Henry Jenkins e racconta di come le fan fiction sulla sua stessa opera siano per lei motivo di orgoglio. Ed ecco i suoi Flight Paths (digital fiction in sei episodi, liberamente fruibili online), legati a Landing Gear (un romanzo di stampo tradizionale previsto a stampa, in ebook e in web book), legato a sua volta a Duel (digital fiction, primo episodio online gratis e successivi a pagamento).

Il secondo stimolo all’effetto eco (il richiamo alla domanda “ha ancora senso parlare di libri?”, se volete) è la frase “Treat literature and stories as big data”.

Non solo gli oggetti culturali sembrano diventare multipli e paralleli, ma si trasformano in set di dati (l’espressione, non felicissima, è mia).
Dati nel senso minuto delle informazioni che un device come Kindle raccoglie sulle abitudini di lettura, gli “small data” che rivelano ad esempio che la non fiction particolarmente lunga tende ad essere abbandonata prima della fine. Dati che servono per vendere, ma che non sono certo un campo sconosciuto alle biblioteche: li chiamiamo indici di circolazione, tassi di utilizzo delle collezioni e così via, ma di questo si tratta, capire che cosa vuole il lettore.
Dati significa però anche “big data”, la massa degli User Generated Content pubblicata a ritmo incessante attraverso il self-publishing e i social media e che produce un moto di espansione tale da far dire a Ed Nawotka che “il digitale è il big bang dell’industria editoriale”.
Ma dati significa un’altra cosa ancora, potenzialmente foriera di molte meraviglie a venire. La vediamo in diretta a Milano partendo da un caso totalmente indirizzato al marketing, Mobnotate. Mobnotate è una start up che produce sistemi di contextual linking per segnalare (e dunque vendere) un certo ebook a partire dal web o da un altro ebook. Applica criteri di affinità semantica per far apparire al lettore interessato ad un certo argomento, in un apposito box, la pubblicità di un altro testo sullo stesso tema, senza aspettare che sia il lettore stesso ad uscire dalla sua esperienza di lettura, decidere autonomamente di andare su uno store online, fare la ricerca e portare a termine l’acquisto. Una forma di pubblicità particolarmente invasiva? Forse. Ma anche la dimostrazione di come il testo digitale possa essere codificato a livello granulare e quindi interpretato e ricombinato per usi differenti da quelli previsti dal suo autore. In un certo senso, dunque, il moto di espansione è anche verso l’interno del testo, verso le potenzialità di un’indicizzazione infinitamente piccola, e non solo nella moltiplicazione delle sue forme.

Dati, dunque, come quantità dei contenuti e molteplicità degli attori coinvolti. Dati come conoscenza delle abitudini di lettura e potenzialità di diffusione e di vendita. Dati, infine, come informazione codificata.

Tra le domande che ci possiamo porre, la più semplice in questo momento potrebbe essere questa: per quanto tempo le biblioteche potranno permettersi di scegliere una delle tante versioni esistenti di un’opera (diciamo l’ebook testuale al posto della app arricchita di contenuti multimediali) al posto dei loro lettori? La risposta ovviamente non è affatto scontata, considerato che alcuni editori ancora non accettano neppure di avere le biblioteche come partner possibili nel mercato dell’editoria digitale.

Ma IBT è un evento di lusso, e concediamoci quindi il lusso di spostare lo sguardo più in là e di porci una domanda ancora più difficile: chi si farà carico di fare in modo che delle tante accezioni possibili della parola “dati” sia quella della cura della ricchezza semantica, della ricombinazione a fini informativi a prevalere, e non quella del marketing inteso nel suo senso più brutale? Chi porterà l’infinitamente piccolo, l’infinita rete dei link potenziali, da dentro il testo al mondo là fuori?

IBT è molto più di questo. Materiali a breve disponibili sul sito e, per un altro punto di vista bibliotecario, il post di Silvia Franchini.