N = tutti, o del trovare la rotta

Commander Matthew Fontaine Maury USN paintingNel 1839 questo signore era un giovane ufficiale della Marina statunitense desideroso di partire per mare per un nuovo incarico, quando la diligenza su cui si trovava finì fuori strada. Ne uscì con una frattura che lo rese inabile al servizio attivo e cambiò, assieme alla traiettoria della sua carriera, anche lo studio dell’oceanografia e della metereologia di allora. Si chiamava Matthew Fontaine Maury e da allora gli fu dato l’incarico di dirigere gli archivi della Marina.

“All’epoca dell’entrata in marina di Maury e delle sue prime esperienze come navigatore, le navi usavano seguire rotte tramandate per tradizione piuttosto che affrontare zone ignote e considerate pertanto rischiose dei mari. Come sovrintendente del Depot of Charts and Instruments Maury raccolse il materiale a disposizione negli archivi della marina comprendente registri, mappe e carte nautiche e libri di bordo delle passate navigazioni. In essi trovò informazioni fino ad allora non messe in correlazione fra loro relativamente ai venti, le correnti e le condizioni atmosferiche. Grazie a tale lavoro di aggregazione dei dati, riuscì a creare un nuovo tipo di carta nautica in cui l’Atlantico venne suddiviso in riquadri di cinque gradi di longitudine e di latitudine, in ognuno dei quali vennero registrate le condizioni utili alla navigazione nei vari mesi dell’anno, rendendo possibile stabilire nuove rotte sicure.
Allo scopo di ottenere ulteriori informazioni in base alle quali progredire nel lavoro, Maury creò anche una forma standard di registrazione dei dati di navigazione, che fu utilizzata da tutta la marina americana. Ottenne la collaborazione dei mercantili mettendo a disposizione le nuove carte nautiche in cambio dei diari di bordo. Infine, escogitò un metodo di rilevazione di nuovi dati grazie a bottiglie che i comandanti lasciavano in acqua a intervalli regolari, contenenti un biglietto con informazioni su posizione, periodo dell’anno, venti e correnti. Le bottiglie venivano recuperate durante la navigazione, fornendo dati sui percorsi e la velocità delle correnti. Alla fine della sua vita, Maury aveva creato il sistema di rotte che è sostanzialmente rimasto in uso per tutto il XX secolo.”
Fonte: Matthew Fontaine Maury, //it.wikipedia.org/w/index.php?title=Matthew_Fontaine_Maury&oldid=63344267 (in data 26 gennaio 2014).

Maury viene citato in Big data: una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, di Viktor Mayer-Schönberger e Kenneth Cukier, Garzanti, 2011, come uno dei primi casi di persone che hanno basato il loro lavoro sull’analisi di set di dati aventi queste due caratteristiche: il costituire la totalità (o quasi) dei dati disponibili su un certo fenomeno, e il fatto che i dati fossero originariamente stati raccolti per uno scopo diverso da quello per cui sono stati poi effettivamente usati.

I big data sono, in sostanza, questo. Quantità di dati molto grandi (tendenzialmente, tutti i dati esistenti, N = tutti), non necessariamente digitali, messi a contatto fra loro in modo da rivelare correlazioni altrimenti invisibili. Non necessariamente digitali, anche se ovviamente non è un caso che di big data si parli adesso:

“Maury datificò i viaggi dei navigatori del passato con una meticolosa tabulazione manuale, facendo emergere così preziose informazioni di grandissimo valore. Oggi abbiamo gli strumenti (statistiche e algoritmi) e le attrezzature (processori digitali e memoria) che occorrono per svolgere compiti analoghi molto più rapidamente, su vasta scala, e in tanti contesti diversi.” (p. 133)

L’equivalente odierno degli studi di Maury si può vedere nei molti esempi citati nel libro.

Un paio riguardano Google, il raccoglitore per eccellenza di dati digitali. Raccontano di come attraverso l’analisi delle parole chiave utilizzate nelle ricerche sia risultato possibile fare previsioni realistiche sulla diffusione di un’epidemia di influenza in un certo territorio. Oppure di come avere utilizzato lo sterminato database testuale che è la rete per migliorare gli strumenti di traduzione automatica abbia prodotto risultati migliori di quelli ottenuti dai migliori linguisti assoldati dall’azienda.

Ancora meglio si capisce di che si tratta seguendo la traccia di aziende che, utilizzando dati geolocalizzati inviati dalle auto, e mettendoli insieme a dati storici sull’andamento del traffico e sulle condizioni atmosferiche, ottengono previsioni sui flussi di traffico attuali che, a loro volta, risultano utili per misurare la vitalità delle economie locali: il livello di traffico “parla” anche del tasso di vendite al dettaglio, delle attività svolte nel tempo libero, addirittura dei livelli di disoccupazione (se non sei impiegato, probabilmente non intasi le strade nelle ore di punta).

Questo libro ha alcuni grandi pregi: spiega nel tipico stile felicemente didascalico degli autori americani una questione che rischia di diventare uno slogan prima ancora che si sia capito di che si tratta. Lo fa senza prendere posizioni banalmente entusiastiche o, viceversa, paranoidi (e c’è spazio per entrambe quando si parla di questo argomento).

Dal punto di vista di un bibliotecario, credo che faccia riflettere su alcune cose in particolare.

Innanzitutto l’intero libro (che è lungo e anche leggermente prolisso) costituisce una cura forzata contro l’ingenuità con cui tendiamo ad accogliere i ragionamenti di tipo causale. Dico noi bibliotecari in quanto persone spesso provenienti da studi umanistici, ma il fenomeno è trasversalmente umano. L’analisi dei big data cerca infatti non di dimostrare le cause di un fenomeno, ma le correlazioni fra fenomeni, evidenziando una cosa nota al metodo scientifico ma del tutto controintuitiva per la mente umana: non sappiamo davvero perché accadono le cose, sappiamo solo che probabilmente a) è legato a b) e non a c). (Se vi piace la cioccolata, leggete qui).

“In un mondo dominato dagli small data, dimostrare la fallacia delle intuizioni causali richiedeva molto tempo. Non sarà più così. In futuro, le correlazioni tra i big data verranno impiegate abitualmente per confutare le nostre intuizioni causali, dimostrando che in molti casi c’è un collegamento statistico assai tenue – ammesso che ci sia – tra l’effetto e la presunta causa.” (p. 92)

In secondo luogo, questo è un libro che incide sull’idea che potremmo esserci fatti degli ordini di grandezza implicati nel nostro mestiere. Mettiamo a confronto il “non tutto si trova su Google” ed espressioni simili che possano risultarci familiari (e che non sono in sé false) con questo:

“Vale la pena osservare che nel 2007 solo un 7 per cento dei dati era in forma analogica (giornali, libri, stampe fotografiche e così via). Il resto era in forma digitale.” (p. 19)

Anche avendo ben presente che si parla qui di dati (opere dell’intelletto, videogiochi, telefonate, dati provenienti dai sistemi di navigazione delle automobili e così via) e non di soli documenti, una domanda sulla rilevanza delle collezioni fisiche e dei set di metadati che gestiamo io me la farei.

Infine, una delle implicazioni dei big data è che vanno a colpire la figura dell'”esperto” in diversi campi:

“… l’expertise è come l’esattezza: va bene per un mondo dominato dagli small data, in cui non si hanno mai abbastanza informazioni, o le informazioni giuste, perciò bisogna affidarsi all’intuito e all’esperienza. In un mondo di questo tipo, l’esperienza ha un ruolo critico perché è la prolungata accumulazione di conoscenze latenti – conoscenze che non si possono trasmettere facilmente, apprendere da un libro o possedere consapevolmente – a farci prendere decisioni più intelligenti.
Ma quando siete strapieni di dati, potete sfruttarli, e con esiti più soddisfacenti. Di conseguenza, chi è in grado di analizzare ingenti masse di dati potrebbe andare contro le superstizioni e il pensiero convenzionale non perché sia più intelligente, ma perché possiede i dati.” (p. 192)

Quanti sono i dati in possesso delle biblioteche? A quali frutti potrebbero portare se venissero sistematicamente resi pubblici e offerti all’analisi? Che cosa digitano veramente i nostri utenti sui cataloghi e che cosa ne deduciamo? I bambini che leggono da piccoli restano davvero lettori per tutta la vita? Che cosa è legato alla tendenza a leggere saggistica anziché narrativa? I consigli di lettura stilati manualmente hanno senso o non fanno che replicare l’errore umano? I nerd leggono davvero fantascienza e fantasy come si vede nei film? I bibliotecari navigano a vista?

“… le analisi statistiche costringono le persone a riconsiderare le proprie scelte istintive. Con i big data, ciò diventa ancora più essenziale. Il grande esperto, il super specialista, perderà terreno rispetto allo statistico e all’analista di dati, che non sono condizionati dai vecchi metodi e lasciano parlare i dati. Questa nuova categoria di professionisti andrà a cercare delle correlazioni senza preconcetti e senza pregiudizi, così come Maury non prendeva per oro colato quello che raccontavano su una certa traversata dei marinai incartapecoriti al pub davanti a una birra…” (p. 190)

(Sì, poi questo libro tratta anche dei rischi insiti nei big data, e di come arginarli. Ne parlo nel prossimo post).

1 thought on “N = tutti, o del trovare la rotta”

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...