Biblioteche e open data

Lunedì scorso sono stata al seminario che si è tenuto presso la Biblioteca Sormani di Milano Open Data, Machine Learning e Biblioteche. Ora sono stati pubblicati i video integrali degli interventi, compresa la tavola rotonda del pomeriggio. Questo era il programma della giornata.

Si è trattato di un seminario anche più interessante di quanto già non mi aspettassi. Fra tutte le cose che ho sentito – o meglio fra quelle che ho capito ma, come cercherò di spiegare, non è molto importante che alcune non si capissero – ce n’è stata una sola con cui non sono d’accordo: che gli open data delle biblioteche, e quanto ci si può costruire, siano un oggetto di interesse di nicchia.

Perché no? Perché, quando di certo non si sta parlando di sostenibilità economica dei servizi, di promozione della lettura, di open access o di qualunque altro modo in cui si voglia immaginare un tema che interessi trasversalmente grandi numeri di bibliotecari?

Perché questo è un tema di nicchia solo nel senso che manca la consapevolezza di quanto sia importante, anzi, fondante.

Di che dati parliamo? Le biblioteche raccolgono stati statistici da sempre e, in genere, li rendono anche pubblici (agli addetti ai lavori se non al pubblico dei cittadini): quanti iscritti, quanti prestiti, quali tipologie di documenti. A questo però si possono aggiungere molte altre cose (invento a caso facendo degli esempi): quali caratteristiche anagrafiche degli utenti rispetto a quali tipologie di documenti (chi legge i classici?); quali documenti rispetto ad altri documenti (ci sono nessi fra libri non visibili a occhio nudo?); quali contenuti rispetto a quale indicizzazione (posso chiedere a una macchina di leggere la scansione di un indice e farle restituire un soggetto?); quali chiavi di ricerca che gli utenti usano sugli opac rispetto a quali risultati (se manca una funzione di auto-completamento come in Google l’utente procede o si blocca?); quali tipologie di utenti rispetto a quali tipologie di opac; che cosa mi dicono tutte le ricerche andate a vuoto degli utenti rispetto alla composizione della collezione… Tutte domande a cui si potrebbe tentare di dare una risposta attraverso la combinazione dei dati relativi alle anagrafiche (anonimizzate) degli utenti, le transazioni di prestito e quelle di ricerca. Tutti dati che le biblioteche possiedono ma che tengono chiuse in una cassaforte di cui spesso non hanno neppure focalizzato l’esistenza, e che non sanno di avere il diritto (e il dovere) di usare.

Non usare questi dati significa procedere con una benda sugli occhi: difficile poi immaginare di fornire servizi che realmente incontrino le necessità del proprio pubblico – o di una strategia culturale qualunque – e che siano difendibili di fronte alla spesa che comportano.

Non pubblicare questi dati in formato aperto sarebbe un ulteriore errore: dati di questo genere nascono pubblici, lo sono per natura. Chiunque (i sistemi bibliotecari stessi, i fornitori di servizi, gli editori – anche a scopo di lucro) deve poterci costruire un’offerta di significato e di servizio.

Perciò, pazienza se gli aspetti tecnici del seminario non erano comprensibili per tutti. Sono le macchine che poi fanno i conti, a noi spetta solo – in questo momento – il compito di liberare un potenziale.

A frustrated librarian who enjoys liberating data

Sci-Hub, “the first website in the world to provide mass & public access to research papers” è un progetto che sta diventando piuttosto noto e non c’è bisogno che ne parli io. In sostanza, si tratta di prendere gli articoli scientifico-accademici che tutti noi abbiamo finanziato con le tasse e metterli su un sito da cui siano liberamente scaricabili per chiunque. Idea ragionevole e razionale ma, purtroppo, al momento sostanzialmente illegale. In ogni caso, qualcuno (qualcuna, la ricercatrice kazaka Alexandra Elbakyan) la sta realizzando.

Uno dei sottoprodotti, per così dire, del progetto risiede nel fatto di rendere visibile (e mettere a disposizione) i dati sull’uso del servizio, cioè su quanti download vengono fatti degli articoli, da quali paesi e così via. Un articolo che parla di questo e che mi è stato segnalato è Analyzing the SciHub data di Bastian Greshake (l’autore si definisce “A frustrated grad student who enjoys liberating data”, così capite subito). Qualcuno ha commentato “e questo, cari bibliotecari, è quello che si potrebbe fare con i dati di accesso ai documenti”.

Che le biblioteche siano depositarie di montagne di dati che non sfruttano pienamente non è un’idea nuova, ma di certo è ben lontana dall’essere entrata nella consapevolezza comune, non dico del loro pubblico, ma dei bibliotecari stessi.
È vero, i bibliotecari non sono certo nuovi alle “statistiche”: richieste dagli enti per i quali lavorano, sono abbastanza abituati a tirar fuori numeri e riempire fogli di calcolo ma si tratta, quasi sempre, di macro-dati, se mi passate il termine che forse non è tecnicamente corretto. Quanti prestiti all’anno, l’indice di circolazione dei libri su un certo argomento, quante persone sono semplicemente entrate in biblioteca, quanti laboratori per i bambini (o per gli studenti, ecc.) sono stati fatti. Le “statistiche” si fanno, si mettono su un foglio e – generalmente – si lasciano lì come puro adempimento amministrativo.
Il punto non è però l’uso che di questi dati si fanno (certo è un tema non da poco anche questo).
Il punto è che questi dati sono la punta dell’iceberg, mentre sotto il livello dell’acqua le biblioteche possiedono una enorme mole di dati che – se pubblicati – direbbero cose come quanto e cosa leggono realmente le classi di età, le categorie occupazionali, quando lo fanno, quale titolo viene letto con più probabilità assieme a quale altro titolo, tutti micro-dati, dati granulari dei quali possiedono imponenti serie storiche.

Naturalmente, coordinare l’estrazione e la pubblicazione di dati del genere a livello nazionale – e sapere come interpretarli (ad esempio mettendoli in correlazione con le dimensioni delle collezioni, i budget disponibili ecc.) – non è cosa affatto semplice.

Il Comune di Bologna, per il quale lavoro, ha un suo bel portale di open data. Recentemente, vi ho collaborato anch’io per la parte relativa ai servizi di biblioteca digitale, nella sezione dedicate alle biblioteche. Niente di particolarmente tecnico, ho solo (anch’io) riempito un foglio di calcolo e ho lavorato un po’ con chi pubblica i dati perché fossero leggibili in modo univoco, evitando i tanti possibili errori in cui si può incorrere quando si ha il dato, ma non si conosce il contesto.
Si tratta, comunque, degli stessi macro-dati di cui parlavo sopra anche se il pregio, in questo caso, sta nel fatto di fornirli aperti, cioè leggibili e lavorabili da parte di chiunque: un amministratore che voglia orientare il proprio operato, un altro ente pubblico che voglia confrontare i risultati coi propri, un’azienda che voglia costruirci sopra un prodotto o un servizio.

E i micro-dati? E il fatto che le donne fra i 30 e i 40 anni leggano mediamente questo titolo ma anche quest’altro genere, che smettano tendenzialmente di farlo quando hanno un figlio piccolo, che prendano in prestito più libri che DVD (o qualunque altra ipotesi si voglia fare con un qualsiasi focus sociale o culturale o editoriale)?
Cose di questo genere le biblioteche le sanno, ma non sanno di saperle. Non sanno che pubblicandole renderebbero un gran servizio a chiunque sia in grado di prendere grandi quantità di dati e scavarci per vedere cosa dicono.

Giovedì vado a questo incontro organizzato da ADER, Agenda Digitale della Regione Emilia-Romagna, e provo a parlarne. Forse il livello regionale è quello giusto per partire, né troppo piccolo, né troppo grande. Forse è ora che le biblioteche tirino fuori le loro risorse in un mercato più ampio, che non è solo quello della quotidianità del servizio o del wishful thinking della promozione della lettura.