A frustrated librarian who enjoys liberating data

Sci-Hub, “the first website in the world to provide mass & public access to research papers” è un progetto che sta diventando piuttosto noto e non c’è bisogno che ne parli io. In sostanza, si tratta di prendere gli articoli scientifico-accademici che tutti noi abbiamo finanziato con le tasse e metterli su un sito da cui siano liberamente scaricabili per chiunque. Idea ragionevole e razionale ma, purtroppo, al momento sostanzialmente illegale. In ogni caso, qualcuno (qualcuna, la ricercatrice kazaka Alexandra Elbakyan) la sta realizzando.

Uno dei sottoprodotti, per così dire, del progetto risiede nel fatto di rendere visibile (e mettere a disposizione) i dati sull’uso del servizio, cioè su quanti download vengono fatti degli articoli, da quali paesi e così via. Un articolo che parla di questo e che mi è stato segnalato è Analyzing the SciHub data di Bastian Greshake (l’autore si definisce “A frustrated grad student who enjoys liberating data”, così capite subito). Qualcuno ha commentato “e questo, cari bibliotecari, è quello che si potrebbe fare con i dati di accesso ai documenti”.

Che le biblioteche siano depositarie di montagne di dati che non sfruttano pienamente non è un’idea nuova, ma di certo è ben lontana dall’essere entrata nella consapevolezza comune, non dico del loro pubblico, ma dei bibliotecari stessi.
È vero, i bibliotecari non sono certo nuovi alle “statistiche”: richieste dagli enti per i quali lavorano, sono abbastanza abituati a tirar fuori numeri e riempire fogli di calcolo ma si tratta, quasi sempre, di macro-dati, se mi passate il termine che forse non è tecnicamente corretto. Quanti prestiti all’anno, l’indice di circolazione dei libri su un certo argomento, quante persone sono semplicemente entrate in biblioteca, quanti laboratori per i bambini (o per gli studenti, ecc.) sono stati fatti. Le “statistiche” si fanno, si mettono su un foglio e – generalmente – si lasciano lì come puro adempimento amministrativo.
Il punto non è però l’uso che di questi dati si fanno (certo è un tema non da poco anche questo).
Il punto è che questi dati sono la punta dell’iceberg, mentre sotto il livello dell’acqua le biblioteche possiedono una enorme mole di dati che – se pubblicati – direbbero cose come quanto e cosa leggono realmente le classi di età, le categorie occupazionali, quando lo fanno, quale titolo viene letto con più probabilità assieme a quale altro titolo, tutti micro-dati, dati granulari dei quali possiedono imponenti serie storiche.

Naturalmente, coordinare l’estrazione e la pubblicazione di dati del genere a livello nazionale – e sapere come interpretarli (ad esempio mettendoli in correlazione con le dimensioni delle collezioni, i budget disponibili ecc.) – non è cosa affatto semplice.

Il Comune di Bologna, per il quale lavoro, ha un suo bel portale di open data. Recentemente, vi ho collaborato anch’io per la parte relativa ai servizi di biblioteca digitale, nella sezione dedicate alle biblioteche. Niente di particolarmente tecnico, ho solo (anch’io) riempito un foglio di calcolo e ho lavorato un po’ con chi pubblica i dati perché fossero leggibili in modo univoco, evitando i tanti possibili errori in cui si può incorrere quando si ha il dato, ma non si conosce il contesto.
Si tratta, comunque, degli stessi macro-dati di cui parlavo sopra anche se il pregio, in questo caso, sta nel fatto di fornirli aperti, cioè leggibili e lavorabili da parte di chiunque: un amministratore che voglia orientare il proprio operato, un altro ente pubblico che voglia confrontare i risultati coi propri, un’azienda che voglia costruirci sopra un prodotto o un servizio.

E i micro-dati? E il fatto che le donne fra i 30 e i 40 anni leggano mediamente questo titolo ma anche quest’altro genere, che smettano tendenzialmente di farlo quando hanno un figlio piccolo, che prendano in prestito più libri che DVD (o qualunque altra ipotesi si voglia fare con un qualsiasi focus sociale o culturale o editoriale)?
Cose di questo genere le biblioteche le sanno, ma non sanno di saperle. Non sanno che pubblicandole renderebbero un gran servizio a chiunque sia in grado di prendere grandi quantità di dati e scavarci per vedere cosa dicono.

Giovedì vado a questo incontro organizzato da ADER, Agenda Digitale della Regione Emilia-Romagna, e provo a parlarne. Forse il livello regionale è quello giusto per partire, né troppo piccolo, né troppo grande. Forse è ora che le biblioteche tirino fuori le loro risorse in un mercato più ampio, che non è solo quello della quotidianità del servizio o del wishful thinking della promozione della lettura.

 

2 thoughts on “A frustrated librarian who enjoys liberating data”

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...