Big data en bibliotecas

Datos y más datos. ¿Qué significa Big data? Un concepto que, últimamente, los que trabajamos en nuevas tecnologías, escuchamos casi diariamente. Pues bien, no es más que una enorme y no uniforme cantidad de datos. Seamos un poco más específicos.

La verdad es que usamos bases de datos desde la década del 60’. Pero lo que poníamos en esas bases era información limitada y con cierta uniformidad. Un sistema de columnas y filas donde “encasillábamos” la información.

La Big data, no encaja en estos casilleros porque, además de ser mucha info -recordemos que estamos en la era de la infoxicación- esta data nos llega en formatos y por medios diferentes.

Una base de datos, tal como manejábamos hasta ahora, es una colección de datos, la Big data es una colección de colecciones de datos. Y esas diferentes colecciones, a su vez, tienen diferentes formatos. Por eso resulta tan difícil ¡“encajarlos”!. Y lo más importante: si no los “encasillamos”, resulta dificilísimo consultarlos.

¿Qué queremos decir con diferentes formatos? Ya no hablamos sólo de imagen o audio sino que ahora debemos clasificar formatos tales como: la info de un tweet, de un post en Facebook, de una llamada por celular, de una búsqueda en Internet…

Y no sólo los seres humanos producimos información. También los objetos: postes de luz equipados con sensores que pueden transmitir información sobre las nubes para ofrecer datos del tiempo, heladeras que twittean, etc. Lo que llamamos, Internet de los objetos.

Y aquí no termina todo. Esa información que parecería imposible de emparejar y guardar, además, necesita ser conectada, asociada, curada, para que signifique algo para alguien, que cobre sentido. Que sea útil, etc.

Acá vamos viendo o vislumbrando cuál sería, en parte, la tarea de los bibliotecarios: un curador de contenidos, un ensamblador de ideas, un hiperlinkeador mental… que lleve a cabo su “magia profesional”. La relación mental, personalizada, inteligente, preparada de un ser humano que, si ya antes lo hacía, ahora lo debe hacer con mayor cantidad de fuentes.

13254424_1085737294798107_2430915204678887960_nAcá es importante destacar cómo juega la inteligencia colectiva, el trabajo colaborativo, el concepto de usuario productor…: si antes el bibliotecario ya desarrollaba esta tarea que acabamos de describir –curaduría, gestión del conocimiento, referencista– lo hacía a partir de fuentes consideradas, tradicionalmente, calificadas, hoy, ya no es así. La fuente primaria puede ser un tweet de fulano, catedrático éste o vecino de la cuadra. Lo que hace que, la verificación de fuentes (tema en sí mismo del que hablaremos en otro post) se vuelva indispensable y, por ende, una habilidad que se duplica en las tareas del “nuevo” bibliotecario.

Decíamos que las redes sociales, por ejemplo, generan enormes cantidades de datos. Es allí donde el 90% de todos los datos en el mundo se ha generado en los últimos años. Y la característica de estos datos (creados en redes sociales) es que son datos personales.

Ok. Hasta acá, todo muy lindo. Y entonces, ¿para qué nos sirven finalmente a los humildes mortales? Las empresas ya están analizando la Big data para “leer” y descifrar las necesidades y gustos de sus clientes y, en consecuencia, refinar sus productos. Porque el objetivo es fidelizar al público y para ello, necesitan estudiarlos, escucharlos, leerlos, etc. Lo que se ha dado en llamar estudio de audiencias.

Antes solo lo hacían las empresas, hoy, lo hacen también las instituciones: museos, bibliotecas, etc. Es decir, otro eslabón en el que los bibliotecarios serán activos participantes y protagonistas. Porque la biblioteca y sus profesionales, en definitiva, proponen un servicio al público. Por lo tanto, es necesario conocer a ese público. Pero ese público, así como los datos, también va evolucionando…

Es decir, es un camino doble: llega info de los usuarios para que vuelva a ser propuesta a los usuarios. Este circuito es el que se ha modificado. Insistimos, los usuarios/lectores antes eran solo receptores. Hoy son receptores pero también productores y fuentes de información.

Hoy, el usuario/lector es exigente y busca espacios en los que se haya escuchado sus gustos y se haya actuado en consecuencia. Quiere que alguien le dé lo que le resulte pertinente. Quiere algo legible, algo que él pidió y que, en varias ocasiones, como decimos, ha sido creado por el mismo (un tweet, un mash up, una info de su barrio, etc).

Desarrollar un buen estudio de la información nos permitiría saber otros datos tales cómo dónde se localiza la persona (geolocalización), qué hay cerca de ella, qué lugar puede ofrecerle una información más personalizada, etc. Recordemos, entre otras tantas cosas, el concepto de ubicuidad: el usuario puede estar en cualquier lugar del mundo y, a cualquier hora. Lo que significa que esa información que twittea, por ejemplo, es personal, cercana o lejana, pero, muchas veces, única. Por ende, insustituible. Para un bibliotecario, entonces recibir esa información, a veces, puede resultar incalculable. Y, responderle a ese otro usuario, una tarea de excesivo cuidado y atención. No se responde de igual manera a un español sobre García Lorca que a un argentino. Aunque entre ellos, haya muchas coincidencias. Diferentes culturas, diferentes necesidades. Insistimos, para ambos lados: ellos tampoco nos darán la misma información.

Las referencias y las recomendaciones devienen, a partir del data mining (minería de datos), un trabajo en sí mismo: una curaduría, como parte de la gestión de bases de datos, que implica seleccionar y limpiar estas bases para crear mapas (mentales, temáticos), rutas, grupo de datos.

Además de tener la capacidad de responder y escuchar a este usuario, el bibliotecario trabaja con otras bibliotecas, es decir, con sus pares. De hecho, y como ya he mencionado en otro post, en la Biblioteca Pública de Información (BPI), las consultas que llegan, ya no son solo respondidas por los referencistas del establecimiento, sino que éstas se trasladan a bibliotecas especializadas en el tema del que se pide referencia.

Esto permitiría, en algún momento, también, crear una gran base de datos con toda esta big data de cada una de las bibliotecas. Un banco de datos universal de bibliotecas. Esto ya me parece una tarea un poco utópica, pero hay ciertos micromundos que podrían crearse, al menos, a partir de un pedido y de la respuesta de un bibliotecario. Veamos el ejemplo que bien podría darse o desarrollarse en el ámbito de una biblioteca:

un usuario quiere información sobre Federico García Lorca. Entonces, podría, por ejemplo, acceder a través de un solo lugar a la información que varias bibliotecas han enviado sobre el escritor. Y bibliotecas de todo tipo, por consiguiente con información sobre Lorca en diversos formatos (audio, video) y a la información dada por los tweets de personas que, posiblemente, ni siquiera sean españolas pero que estuvieron en la casa del escritor u otra situación personal. Un submundo personalizado: imagen, audio, MOOC, twitter, facebook, etc.

Sigamos con posibilidades que se salgan de lo comercial o de una colaboración solo entre pares (bibliotecas entre sí). Por ejemplo, las escuelas y las bibliotecas. Analizando los programas curriculares lengua y literatura, los departamentos educativos de las bibliotecas podrían desarrollar actividades más interesantes, personalizadas, localizadas, etc.

Bibliotecas y editoriales: podría ser para conocer tendencias, literariamente hablando: recolectar info sobre las ventas de los escritores por país de origen y analizar cuáles son los mercados en los que tienen más éxito. O recolectar data de las ferias del libro internacionales para saber cuáles son las nacionalidades más representadas y dónde se presentan. Sumarle a esto los tweets de usuarios que comentan sobre nuevos textos, videos de booktubers que analizan el mismo texto, un gif…. Puedo seguir hasta el infinito. Ese es el problema: la cosa se vuelve un poco infinita, inconmesurable y ahí llega el super bibliotecario: a limitar un poco, a “limpiar”.

Las bibliotecas deberían devenir los matchmakers de la literatura (aunque sea literatura de biología). Mucha info… que al menos resulte ¡útil!. Leo, escucho, analizo y conecto. Ya se habla de databrarians.

Cuando la Library of Congress comenzó a archivar los tweets, en 2010, ya había alrededor de 21 mil millones de tweets, hashtags, información de la geolocalización, y otros metadatos.

La gestión y el almacenamiento o si se quiere la cosecha de datos puede ser mecanizado y los algoritmos pueden hacer ciertos cruces, pero aún es el bibliotecario, es el humano quien puede hacer las mejores recomendaciones a través del “descifrado” de la data.

De este modo, lo hacen empresas como Amazon y sus recomendaciones. Un algoritmo determina automáticamente las preferencias a partir del cifrado de toda la información que los compradores han hecho de sus compras anteriores. Cruzando esta info, por ejemplo, con características descriptas en los libros digitalizados. ¿Se entiende? Esto es automático y es por eso que, a veces, estas recomendaciones no son tan buenas, ni tan personalizadas, ni tan precisas. Pero sí nos demuestra que el cruce de datos, su análisis, puede ser un proceso útil para el servicio al público.

Resumiendo: tenemos mucha información, en varios formatos y queremos que sirva para algo. Para ello, debemos clasificarla, conectarla y personalizarla. Esta nos llega a través de los mensajes que nosotros mismos transmitimos diariamente, entre otros medios. Por eso también es importante, a partir de acá pensar en el Open data (abrir a todos estas bases gigantes) y en el Linked data (queda para otro capítulo, lo prometo). No sólo para que todos tengamos acceso, sino para que se aprendan conceptos tales como la transparencia en la información.

Definitivamente, el archivo de Twitter u otra red social o medio que antes no era tomado en cuenta como fuente, es el modo de este siglo de recoger testimonios en primera persona. Las redes son las autobiografías de este siglo. Y la Big data permite, a través de un análisis bibliotecario, en este caso, sumar la información que ellas, de manera casi invisible nos aportan, para llevar a cabo una tarea, cada vez, más conectada.

1 Comment

  • […] los sonidos, la producción en redes (tweets, posts en facebook, etc). Lo que se ha dado en llamar Big data. Que también es importante tener en cuenta. Aunque ya lo hacíamos, pero de manera no tan evidente […]

Leave a Reply