Buscar

‘Big data’: el detalle infinitesimal de un número casi infinito de casos

The Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) holds the Marenostrum supercomputer, which reaches 110,000 billion operations per second. Author: Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) (CC BY-ND 2.0)
The Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) holds the Marenostrum supercomputer, which reaches 110,000 billion operations per second. Author: Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) (CC BY-ND 2.0)

La cantidad casi infinita de datos que somos capaces de generar, el ‘big data’, ofrece grandes oportunidades pero a la vez grandes retos tanto para la Ciencia como para la sociedad en general.

FL02_ESP_Big_Data

Estimado amigo Ramon,

hace unos días me explicabas tu interés por las empresas que trabajan en el análisis de ‘big data’. Yo contesté que te haría llegar algún artículo sobre el tema, pero es difícil escoger.  Repasando los volúmenes de años recientes de esas revistas que marcan tendencia en ciencia, descubres que los artículos que usan cantidades ingentes de datos se han convertido en protagonistas habituales, y diría que imprescindibles. En septiembre de 2016, Miraldo et al. publicaban en la revista Science un mapa de la diversidad genética de vertebrados a escala mundial a partir de 92.801 secuencias mitocondriales de más de 450 especies.

La magnitud de esa información se escapa a cualquier percepción intuitiva. Hablamos de megas, gigas y teras para atar en corto esas magnitudes; al fin y al cabo sólo tenemos diez dedos en las manos. El manejo de enormes cantidades de datos (para las que ya hemos acuñado un término, ‘big data’) atrae a científicos, instituciones públicas (por motivos de seguridad, y también electorales) y empresas. Me explicabas el interés de las cadenas de supermercados de utilizar ‘big data’ para disponer de perfiles muy ajustados de clientes y ofrecerles ofertas personalizadas.

Graph representing the metadata of thousands of archive documents, documenting the social network of hundreds of League of Nations personals. Author: Martin Grandjean (CC BY-SA 3.0)
Gráfico representando los metadatos de miles de documentos de archivo de la Liga de les Naciones. Autor: Martin Grandjean (CC BY-SA 3.0)

Mientras revisaba esas revistas, me vino a la cabeza la idea de entender dónde se encuentra la frontera actual de las ciencias empíricas. No es una idea muy novedosa: existen rankings anuales y aparecen muchos libros sobre el tema. Concluí que el territorio a punto de ser explorado por muchas disciplinas es el que se abre gracias a la capacidad de obtener un detalle infinitesimal de un número casi infinito de casos.

Me explico. En biología, a partir de la segunda mitad del siglo XX, los avances técnicos proporcionaron una descripción detalladísima de algunos objetos seleccionados. El microscopio electrónico permitió visualizar las entrañas de una célula o de un puñado de ellas. Posteriormente, el desarrollo de las técnicas de secuenciación genómica ha permitido desgranar nucleótido a nucleótido larguísimas moléculas seleccionadas de ácidos nucleicos, como las de los humanos. Algunas proteínas no van a la zaga en este afán detallista. Los neurobiólogos ya son capaces de identificar la actividad de células individualizadas en las complejísimas redes neuronales. Simultáneamente, las diferentes disciplinas que estudian la naturaleza obtenían una visión completa del conjunto de su objeto de estudio. En el ámbito territorial, las bases cartográficas ya llegaron a cubrir con rigor matemático toda la Tierra en el siglo XIX, aunque en lugares poco poblados la precisión era escasa. A su vez, los biólogos y geólogos conseguían unos inventarios razonablemente completos de los organismos vegetales y animales, o de las estructuras geológicas, respectivamente.

El salto en el conocimiento que estamos experimentando actualmente representa pasar de una gran precisión en las medidas de unos pocos objetos al gran detalle en casi todos.

El salto en el conocimiento que estamos experimentando actualmente representa pasar de una gran precisión en las medidas de unos pocos objetos al gran detalle en casi todos. Esa minuciosidad implica una ingente cantidad de información que no podría ser procesada sin los avances que simultáneamente se han producido en computación.  De una forma extraordinaria, hemos asistido en pocos años al espectáculo de que todo objeto mayor de pocos metros cuadrados expuesto al aire libre en cualquier lugar del mundo pueda ser visualizado fácilmente desde el cielo en una pantalla. A diferencia de una sola molécula que escapa a la percepción de nuestros sentidos, todos reconocemos en esas imágenes cenitales el habitáculo en el que nos refugiamos, y eso hace más verosímil la técnica.

Más ejemplos: investigadores de la universidad de Maryland ha desarrollado el proyecto Global Forest Change que proporciona en la web una visualización detallada de la pérdida o aumento de la superficie forestal en cualquier lugar del mundo. También disponemos de técnicas como el LIDAR —una especie de radar que utiliza rayos láser— que, entre otras aplicaciones, permite discernir a escala de centímetros la cubierta de la vegetación y su distancia al suelo. De momento, debemos contentarnos con seleccionar algunas áreas pequeñas, pero no hay obstáculo intelectual que impida pensar que podremos llegar a disponer de esa información para todos los centímetros cuadrados de la superficie de la Tierra. Como tampoco hay obstáculo teórico para que lleguemos a genotipar todos los organismos de la Tierra. Siempre que se dejen capturar, claro, y aquí radica uno de los quid de la cuestión.

¿Qué ha hecho posible esta ordalía de datos que no cesa? La respuesta trivial es reconocer que las técnicas se han perfeccionado. Pero eso no sería suficiente si dichas soluciones técnicas fueran caras. Podemos encontrar un símil en el mundo económico, en el que el coste marginal de ciertos servicios se está aproximando a cero. Esta reducción del coste marginal es el que justifica el aumento de escala en el mundo empresarial. El mismo principio explica cómo el coste de una secuenciación genómica se ha abaratado al menos diez veces en pocos años y la tendencia continúa y se amplía a nuevas prestaciones. El caso de las imágenes del territorio es curioso porque aparentemente es gratuito para el usuario. Pero sólo aparentemente, por que el usuario también proporciona información suya, que pasa a engrosar los ‘big data’. A su vez, alguna empresa encuentra esa información suficientemente valiosa como para pagar por ella. Un bucle interesante, y que nos lleva a preguntarnos cuál es el límite al uso de esos datos que se acumulan, cuando surgen incentivos económicos y no parece que haya restricciones técnicas insalvables.

hay obstáculo teórico para que lleguemos a genotipar todos los organismos de la Tierra. Siempre que se dejen capturar, claro.

Estas limitaciones pueden ser éticas, por ejemplo cuando la intromisión en la privacidad comporta el beneficio de un tercero. Pero la situación no es tan sencilla, ya que los beneficios pueden ser mutuos. Toda esa información puede ser útil para algunas empresas, desde luego. Pero también para los pacientes, cuando sus médicos buscan tratamientos personalizados, o para los cuidadores del territorio cuando quieren monitorizar sus cambios para beneficio colectivo. Pero cuando el coste marginal de la obtención de los datos no es tan pequeño aparecen algunas complicaciones. Por ejemplo, en ecología están proliferando los estudios basados en datos publicados anteriormente —metaanálisis comparativos, análisis de redes de interacciones, modelos de parámetros ambientales a escala global, entre otros—, obviamente con un coste de obtención de información relativamente bajo.

Eso plantea problemas. Como los recursos humanos en ciencia son limitados, la inversión para obtener nueva información de base con calidad —observaciones de campo o experimentos— se desvanece. La recompensa por publicar estudios locales o experimentos concretos disminuye en relación a la recibida por hacer un estudio de ámbito global, aunque el número de datos sea ridículo y la inferencia cuestionable. Recientemente un colega explicaba como un artículo aumentó sus expectativas de publicación y reconocimiento cuando se dibujó un mapamundi coloreado a partir de menos de veinte datos. Esta situación se intenta subsanar con nobles iniciativas de ciencia popular en las que personas motivadas y entrenadas contribuyen a proporcionar abundante información de base. Pero la obtención de estos datos necesita ser bien diseñada y coordinada y las personas implicadas deben ser suficientemente entrenadas.

La recompensa por publicar estudios locales o experimentos concretos disminuye en relación a la recibida por hacer un estudio de ámbito global, aunque el número de datos sea ridículo y la inferencia cuestionable.

Sin embargo, la mayor limitación a esta inflación de datos proviene probablemente de nuestra capacidad intelectual para asimilar información detalladísima de todo. Si fuéramos capaces, no habríamos inventado la ciencia porque ya entenderíamos intuitivamente el mundo. Las alternativas analíticas, como el uso probabilístico de la información, implican cierta simplificación. Un ejemplo: en un artículo reciente publicado en Science, Benson y colaboradores proponen estudiar redes complejas mediante el uso de unos pocos módulos que describen todas las conexiones posibles entre muy pocos elementos. Curiosamente nos encontramos en un camino de ida y vuelta en el que acabamos simplificando la enorme cantidad de información recogida. Eso sí, con mayor rigor y a un coste relativamente asumible.

The Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) holds the Marenostrum supercomputer, which reaches 110,000 billion operations per second. Author: Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) (CC BY-ND 2.0)
El Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) alberga el superordenador MareNostrum, capaz de realizar 110 billones de operaciones por segundo. Autor: Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) (CC BY-ND 2.0)
Sin embargo, la mayor limitación a esta inflación de datos proviene probablemente de nuestra capacidad intelectual para asimilar información detalladísima de todo. Si fuéramos capaces, no habríamos inventado la ciencia porque ya entenderíamos intuitivamente el mundo.

Ante la imposibilidad de explicar la contingencia de cada detalle, y por tanto alcanzar la panacea reduccionista, surgen interpretaciones holísticas que parecían anticuadas, al menos en ecología. Ese holismo a menudo recuerda a interpretaciones intuitivas, en las que el intelecto procesa la información de forma poco consciente, diríamos vulgarmente que sin entrar en detalles. Para hacer mínimamente inteligible ese holismo, recurrimos a conceptos, como la propia información, que desgraciadamente no son medibles de forma inmediata por nuestros sentidos. La evolución biológica —otro concepto francamente complejo— no nos ha preparado demasiado para ello. Sí lo ha hecho para que percibamos el tamaño, el peso, la textura, el color o el calor de los objetos. La  ventaja del uso de los ‘big data’ es que conceptos intuitivos, holistas —como la complejidad—, que habían sido relegados por muchos ecólogos pueden ser ahora medidos de alguna forma precisa, y por tanto ser contrastados. Ha sido un recorrido largo y entretenido en el que las aproximaciones más reduccionistas y holistas parecen que vuelven a poder darse la mano, al menos en ecología.

Para finalizar, Ramon, me gustaría recordar a J.L. Borges cuando nos escribía sobre el rigor en la Ciencia:

“En aquel Imperio, el arte de la Cartografía logró tal perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el Mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el Tamaño del Imperio y coincidía puntualmente con él. Menos Adictas al Estudio de la Cartografía, las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos. En los Desiertos del Oeste perduran despedazadas Ruinas del Mapa, habitadas por Animales y por Mendigos; en todo el País no hay otra reliquia de las Disciplinas Geográficas.

Suárez Miranda: Viajes de varones prudentes, libro cuarto, cap. XLV, Lérida, 1658.”

Artículos relacionados

De izquierda a derecha, Anna Ticó, Emma Watson, Alba Bellostas y Sandra Moreno, las 4 estudiantes de grado que han aceptado el reto de integrarse en un grupo de investigación del CREAF durante 2 meses. Imagen: CREAF.
Noticias
Adriana Clivillé

Cuando una beca se convierte en el reto de integrarse en un grupo de investigación

Son 4 estudiantes del grado en Biología o en Ciencias Ambientales en la universidad y provienen de ciudades y realidades muy diferentes. Las une la curiosidad y la determinación por aceptar el reto de integrarse en un grupo de investigación del CREAF durante 2 meses, gracias al programa de becas Summer Fellowships.

Conocimiento
Francisco Lloret

Ecología pragmática

Recientemente el amigo Paul Zedler me planteaba una cuestión entre insidiosa y filosófica: nuestra actividad científica para analizar procesos, para establecer relaciones causales, no tiene

Noticias
Àlex Richter-Boix

Big Mosquito Bytes: un nuevo proyecto que propone la ciencia ciudadana y el big data para combatir las epidemias provocadas por mosquitos

El proyecto Big Mosquito Bytes ha sido seleccionado dentro de la convocatoria de salud de “la Caixa”. El proyecto combinará la ciencia ciudadana y otras fuentes de datos masivos para desarrollar modelos innovadores que permitan predecir el riesgo de epidemias, así como visualizar este riesgo a tiempo real. La Red Nacional de Vigilancia Epidemiológica ha notificado 1.800 casos importados de dengue, chikungunya y zika en España desde el 2014. La Red de Vigilancia Epidemiológica de Cataluña confirmó 700 casos de arbovirosis importados entre 2015-2018. En el proyecto liderado por el CEAB-CSIC, participan científicos de la UPF, el Instituto Max Planck de Demografía, el Centro Nacional de Epidemiología CIBERESP/ ISCIII y el CREAF, y se nutre en gran parte de la plataforma de ciencia ciudadana Mosquito Alert.

Hemos cambiado la versión de Wordpress. Si prefieres leer esta noticia en inglés o catalán del 2020 al 2012, ve a la portada del blog, cambia el idioma con el selector del menú superior y busca la noticia en la barra de la lupa.

Date de alta en el Newsletter para recibir todas las novedades del CREAF en tu mail