,

‘Big data’: el detall infinitesimal d’un número gairebé infinit de casos

11 de gener 2017

La quantitat gairebé infinita de dades que som capaços de generar, el ‘big data’, ofereix grans oportunitats però alhora grans reptes tant per a la Ciència com per a la societat en general.

FL02_CAT_Big_Data

Benvolgut amic Ramon,

fa pocs dies m’explicaves el teu interès per les empreses que treballen amb l’anàlisi de ‘big data’. Jo vaig contestar que et faria arribar algun article sobre el tema, però és difícil escollir. Repassant els volums d’anys recents d’aquestes revistes que marquen tendència en ciència, descobreixes que els articles que fan servir quantitats ingents de dades s’han convertit en protagonistes habituals, i diria que imprescindibles. Al setembre de 2016, Miraldo et al. publicaven a la revista Science un mapa de la diversitat genètica de vertebrats a escala mundial a partir de 92.801 seqüències mitocondrials de més de 450 espècies.

La magnitud d’aquesta informació s’escapa a qualsevol percepció intuïtiva. Parlem de megues, gigues i teres per lligar en curt aquestes magnituds; al cap i a la fi només tenim deu dits a les mans. El maneig d’enormes quantitats de dades (per a les que ja hem encunyat un terme, ‘big data’) atrau científics, institucions públiques (per motius de seguretat, i també electorals) i empreses. M’explicaves l’interès de les cadenes de supermercats d’utilitzar ‘big data’ per disposar de perfils molt ajustats de clients i oferir-los ofertes personalitzades.

Graph representing the metadata of thousands of archive documents, documenting the social network of hundreds of League of Nations personals. Author: Martin Grandjean (CC BY-SA 3.0)

Gràfic representant les metadades de milers de documents d’arxiu de la Lliga de les Nacions. Autor: Martin Grandjean (CC BY-SA 3.0)

Mentre revisava aquestes revistes, em va venir al cap la idea d’entendre on es troba la frontera actual de les ciències empíriques. No és una idea molt nova: hi ha rànquings anuals i apareixen molts llibres sobre el tema. Vaig concloure que el territori a punt de ser explorat per moltes disciplines és el que s’obre gràcies a la capacitat d’obtenir un detall infinitesimal d’un nombre gairebé infinit de casos.

M’explico. En biologia, a partir de la segona meitat del segle XX, els avanços tècnics van proporcionar una descripció detalladíssima d’alguns objectes seleccionats. El microscopi electrònic va permetre visualitzar les entranyes d’una cèl·lula o d’un grapat d’elles. Posteriorment, el desenvolupament de les tècniques de seqüenciació genòmica ha permès desgranar nucleòtid a nucleòtid llarguíssimes molècules seleccionades d’àcids nucleics, com les dels humans. Algunes proteïnes no van a la saga en aquest afany detallista. Els neurobiòlegs ja són capaços d’identificar l’activitat de cèl·lules individualitzades en les complexíssimes xarxes neuronals. Simultàniament, les diferents disciplines que estudien la naturalesa obtenien una visió completa del conjunt del seu objecte d’estudi. En l’àmbit territorial, la bases cartogràfiques ja van arribar a cobrir amb rigor matemàtic tota la Terra al segle XIX, encara que en llocs poc poblats la precisió era escassa. Al seu torn, els biòlegs i geòlegs aconseguien uns inventaris raonablement complets dels organismes vegetals i animals, o de les estructures geològiques, respectivament.

El salt en el coneixement que estem experimentant actualment representa passar d'una gran precisió en les mesures d'uns pocs objectes al gran detall en gairebé tots.

El salt en el coneixement que estem experimentant actualment representa passar d’una gran precisió en les mesures d’uns pocs objectes al gran detall en gairebé tots. Aquesta minuciositat implica una ingent quantitat d’informació que no podria ser processada sense els avenços que simultàniament s’han produït en computació. D’una forma extraordinària, hem assistit en pocs anys a l’espectacle que tot objecte gran de pocs metres quadrats exposat a l’aire lliure en qualsevol lloc del món pugui ser visualitzat fàcilment des del cel en una pantalla. A diferència d’una sola molècula que escapa a la percepció dels nostres sentits, tots reconeixem en aquestes imatges zenitals l’habitacle en què ens refugiem, i això fa més versemblant la tècnica.

Més exemples: investigadors de la universitat de Maryland ha desenvolupat el projecte Global Forest Change que proporciona a la web una visualització detallada de la pèrdua o augment de la superfície forestal en qualsevol lloc del món . També disposem de tècniques com el LIDAR —una mena de radar que utilitza raigs làser— que, entre altres aplicacions, permet discernir a escala de centímetres la coberta de la vegetació i la seva distància a terra. De moment, ens hem d’acontentar amb seleccionar algunes àrees petites, però no hi ha obstacle intel·lectual que impedeixi pensar que podrem arribar a disposar d’aquesta informació per a tots els centímetres quadrats de la superfície de la Terra. Com tampoc hi ha obstacle teòric perquè arribem a genotipar tots els organismes de la Terra. Sempre que es deixin capturar, és clar, i aquí rau un dels quid de la qüestió.

Què ha fet possible aquesta ordalia de dades que no cessa? La resposta trivial és reconèixer que les tècniques s’han perfeccionat. Però això no seria suficient si aquestes solucions tècniques fossin cares. Podem trobar un símil en el món econòmic, en què el cost marginal de certs serveis s’està aproximant a zero. Aquesta reducció del cost marginal és el que justifica l’augment d’escala en el món empresarial. El mateix principi explica com el cost d’una seqüenciació genòmica s’ha abaratit almenys deu vegades en pocs anys i la tendència continua i s’amplia a noves prestacions. El cas de les imatges del territori és curiós perquè aparentment és gratuït per a l’usuari. Però només aparentment, perquè l’usuari també proporciona informació seva, que passa a engrossir els ‘big data’. Al seu torn, alguna empresa troba aquesta informació prou valuosa com per pagar per ella. Un bucle interessant, i que ens porta a preguntar-nos quin és el límit a l’ús d’aquestes dades que s’acumulen, quan sorgeixen incentius econòmics i no sembla que hi hagi restriccions tècniques insalvables.

No hi ha obstacle teòric perquè arribem a genotipar tots els organismes de la Terra. Sempre que es deixin capturar, és clar.

Aquestes limitacions poden ser ètiques, per exemple quan la intromissió en la privacitat comporta el benefici d’un tercer. Però la situació no és tan senzilla, ja que els beneficis poden ser mutus. Tota aquesta informació pot ser útil per a algunes empreses, per descomptat. Però també per als pacients, quan els seus metges busquen tractaments personalitzats, o per als cuidadors del territori quan volen monitoritzar els seus canvis per a benefici col·lectiu. Però quan el cost marginal de l’obtenció de les dades no és tan petit apareixen algunes complicacions. Per exemple, en ecologia estan proliferant els estudis basats en dades publicades anteriorment —metaanàlisi comparatius, anàlisi de xarxes d’interaccions, models de paràmetres ambientals a escala global, entre d’altres—, òbviament amb un cost d’obtenció d’informació relativament baix.

Això planteja problemes. Com els recursos humans en ciència són limitats, la inversió per obtenir nova informació de base amb qualitat —observacions de camp o experiments – s’esvaeix. La recompensa per publicar estudis locals o experiments concrets disminueix en relació a l’obtinguda per fer un estudi d’àmbit global, encara que el nombre de dades sigui ridícul i la inferència qüestionable. Recentment un col·lega explicava com un article va augmentar les seves expectatives de publicació i reconeixement quan es va dibuixar un mapamundi acolorit a partir de menys de vint dades. Aquesta situació s’intenta esmenar amb nobles iniciatives de ciència popular en què persones motivades i entrenades contribueixen a proporcionar abundant informació de base. Però l’obtenció d’aquestes dades necessita ser ben dissenyada i coordinada i les persones implicades han de ser prou entrenades.

La recompensa per publicar estudis locals o experiments concrets disminueix en relació a l’obtinguda per fer un estudi d'àmbit global, encara que el nombre de dades sigui ridícul i la inferència qüestionable.

No obstant això, la major limitació a aquesta inflació de dades prové probablement de la nostra capacitat intel·lectual per assimilar informació detalladíssima de tot. Si fóssim capaços, no hauríem inventat la ciència perquè ja entendríem intuïtivament el món. Les alternatives analítiques, com l’ús probabilístic de la informació, impliquen certa simplificació. Un exemple: en un article recent publicat en Science, Benson i col·laboradors proposen estudiar xarxes complexes mitjançant l’ús d’uns pocs mòduls que descriuen totes les connexions possibles entre molt pocs elements. Curiosament ens trobem en un camí d’anada i tornada en el qual acabem simplificant l’enorme quantitat d’informació recollida. Això sí, amb més rigor i a un cost relativament assumible.

The Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) holds the Marenostrum supercomputer, which reaches 110,000 billion operations per second. Author: Barcelona Supercomputing Center - National Supercomputing Center (BSC-CNS) (CC BY-ND 2.0)

El Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) alberga el superordinador MareNostrum, capaç de realitzar 110 bilions d’operacions per segon. Autor: Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) (CC BY-ND 2.0)

No obstant això, la major limitació a aquesta inflació de dades prové probablement de la nostra capacitat intel·lectual per assimilar informació detalladíssima de tot. Si fóssim capaços, no hauríem inventat la ciència perquè ja entendríem intuïtivament el món.

Davant la impossibilitat d’explicar la contingència de cada detall, i per tant aconseguir la panacea reduccionista, sorgeixen interpretacions holístiques que semblaven antiquades, almenys en ecologia. Aquest holisme sovint recorda a interpretacions intuïtives, en què l’intel·lecte processa la informació de manera poc conscient, diríem vulgarment que sense entrar en detalls. Per fer mínimament intel·ligible aquest holisme, utilitzem conceptes, com la mateixa informació, que malauradament no són mesurables de forma immediata pels nostres sentits. L’evolució biològica —un altre concepte francament complex— no ens ha preparat massa per a això. Sí que ho ha fet per a que percebem la mida, el pes, la textura, el color o la calor dels objectes. L’avantatge de l’ús dels ‘big data’ és que conceptes intuïtius, holistes —com la complexitat—, que havien estat relegats per molts ecòlegs poden ser mesurats ara d’una forma precisa, i per tant ser contrastats. Ha estat un recorregut llarg i entretingut en el qual les aproximacions més reduccionistes i holistes semblen que tornen a poder donar-se la mà, almenys en ecologia.

Per acabar, Ramon, m’agradaria recordar a J.L. Borges quan ens escrivia sobre el rigor en la Ciència:

“En aquel Imperio, el arte de la Cartografía logró tal perfección que el mapa de una sola Provincia ocupaba toda una Ciudad, y el Mapa del Imperio, toda una Provincia. Con el tiempo, estos Mapas Desmesurados no satisficieron y los Colegios de Cartógrafos levantaron un Mapa del Imperio, que tenía el Tamaño del Imperio y coincidía puntualmente con él. Menos Adictas al Estudio de la Cartografía, las Generaciones Siguientes entendieron que ese dilatado Mapa era Inútil y no sin Impiedad lo entregaron a las Inclemencias del Sol y los Inviernos. En los Desiertos del Oeste perduran despedazadas Ruinas del Mapa, habitadas por Animales y por Mendigos; en todo el País no hay otra reliquia de las Disciplinas Geográficas.

Suárez Miranda: Viajes de varones prudentes, libro cuarto, cap. XLV, Lérida, 1658.”

, , ,

Francisco Lloret
Professor d’Ecologia de la UAB. Investigador del CREAF en temes d’ecologia de la vegetació i canvi global. President de l’Asociación Española de Ecología Terrestre.
Articles relacionats
Carlos Herrera, premi Haeckel; Joan Martínez Alier, premi Leontief
7 de març 2017Jaume Terradas
El destí dels boscos: guanyar temps
6 de març 2017Francisco Lloret
Un metabolisme perillós: remeis de futur contra l’augment del CO2?
8 de febrer 2017Jaume Terradas
,
Cap a una teoria general de l’evolució
10 de gener 2017Jaume Terradas
,
Verum ipsum factum
9 de desembre 2016Jaume Terradas

Follow CREAF on: