Big data se ha convertido en una especie de celebridad. Todo el mundo habla de ello, pero no está claro qué es. Para desentrañar su relevancia para la sociedad, es importante retroceder un poco para comprender por qué y cómo llegó a ser este problema omnipresente.
Big data se trata de procesar grandes cantidades de datos. Está asociado con multiplicidades de formatos de datos almacenados en algún lugar, digamos en una nube o en sistemas informáticos distribuidos.
Pero la capacidad de generar datos supera sistemáticamente la capacidad de almacenarlos. La cantidad de datos se está volviendo tan grande y se produce tan rápido que no se puede almacenar con las tecnologías actuales de manera rentable. ¿Qué sucede cuando los grandes datos se vuelven demasiado grandes y demasiado rápidos?
Cómo la ciencia fundamental contribuye a la sociedad
El problema del big data es un ejemplo más de cómo los métodos y técnicas desarrollados por los científicos para estudiar la naturaleza han tenido un impacto en la sociedad. El tejido tecnoeconómico que subyace a la sociedad moderna sería impensable sin estas aportaciones.
Existen numerosos ejemplos de cómo los hallazgos destinados a sondear la naturaleza acabaron revolucionando la vida. Big data está íntimamente entrelazado con la ciencia fundamental y continúa evolucionando con ella.
Considere solo algunos ejemplos: ¿qué sería de la vida sin electricidad u ondas electromagnéticas? Sin los estudios fundamentales de Maxwell, Hertz y otros físicos sobre la naturaleza del electromagnetismo, no tendríamos radio, televisión u otras formas de comunicación mediada por ondas, para el caso.
La electrónica moderna se basa en materiales llamados semiconductores. ¿Qué sería de la vida hoy en día sin la electrónica? La invención de los transistores y, finalmente, de los circuitos integrados se basa enteramente en el trabajo que los científicos han realizado al estudiar a fondo los semiconductores.
La medicina moderna se basa en innumerables técnicas y aplicaciones. Estos van desde rayos X, física de imágenes médicas y resonancia magnética nuclear hasta otras técnicas como radioterapia y física de medicina nuclear. La medicina y la investigación modernas serían impensables sin técnicas que inicialmente fueron concebidas con fines de investigación científica.
Cómo surgió la era de la información
El problema de los grandes datos surgió inicialmente como resultado de la necesidad de los científicos de comunicarse e intercambiar datos.
En el laboratorio europeo CERN en 1990, el pionero de Internet Tim Berners-Lee sugirió un navegador llamado WorldWideWeb, que condujo al primer servidor web. Nació internet.
Internet ha aumentado la capacidad de intercambiar información y aprender, lo que ha dado lugar a una proliferación de datos.
El problema no es solo de volumen. También se ha reducido considerablemente el tiempo que transcurre entre la generación y el procesamiento de la información.
El Gran Colisionador de Hadrones ha empujado los límites de la recopilación de datos a límites nunca antes vistos.
Cuando el proyecto y sus experimentos se concibieron a fines de la década de 1980, los científicos se dieron cuenta de que era necesario desarrollar nuevos conceptos y técnicas para manejar flujos de datos que eran más grandes que nunca antes.
Fue entonces cuando se desarrollaron conceptos que contribuyeron a la computación en la nube y distribuida.
Una de las principales tareas del Gran Colisionador de Hadrones es observar y explorar el bosón de Higgs, una partícula relacionada con la generación de masa de partículas fundamentales, mediante la colisión de protones a alta energía.
La probabilidad de encontrar un bosón de Higgs en una colisión protón-protón de alta energía es extremadamente pequeña. Por eso es necesario que muchos protones choquen muchas veces cada segundo.
El Gran Colisionador de Hadrones produce flujos de datos del orden de petabytes cada segundo. Para dar una idea de lo grande que es un petabyte, todas las obras escritas de la humanidad desde el comienzo de la historia escrita, en todos los idiomas, se pueden almacenar en unos 50 petabytes. Un experimento en el Gran Colisionador de Hadrones genera esa cantidad de datos en menos de un minuto.
Solo se almacena una pequeña fracción de los datos producidos. Pero incluso esto ya ha alcanzado la escala de exabytes (mil veces un petabyte), lo que genera nuevos desafíos en la computación distribuida y en la nube.
El Square Kilometer Array (SKA) en Sudáfrica comenzará a generar datos en la década de 2020. SKA tendrá el poder de procesamiento de alrededor de 100 millones de PC. Los datos que recopila en un solo día tardarían casi dos millones de años en reproducirse en un iPod.
Big data y África
El continente africano a menudo va a la zaga del resto del mundo cuando se trata de adoptar la innovación. Sin embargo, los datos masivos se ven cada vez más como una solución para abordar la pobreza en el continente.
El sector privado ha sido el primero en salir de la parrilla de salida. Las empresas africanas más grandes son, naturalmente, más propensas a tener proyectos de big data. En Nigeria y Kenia, al menos el 40 % de las empresas se encuentran en las etapas de planificación de un proyecto de big data en comparación con el promedio mundial del 51 %. Solo el 24% de las empresas medianas en los dos países están planeando proyectos de big data.
Se pueden obtener grandes recompensas al aprovechar los grandes datos. Por ejemplo, las organizaciones de atención médica pueden beneficiarse de la digitalización, la combinación y el uso efectivo de big data. Esto podría permitir que una variedad de actores, desde consultorios de un solo médico y grupos de múltiples proveedores hasta grandes redes de hospitales, brinden servicios mejores y más efectivos.
Enfrentar el desafío de administrar big data también podría tener grandes beneficios económicos. Con economías cada vez más sofisticadas y complejas, la cantidad de datos generados aumenta rápidamente. Como resultado, para mejorar estos procesos complejos es necesario procesar y comprender volúmenes cada vez mayores de datos. Con esto se mejora la productividad laboral.
Pero para que cualquiera de estos beneficios se haga realidad, África necesita especialistas que dominen las técnicas de big data. Las universidades del continente deben comenzar a enseñar cómo se pueden usar los grandes datos para encontrar soluciones a los problemas científicos. Una economía sofisticada requiere especialistas que sean expertos en técnicas de big data.