En los próximos meses, Statistics Holland (CBS) invertirá en un nuevo sistema informático: Spark. Este marco de big data proporciona a investigadores y estadísticos la capacidad de procesar grandes cantidades de datos y big data más rápidamente. Una herramienta esencial para CBS, que ahora necesita manejar bases de datos cada vez más grandes.
Poder computacional
Adrie Ykema, responsable del proyecto Spark de la CBS, afirma que las bases de datos de la CBS están creciendo: «Nuestros investigadores han alcanzado los límites de nuestra infraestructura informática. Los cálculos que necesitamos hacer con estas grandes cantidades de datos requieren más potencia informática y procesamiento inteligente para acelerar el tiempo de procesamiento.’ Spark ofrece una solución en forma de capa de software que permite que varias computadoras realicen cálculos simultáneamente en la misma tarea. Esto dará como resultado cálculos rápidos y precisos sobre grandes cantidades de datos.
pruebas exitosas
Durante los últimos meses, CBS ha estado experimentando con Spark. Ykema explica: ‘En una «versión en miniatura» del sistema Spark llevamos a cabo tres pruebas de concepto: una con datos de tubos de tráfico, otra con datos del Centro de Estadísticas Relevantes para Políticas y una con estadísticas del Ministerio de Naturaleza sobre libélulas. Este último sirvió como ejemplo de cómo trabajar en un conjunto de datos más pequeño cuando se utiliza un método que requiere mucho proceso. A través de estas pruebas pudimos examinar lo que realmente es posible con Spark, así como el coste en términos de dinero y esfuerzo que implicaría. Nuestra conclusión es que Spark proporciona muchos beneficios para los cálculos con conjuntos de datos muy grandes, como los datos de tráfico de tuberías de la Dirección General de Obras Públicas y Gestión del Agua.’
Ejibma
Marco Puts es un investigador de big data en CBS que ya ha acumulado una experiencia significativa con Spark más allá del estudio piloto. Está muy entusiasmado: ‘A partir de un proyecto europeo, hemos proporcionado datos AIS (AIS significa Sistema de Identificación Automática). Es un sistema diseñado para aumentar la seguridad marítima, tanto en el mar como en vías navegables, proporcionando retroalimentación e información que recibe de las comunicaciones entre barcos y del barco a la costa. CBS compró esta información para dos propósitos diferentes. En primer lugar, probar Spark y, en segundo lugar, ver si seremos capaces de generar estadísticas sobre estas grandes cantidades de datos.’ Según Puts, el cielo es el límite para Spark: «Con Spark, sólo necesitamos 15 minutos para procesar datos en un trimestre completo, mientras que en un ordenador normal, tardamos un día y medio en procesar sólo el valor de un día». datos. No podríamos seguir sin Spark. Otra gran ventaja es que nos resulta fácil adquirir servicios adicionales cuando el procesamiento se vuelve demasiado pesado debido a los grandes volúmenes de datos.’
Inversión en velocidad
CBS está invirtiendo actualmente en un sistema Spark más grande, que estará operativo a finales de este año. Ykema: ‘Esta inversión puede permitir que nuestras estadísticas se produzcan mucho más rápido. Durante los próximos meses continuarán los preparativos para el lanzamiento de Spark. Cómo y dónde almacenaremos grandes bases de datos, cómo gestionar los problemas de seguridad de los datos y cuál es la mejor manera de organizar la gestión técnica y operativa.’
Según Ykema, es bueno ver cómo el personal de investigación, TI y producción estadística trabajan juntos para implementar el proyecto Spark. ‘Spark requiere una nueva forma de pensar y trabajar, y una organización diferente del proceso estadístico. Ofrecemos un curso de formación en línea a los empleados, pero los resultados de trabajar con Spark sólo se revelarán a través de la práctica real.’
Ondas en el agua
Como confirma Puts, varios empleados de CBS ya están asistiendo al curso de formación de EDX ‘Ciencia de datos e ingeniería con Spark’. Esta serie de cursos tiene una duración de 6 meses y ofrece instrucciones paso a paso sobre cómo operar Spark. Noté que mis colegas respondieron rápidamente. Esperemos que esto se extienda como ondas en el agua, para que la CBS cuente cada vez con más personas que sepan cómo manejar big data.’