El proyecto de código abierto Delta Lake integra lagos y almacenes de datos, que requieren confiabilidad y control en esta nueva era de datos medidos.
El lago de datos combina el análisis de datos avanzado y el almacenamiento de bajo coste de un lago de datos con el rendimiento y la fiabilidad de un almacén de datos, afirmó Florian Valeye, ingeniero de datos de Back Market, en este episodio de The New Stack Makers, grabado en el grabar. hace Cumbre de Código Abierto en Bilbao, España, a principios de este otoño.
El almacenamiento de datos es un enfoque que ha surgido en las últimas dos décadas. Consta de modelos de datos estructurados que permiten un mejor rendimiento. Los datos son pequeños y limitados, dijo Valeye. Por el contrario, un lago de datos consta de datos no estructurados de múltiples fuentes. El tamaño de los lagos de datos alcanza petabytes o exabytes.
Delta Lake, creado por Databricks, rompe las barreras entre los almacenes de datos y los lagos de datos al proporcionar más rendimiento y características en el lago de datos, dijo Valeye.
Las transacciones ACID son la base de un almacén de datos, dijo Valeye. Cuando se piensa en una base de datos relacional o un almacén de datos, la atención se centra en las representaciones de modelos y la estructura de datos. Un lago de datos es una forma abierta de rastrear datos y agregarles un mapa. Los lagos de datos hacen que los datos sean grandes. Al «romper el muro», la casa del lago proporciona transacciones ACID, lectura, procesamiento, interpretación (RPI) y medición de metadatos. El poder viene con una forma de acceder al conocimiento para cada uso sin una barrera entre el lado de los analistas de datos de la casa y los equipos de ingeniería de datos y los científicos de datos.
Actualmente, Databricks está trabajando para encontrar formas en que todos puedan contribuir con sus propias conexiones a través de Delta Lake, permitiendo puertas de enlace que se puedan usar, por ejemplo, con diferentes bases de datos.
«Y es por eso que es realmente agradable trabajar en un servidor de nube privado; no quieres quedar atrapado en él», dijo Valerie. «Entonces, al tener este tipo de formato estándar, puedes cambiar y cambiar de uno a otro, y no quedarte estancado con un proveedor y un formato».
Valeye dijo que Aftermarket vende electrodomésticos reacondicionados. Para determinar la calidad del dispositivo, la empresa desarrolló un algoritmo para determinar si un dispositivo es apto para la venta. Back Market utiliza Delta Lake para integrar datos de API y otras fuentes de datos.
Delta Lake es una plataforma que conecta a científicos e ingenieros de datos, dijo Valeye, quien anteriormente trabajó como ingeniero de datos. Antes de utilizar Delta Lake, configurar modelos puede resultar complicado debido a las complejidades de las diferentes herramientas y lenguajes de programación utilizados. La infraestructura de Delta Lake llena los vacíos. Permite que todos trabajen en la misma infraestructura.
Más episodios de la Cumbre de Código Abierto de la UE 2023
De Debian a la IA de código abierto
El estado de WebAssembly en la informática
PostgreSQL da un nuevo giro
Potentes herramientas para AWS Lambda crecen con la ayuda de voluntarios
Cómo ser un mejor socio en comunidades de código abierto
El desarrollo del código abierto amenaza en Europa
YOUTUBE.COM/THENEWSTACK
La tecnología avanza rápido, no olvides una parte. Suscríbase a nuestro canal de YouTube para ver todos los podcasts, entrevistas, demostraciones y más.
SUSCRIBIR