En la reciente presentación de re:Invent, AWS presentó nuevos conectores zero-ETL que eliminarán la necesidad de que los clientes creen y mantengan canalizaciones de datos entre varios servicios de datos de AWS, incluidos Redshift, Aurora, DynamoDB y Open Search. En el futuro, es posible que también estén disponibles conexiones ETL cero entre los servicios de AWS y aquellos que se ejecutan en Microsoft Azure y Google Cloud, afirma un ejecutivo de AWS.
ETL (extracción, transformación y carga) es un proceso central que forma parte de la mayoría de los proyectos de análisis de datos del mundo. ETL existe porque las empresas a menudo ejecutan sistemas operativos y sistemas analíticos en infraestructuras separadas, con diferentes tipos de bases de datos optimizadas para el procesamiento de transacciones en línea (OLTP) o el procesamiento analítico en línea (OLAP).
Durante décadas, los ingenieros de datos han creado canales ETL que extraen datos de una base de datos operativa (normalmente una base de datos orientada a filas), los convierten en un formato utilizado para análisis y luego los cargan en un repositorio analítico (como una base de datos orientada a columnas). ). Se deben crear canales ETL para cada sistema operativo que contribuirá con datos al proyecto de análisis, que pueden ser desde unos pocos hasta 100. A veces se cambia el orden y la conversión (normalmente el paso más difícil) se realiza una vez. Los datos se cargan en la base de datos de análisis de destino, en este caso llamada ELT.
Hay muchos problemas con ETL (y ELT) que lo convierten en la pesadilla de muchos ingenieros de datos. Para empezar, los canales de datos a menudo están rotos. Cada vez que un desarrollador de aplicaciones realiza un cambio en un campo o agrega un campo a la base de datos ascendente o descendente, un ingeniero de datos debe entrar y modificar la línea ETL para calcularla. Los datos también pueden evolucionar con el tiempo, debido a la naturaleza cambiante de los negocios, y hay muchas otras formas en que ETL puede descomponerse.
A pesar del vitriolo dirigido a ETL, el mundo de TI en gran medida se ha mantenido firme. Si bien la tecnología de transporte de datos ha mejorado con sistemas como Apache Kafka, la naturaleza fundamental de los canales de datos ETL no. Empresas que han estado en esto durante décadas, como Informatica, IBM, Oracle y Talend, hoy tienen competidores más nuevos como Matillion, Fivetran, Stitch y Airbyte. Hay muchos otros proveedores de ETL que proporcionan sus propios paquetes de enlaces e incluso ETL inverso.
AWS, que también fabrica y vende herramientas ETL como Amazon Glue, se posiciona como una empresa de consumo. Sin duda, sus ejecutivos han escuchado los gemidos y quejas de los clientes sobre los grandes trabajos de análisis e inteligencia artificial que se retrasan o incluso se cancelan porque los canales ETL rotos no pueden entregar datos.
La solución que se le ocurrió a AWS fue deshacerse por completo de la interfaz ETL. La compañía reveló su estrategia zero-ETL hace apenas un año, en re:Invent 2022. La idea era eliminar la necesidad de que los clientes crearan canales de datos definidos con conexiones esencialmente duras entre sus servicios.
Su primera interfaz ETL cero conecta los datos de la versión MySQL de Amazon Aurora con Amazon Redshift, un almacén de datos orientado a columnas. Fue seguida rápidamente por una conexión ETL cero entre Redshift y Apache Spark, un popular marco de procesamiento de big data utilizado en Amazon EMR, Amazon Glue y Amazon SageMaker.
Luego, AWS presentó cuatro conexiones ETL cero más en re:Invent 2023. Estas incluyen conexiones entre Redshift y la versión Postgres de Aurora, entre Redshift y Amazon DynamoDB, y entre Reshift y Amazon Relational Database Service (Amazon RDS). que también está basado en MySQL. La cuarta conexión ETL cero es entre DynamoDB y OpenSearch Service de Amazon, una bifurcación de Elasticsearch ofrecida por AWS.
Según Ganapathy Krishnamoorthy, vicepresidente de análisis y análisis de datos de AWS, el ETL cero tiene el potencial de cumplir promesas incumplidas sobre la democratización de los datos, que los proveedores de análisis de datos han estado haciendo durante años y que en gran medida no han cumplido durante bastante tiempo. . . .
«¿Por qué está tardando tanto? Yo diría que hoy en día se pone mucho más énfasis en publicar los datos que antes», dijo. «Creo que es una cuestión de realmente adelantarse. Adam (Selipsky, CEO de AWS) salió y dijo: ‘Oye, queremos imaginar un futuro con ETL cero’ y reunió la inversión para hacerlo realidad. Requiere realmente digas, oye, vamos a imaginar un mundo que no tiene por qué hacerlo.
Krishnamoorthy, que se hace llamar G2, no se hace ilusiones de que las empresas almacenarán todos sus datos en bases de datos de AWS o sistemas de archivos de AWS. Entiende que los datos existirán en silos, en otras aplicaciones, en el borde, en las instalaciones e incluso en nubes de la competencia. Pero eso no impedirá que AWS siga invirtiendo en sus objetivos de ETL cero, afirma.
«Nuestro objetivo es realmente permitir que los clientes accedan y administren sus datos donde estén», dijo Krishnamoorthy. Nombre de datos en una entrevista en: Inventar. «Estamos muy orgullosos de nuestros servicios. Pero entendemos que algunos datos estarán en las instalaciones, otros estarán en Azure o Google. Y eso está bien. También haremos cero ETL para eso».
AWS ya tiene enlaces de datos que se extienden más allá de sus centros de datos. Tiene asociaciones con proveedores de SaaS como Salesforce para permitir a los clientes consultar datos tal como residen en las aplicaciones de Salesforce. También tiene la capacidad de consulta federada ya disponible para Google Analytics, señaló. Por lo tanto, no es descabellado ver que AWS zero-ETL se extienda a otras nubes, dijo.
«Entonces, yo, como usuario, puedo decir ‘Oye, necesito que estos datos de Google Analytics estén accesibles para mis análisis’, y luego la máquina se inicia y se asegura de que no sea necesario escribir ETL. Lo mismo ocurre con el datos en BigQuery», afirma Krishnamoorthy. «Este es el viaje en el que realmente estamos, que le ayuda a tener fácil acceso desde su herramienta favorita. Puede ser Athena, puede ser Quicksight, porque todos sus datos son realmente algo con lo que estamos profundamente comprometidos. Y realmente estamos brindando la mejor solución hoy y estamos buscando mejorarla».
El mecanismo exacto que permitirá este nivel de integración ETL cero no está claro. Krishnamoorthy dice que podría ser un enlace o podría ser alguna conexión directa, cambiar la captura de datos (CDC) directamente en un registro de cambios de la base de datos o algún otro enfoque. Cualquiera que sea el mecanismo, lo importante, dijo, es que los usuarios no tienen que preocuparse por ello.
«Todo se reduce realmente a los datos», dijo. «Si lo piensas bien, realmente necesitas tener acceso sin problemas a todos los datos en los sistemas de tu empresa con una gestión adecuada. La diferencia es que tienes herramientas poderosas para entender la pregunta en términos de traducción de consultas. Pero todo Todo se reduce a obtener los datos. Es por eso que Zero-ETL es una base. Realmente reduce el dolor que implica tener todos los datos disponibles para todos sus dispositivos».
Artículos relacionados:
AWS finalmente busca ETL
¿Podemos dejar de hacer ETL todavía?
50 años de ETL: ¿Se puede convertir SQL a ETL?