Especial El año pasado fue un gran año para el análisis de datos y el aprendizaje automático en la nube. Dos de los actores más importantes, Microsoft y Databricks, han actualizado sus plataformas y el primero también ha lanzado productos.
Google, que como era de esperar es un actor importante en el mercado de análisis de datos en la nube, ha tenido éxitos con los clientes en los últimos años con Walmart, HSBC, Vodafone y Home Depot, entre otros, y en algunos casos ocupa su lugar bien establecido. sistemas líderes de almacenamiento de datos empresariales de empresas como Teradata.
En términos de nueva tecnología, Google agregó y modificó 2023 además de los grandes anuncios de plataformas que hemos visto de Microsoft y Databricks. El almacén de datos de Google BigQuery ha obtenido escalamiento automático y almacenamiento comprimido, junto con más opciones y flexibilidad en la configuración de funciones para diferentes necesidades de carga de trabajo. Los clientes también pueden mezclar y combinar las ediciones Standard, Enterprise y Enterprise Plus para lograr el rendimiento de precio preferido por carga de trabajo. Las salas de compensación de datos de BigQuery permiten compartir y comparar datos entre organizaciones, respetando al mismo tiempo la privacidad del usuario y protegiendo la seguridad de los datos.
El pionero de Postgres, Michael Stonebraker, promete actualizar la base de datos una vez más.
POR FAVOR LEE
En AlloyDB Omni, Google ofrece servicios de bases de datos compatibles con PostgreSQL que se ejecutan en otros hiperescaladores en la nube, locales y portátiles para desarrolladores. Incluye un conjunto de herramientas de automatización para ayudar a migrar desde sistemas de bases de datos más antiguos y bien establecidos, como Oracle o IBM Db2.
Pero en el campo de las plataformas de datos, donde los principales actores prestan servicios de BI, análisis y aprendizaje automático desde un único lugar de estructura y cargas de trabajo no estructuradas, adoptando la dudosa terminología «lakehouse», Google ya tiene lo necesario para competir, Gerrit Kazmaier. vicepresidente y director general de análisis de datos de Google, dice El registro.
«Hay grandes sistemas de análisis que construyen estos vastos registros de datos. Es muy importante no solo conectarlos entre sí, sino también integrarlos sin problemas, por ejemplo, para pasar datos directamente de un sistema a otro. Sin duplicación: BigQuery habla con el «Los mismos datos en el mismo lugar donde escribe una base de datos. No hay latencia, cero gastos generales, no se necesita duplicación ni replicación porque básicamente tienes acceso en todas partes», dice Kazmaier.
En la arquitectura de Google, una capa de acceso unificado para seguridad y administración conecta aplicaciones como BI, almacenamiento de datos y ML con respaldo, impulsada por BigQuery Managed Storage y Google Cloud Storage y se sirve almacenamiento en múltiples nubes de AWS S3 y Azure Storage de Microsoft.
La arquitectura, al menos en concepto, es similar a la oferta de Microsoft. Anunciado en junio y disponible de forma general en noviembre, Microsoft Fabric también promete utilizar su tecnología OneLake, que está toda en el formato de tabla Delta de código abierto respaldado por la Fundación Linux y administrado por Databricks, para servir diferentes aplicaciones y cargas de trabajo.
Microsoft explica que el enfoque permite que aplicaciones como Power BI ejecuten cargas en el almacén de datos Synapse sin enviar consultas SQL. En cambio, se crea un almacén de datos virtual en Onelake, que carga los datos en la memoria. El gigante de Redmond afirma que el enfoque ofrece aceleración del rendimiento porque no hay una pila SQL en medio de la ejecución de consultas SQL.
Si bien son similares al enfoque de Microsoft, la arquitectura de Google se basa en el formato de escritorio Iceberg, que fue desarrollado en Netflix y ahora es de código abierto a través de la Fundación Apache.
«Hemos aprovechado décadas de innovación en BigQuery, especialmente en el rendimiento de las consultas, los tiempos de acceso y la optimización de las consultas, y las hemos entregado a través de BigLake de manera que los clientes puedan obtener el rendimiento y la riqueza del desarrollo de la comunidad Iceberg», afirma Kazmaier. En particular, tenemos muchas optimizaciones en la forma en que accedemos y entendemos los metadatos a partir de cómo accedemos a los archivos, lo que conduce a un mejor rendimiento con Iceberg y BigQuery en GCP», dice.
Si bien todos los principales proveedores en el espacio dicen que admiten, o admitirán, todos los formatos de tablas (Iceberg, Delta y Hudi) construidos sobre el sistema de archivos Apache Parquet, cada uno enfatiza que es un soporte «nativo». La tendencia ha llevado a una división en la industria, con Databricks, Microsoft y SAP respaldando a Delta y Google, Cloudera, Snowflake, AWS y Netezza de IBM enfatizando a Iceberg.
Kazmaier dice que el apoyo de Google a Iceberg estaba ligado a un fuerte compromiso con el código abierto. «Iceberg es un proyecto de Apache: se gestiona de forma muy transparente, no está vinculado a ningún proveedor y cuenta con una amplia participación de la comunidad».
Dice que Google respondió a la demanda de los clientes al elegir Iceberg como el «formato de estrategia de datos central», pero también agregó soporte para Delta y Hudi porque algunos clientes ya han creado una pila centrada en Databricks.
«La verdadera respuesta es qué tan flexible desea ser como cliente. Si elige ser el más flexible y abierto, Iceberg le ofrece la gama más amplia de estas características. Si está más interesado en la arquitectura de lagos que en Databricks: implementación centralizada «Delta es una buena opción. Vemos que la adopción del Iceberg es muy rápida y va por buen camino», afirma.
El mes pasado, Databricks, la empresa de plataforma de datos que surgió de los lagos de datos de Apache Spark, también anunció una actualización importante de su pila. Promete una nueva capa de «inteligencia de datos» además del concepto de «casa del lago», que se lanzó a principios de 2020 para integrar el servicio de BI estructurado y el análisis del almacenamiento de datos con el complejo mundo de los lagos de datos. En un comunicado que detalla el producto, la compañía dijo que está introduciendo la capa de «inteligencia de datos» DatabricksIQ para «impulsar todas las partes de nuestra plataforma».
Si bien la capa de gestión integrada del lago incluye datos e IA y un motor de consulta integrado que incluye ETL, SQL, aprendizaje automático y BI, la compañía tiene la intención de utilizar la tecnología en su adquisición de MosaicML por 1.300 millones de dólares, la IA creativa ha logrado ejecutar. configuración. La idea es «utilizar modelos de IA para comprender en profundidad la semántica de los datos empresariales», afirma Databricks.
Aunque Lakehouse de Databricks admite consultas SQL, ha habido algunas críticas sobre su capacidad para admitir cargas de trabajo de BI a nivel empresarial. Para 2021, Gartner señaló que los lagos de datos basados en la nube pueden tener problemas con las consultas SQL de más de 10 usuarios simultáneos, aunque Databricks cuestiona esta afirmación. El mes pasado, Matthew Aslett, analista de Ventana Research, dijo que cada vez más organizaciones se están dando cuenta de los desafíos a medida que intentan hacer crecer los lagos de datos y soportar cargas de trabajo de BI empresarial.
Por ejemplo, Adidas ha creado una plataforma de datos en torno a Databricks, pero también ha creado una capa de aceleración con la base de datos en memoria de Exasol para mejorar el rendimiento en cargas simultáneas.
Kazmaier explica que el enfoque de Google hacia la concurrencia evita hacer funcionar más máquinas virtuales y, en cambio, mejora el rendimiento en una unidad de nivel sub-CPU. «Mueve estas unidades de capacidad a la perfección, por lo que es posible que tenga una consulta que consuma y libere recursos, que se pueden transferir inmediatamente a otra consulta que puede beneficiarse de la aceleración. Toda esa microoptimización sin sistema de escalado. Te brinda constantemente la proyección ideal de la capacidad que tienes en los camiones que manejas», afirma.
Un artículo de Gartner de principios del año pasado respaldó este enfoque. «Una combinación de modelos de asignación de espacios basados en la demanda y en la tarifa proporciona métodos de asignación de capacidad en toda la organización. Según el modelo utilizado, los recursos de espacios se asignan a las consultas enviadas. Cuando la demanda de espacios excede la disponibilidad disponible, si hay más, se ponen en cola espacios adicionales y «Se toma para el procesamiento cuando hay capacidad disponible. Este modelo de procesamiento permite el procesamiento continuo de grandes cargas de consultas simultáneas», afirma.
Si bien Microsoft y Databricks han llamado la atención del mercado con sus anuncios de pila de datos para 2023, Aslett de Ventana considera que quedan pocas opciones entre los principales actores, y cualquier líder tecnológico aparente podría reducirse a un lanzamiento de cadencia.
De cara al próximo año, Google puede esperar robar algo de protagonismo reciente a sus rivales. ®