Investigación En la conferencia Ignite de Microsoft, el director ejecutivo Satya Nadella calificó a Fabric como quizás el producto de datos más grande de la compañía desde SQL Server, la tercera base de datos más grande del mundo.
Microsoft Fabric, que se lanzará a GA a principios de este mes, promete ingeniería de datos, lagos de datos, almacenamiento de datos, aprendizaje automático e inteligencia artificial, todo en una sola plataforma.
Fabric depende en gran medida de la tecnología de código abierto de Databricks, que colabora ampliamente con Microsoft e integra estrechamente sus productos en la plataforma de nube Azure.
Sin embargo, los usuarios harían bien en vigilar los costos de producción de datos, y el enfoque de escalamiento puede no alcanzar el rendimiento que los clientes necesitan para las cargas de trabajo de inteligencia empresarial (BI) y procesamiento de datos, dijeron los analistas. El registro.
En las noticias de Fabric GA, Microsoft anunció Mirroring, que, según afirma, mejorará el rendimiento analítico al replicar fuentes de datos externas dentro de sus propios lagos de datos.
Si bien este tipo de característica puede darle a Microsoft una caída en picada sobre rivales como Snowflake y Google, es poco probable que la ventaja dure mucho, dijo el analista de Ventana Research Matthew Aslett. «Todos avanzan en la misma dirección y como los anuncios llegan en momentos diferentes, los demás se están poniendo al día: en este punto la competencia es muy reñida entre todos los grandes», afirmó.
Varios otros proveedores en los mercados de ingeniería, almacenamiento y análisis de datos han hecho anuncios relacionados con el lanzamiento de Fabric, incluidos SAS, Teradata, Qlik, Fivetran e Informatica, apostando a que Microsoft se convertirá en la plataforma preferida por muchos usuarios. .
Es una jugada para garantizar que si los usuarios eligen Microsoft Fabric como su plataforma de datos principal, todavía estén en el juego. «Muchas organizaciones están buscando reducir la cantidad de proveedores de datos y análisis que tienen», dijo Aslett. «Obviamente están tratando de equilibrar, pero no quedarse atrapados en él. Hay un equilibrio interesante: se desea minimizar la cantidad de proveedores que se verán afectados. Pero la mayoría de las empresas con las que tratan tienen diferentes tipos de plataformas de datos. «
En Mirroring, Microsoft replica una imagen de una base de datos externa en OneLake en tablas Delta Parquet y sincroniza una copia «casi en tiempo real». Luego, los usuarios pueden crear atajos para permitir que otras cargas de trabajo de Fabric (conectividad, ingeniería de datos, creación de modelos de IA, almacenamiento de datos) utilicen los datos sin cambiarlos. Microsoft ha prometido que Azure Cosmos DB y Azure SQL DB podrán utilizar Mirroring para acceder a los datos en OneLake, mientras que los clientes Snowflake y MongoDB podrán hacer lo mismo.
Microsoft reconoció que al duplicar los datos en Fabric, crearía una copia adicional de los datos, pero afirmó que esto se compensaba con ventajas de rendimiento. La replicación evita enviar consultas SQL a Snowflake, por ejemplo, porque Fabric Replication usa Apache Parquet y Delta Lake como formato nativo, por lo que OneLake puede enviar datos a la memoria cuando se producen consultas.
Pero los usuarios deben tener en cuenta los costos de salida al transferir datos desde sistemas remotos porque superan las ventajas de las funciones de Mirroring, dijo Aslett.
«Ciertamente es algo que espero que una empresa quiera evaluar antes de comprometerse a utilizar ese tipo de funcionalidad», dijo. «Dependerá de la fuente y de varias otras cosas, pero definitivamente debería considerarse».
Mientras tanto, Snowflake ha construido su plataforma para que sea una plataforma que lo haga todo al admitir tanto lagos de datos como almacenes, mientras consulta fuentes externas utilizando el formato de tabla Apache Iceberg, una tecnología también respaldada por Cloudera y Google. Dijo que cree en la eliminación de datos duplicados para simplificar la gestión y lograr mayores eficiencias.
Al mismo tiempo que se anunció la noticia de Fabric a mediados de noviembre, Databricks confirmó una actualización completa con una capa de inteligencia de datos llamada DatabricksIQ, que alimenta «todas las partes» de su plataforma de lago, diseñada para acomodar lagos de datos de BI y no estructurados. instalado y un montón de fábrica de datos analíticos.
El nuevo plan de plataforma de Databricks está diseñado para explotar la tecnología adquirida en su adquisición de MosaicML, una startup creativa de IA, por valor de 1.300 millones de dólares. Databricks ha afirmado que introducirá la generación aumentada (RAG) de extremo a extremo para ayudar a crear «servicios altamente interactivos con sus propios datos», pero aún no ha anunciado los detalles del producto.
El rendimiento en los lagos de datos es una cosa. En el caso de los depósitos es otra cosa. En entornos de BI, cientos e incluso miles de usuarios pueden acceder a la base de datos al mismo tiempo. Es un problema de una vieja generación de proveedores resuelto con optimización de consultas y hardware especializado. Si bien los almacenes de datos modernos basados en la nube pueden agregar nodos, los usuarios enfrentarán el costo correspondiente.
Para 2021, Gartner ha predicho que los lagos de datos basados en la nube pueden tener problemas con las consultas SQL de más de 10 usuarios simultáneos. Databricks negó las acusaciones pero dijo que estaba al tanto de los desafíos. La compañía dijo que para brindar soporte a más usuarios, los clientes pueden activar más puntos finales en la nube.
Aslett dijo que cada vez más organizaciones están tomando conciencia de los desafíos a medida que intentan hacer crecer los lagos de datos y respaldar las cargas de trabajo de BI empresarial.
«Vemos ejemplos en los que las organizaciones han realizado una pequeña prueba de un entorno de nube que puede proporcionar rendimiento a pequeña escala y luego, cuando lo producen, tienen un nivel más alto de usuarios simultáneos, un nivel más alto de consultas simultáneas, entonces pueden en «En términos de enfrentar problemas y problemas de rendimiento. Esto es algo que hemos visto a medida que las organizaciones se vuelven más conscientes de las cargas de trabajo de alto rendimiento y es una de las razones por las que estamos viendo que algunas cargas de trabajo permanecen en las instalaciones».
Por ejemplo, Adidas ha creado una plataforma de datos en torno a Databricks. El entorno respalda el desarrollo de modelos de aprendizaje automático de un fabricante mundial de ropa deportiva. También admite cargas de trabajo de BI y la empresa ha integrado una capa de aceleración con la base de datos en memoria de Exasol.
El director tecnológico de Exasol, Mathias Golombek, dijo El registro Esa empresa a menudo se ve involucrada en proyectos en los que los clientes descubren que su plataforma de datos no admite ciertas cargas de trabajo con un rendimiento adecuado. «Clientes como Adidas pueden tener más de 10.000 usuarios de BI que buscan paneles de control que se actualizan y consumen constantemente», afirmó. «Se necesita una poderosa capa de aceleración y eso es lo que proporcionamos».
Según la investigación de mercado de Exasol, el 30 por ciento de los clientes experimentan problemas de rendimiento con sus herramientas de BI. «Esto significa que no hay suficientes personas que puedan acceder a las tablas de BI o que son demasiado lentas o que debido al sistema de datos subyacente hay límites en la complejidad de las preguntas que los usuarios pueden hacer», dijo Golombek. El producto Exasol Espresso sirve como un acelerador de BI construido sobre la base de datos en columnas en memoria de la empresa con arquitectura de procesamiento masivo paralelo (MPP) y capacidades de autogestión.
Hyoun Park, director ejecutivo de Amalgam Insights, dijo que al cambiar el nombre de su plataforma e integrar funciones GenAI, Databricks afirmaba ofrecer el mismo marco semántico para todos los datos de los usuarios y al mismo tiempo mantener la gestión de la propiedad intelectual durante todo el ciclo de vida de la IA. «Este nuevo posicionamiento de producto muestra que ya no es suficiente mantener todos los datos en un solo lugar y realizar análisis sobre esos datos», dijo.
Después de revivir el concepto de casa del lago en 2020, Databricks cuenta con una financiación considerable. Una ronda de capital riesgo Serie I recaudó otros 500 millones de dólares en septiembre por un valor nominal de 43 mil millones de dólares. La participación en efectivo podría ayudar a la compañía a «encontrar un plazo de próxima generación para el que ven varios años de crecimiento», dijo Park.
Además, la complejidad de administrar clústeres Spark de múltiples nodos significaba que se necesitaba tecnología de terceros para aumentar el rendimiento.
«Exasol es conocido desde hace mucho tiempo por su velocidad en el soporte de análisis, basado en MPP en memoria y configuración automatizada», dijo Park. “El análisis de alto rendimiento para datos estructurados es cada vez más difícil de respaldar y estamos alcanzando un punto de inflexión en el que los datos comienzan a crecer o superar la complejidad de administrar clústeres Spark de múltiples nodos.
«Aunque existen estrategias para reducir la memoria, como el almacenamiento en caché de los datos utilizados con frecuencia, Exasol se puede utilizar como una herramienta para replicar los datos de Databricks instalados cuando no hay otras tácticas para admitir consultas más rápidas sin utilizar los recursos y capacidades administrativas del clúster Spark. «
A medida que Databricks y Microsoft compiten y colaboran para definir un mercado para plataformas de datos integrales que admitan BI, análisis y aprendizaje automático en un solo entorno, las organizaciones que requieren un rendimiento confiable para miles de usuarios finales impacientes pueden necesitar comprar en otro lugar para obtener . que necesitan ®