Hay big data y luego hay big data realmente, donde puede haber billones de filas de datos. Ahí es donde entra Ocient, con sede en Chicago, con tecnología de almacenamiento de datos a hiperescala.
Hoy, la compañía anunció una serie de nuevas capacidades que amplían la plataforma de datos a hiperescala para análisis de datos geográficos, así como aprendizaje automático (ML) e inteligencia artificial (AI). Dentro del producto Hyperscale Data Warehouse de Ocient, la nueva capacidad OcientGeo proporciona una extensa biblioteca de funciones geográficas y un índice de ubicación optimizado globalmente. Con OcientGeo, las empresas ahora pueden ingerir y procesar volúmenes masivos de datos geográficos históricos y en tiempo real para generar información procesable. Las herramientas de aprendizaje automático integradas permiten a las empresas acelerar aún más las iniciativas de IA geoespacial.
Ocient promete un uso de procesamiento y almacenamiento altamente optimizado para manejar los requisitos de datos a hiperescala, sin la necesidad de utilizar GPU.
«Estamos hablando de cargas de trabajo a hiperescala y yo diría que la cantidad promedio de elementos que se encuentran en una consulta promedio de Ocient, ya sea SQL, aprendizaje automático o geografía, está en el rango de tal vez un billón de elementos», dijo el CEO de Ocient. . Chris Gladwin dijo a VentureBeat.
El análisis de datos a hiperescala se basa en flujos, no en GPU
Para muchos tipos de casos de uso de computación de alta velocidad hoy en día, las organizaciones dependerán del uso de GPU para ayudar a mejorar el rendimiento. Sin embargo, esa no es la forma en que Ocient habilitará su almacén de datos.
«El secreto que hace que esto realmente funcione es un nivel de paralelismo que es simplemente increíble», dijo Gladwin. «No es sorprendente que cada capa de la pila tenga un millón o más de tareas paralelas en curso».
Para permitir una paralelización masiva para el almacén de datos, Gladwin dijo que todo es cuestión de flujo. Explicó que con los algoritmos de aprendizaje automático para agrupación, regresión y clasificación, las operaciones computacionales reales en la CPU no están escalonadas. En cambio, el cuello de botella suele ser el coste computacional de la potencia informática necesaria para cada terabyte de datos.
Gladwin dijo que el desafío es obtener suficiente información en toda la pila informática, incluidos el almacenamiento y la memoria. Ese desafío es el núcleo de la diversidad técnica de Ocient, ya que la compañía ha desarrollado tecnología para optimizar la memoria y los rápidos sistemas de almacenamiento de datos basados en unidades de estado sólido (SSD).
«A nuestros ingenieros les encantaría trabajar en GPU, son geniales, pero simplemente no vimos la necesidad», dijo Gladwin.
Crédito de la imagen: Ocient / OcientML
Aprendizaje automático a hiperescala con OcientML
El almacén de datos de Ocient comenzó con consultas de datos SQL. La misma arquitectura que ejecuta consultas analíticas rápidas en conjuntos de datos masivos también es el núcleo de las capacidades de OcientML y OcientGeo.
Gladwin dijo que las mismas ventajas de rendimiento a hiperescala, análisis en tiempo real y carga de datos que Ocient ofrece para cargas de trabajo SQL ahora están disponibles para ML. Dijo que OcientML permite a los clientes realizar aprendizaje automático en datos con miles de millones, cientos de miles de millones o billones de puntos de datos a un nivel de precio y rendimiento que es mejor que las alternativas. También incluye funciones como gestión de carga para garantizar un acceso justo a los recursos a través de diferentes consultas y análisis que se ejecutan a hiperescala. OcientML integra la pila de ML directamente en Ocient Hyperscale Data Warehouse, eliminando la necesidad de extraer, transformar y cargar datos en una plataforma separada.
Los beneficios de OcientML incluyen una mayor precisión del modelo al permitir una interacción completa con datos históricos y actuales, una iteración más rápida al eliminar los pasos de movimiento de datos y operaciones simplificadas al administrar SQL y ML en un solo sistema.
La capacidad de OcientGeo sigue un camino similar a OcientML en el sentido de que es parte del núcleo de Ocient Hyperscale Data Warehouse y aprovecha la paralelización masiva de la plataforma. Gladwin señaló que con OcientGEO, los clientes pueden realizar consultas, análisis y funciones geográficas sobre datos masivos directamente dentro de la plataforma Ocient, sin tener que importar primero grandes cantidades de datos. Esto permite ejecutar consultas y análisis que involucran billones de puntos de datos vinculados a elementos geográficos a escala masiva en segundos.
«Todavía estamos comenzando el viaje para habilitar todos estos nuevos usos que sólo pueden lograrse haciendo que el precio y el rendimiento del análisis de hiperescala sean 10 veces mejores o más», dijo Gladwin.
La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas aprendan y comuniquen sobre la tecnología empresarial transformadora. Descubra nuestros calzoncillos.