Los almacenes de datos en la nube no son una buena opción para el análisis en tiempo real

A medida que los usuarios intentan utilizar los almacenes de datos en la nube para análisis de datos en tiempo real, enfrentan desafíos porque las arquitecturas de almacenes de datos y los costos no están optimizados para aplicaciones interactivas que tengan la capacidad de procesar datos en gran volumen.
 
Los requisitos para estas aplicaciones normalmente incluyen:

  • Atender consultas que combinen datos históricos y de carga continua.

  • Atender consultas que requieran patrones de acceso altamente interactivos, como filtros y agregaciones complejas, con altas tasas de simultaneidad.

  • Lograr consultas dentro de las aplicaciones en menos de un segundo (idealmente).

  • Operar con terabytes y petabytes de datos históricos en segundos.

En cambio, con los almacenes de datos en la nube, los usuarios enfrentan los siguientes desafíos:

  • Retraso en la distribución de datos: los equipos de ingeniería de datos luchan con los almacenes de datos tradicionales debido a los retrasos de varias horas causados por la distribución de datos a través de complejos canales ETL, la dependencia de datos altamente desnormalizados que exige uniones complejas y el resultado es un alto costo financiero para darle soporte a las consultas en tiempo real en las viejas arquitecturas de datos.

  • Rendimiento de consulta lento: los usuarios obtienen rendimiento de consultas con tiempos de respuesta medidos en decenas de segundos o incluso minutos, en lugar de milisegundos, y cuando intentan mejorarlo dedicando más recursos al problema, se topan con la siguiente preocupación: el costo.

  • Costos disparados: no es raro que los usuarios de almacenes de datos en la nube paguen entre 3 y 5 veces más que las alternativas, incluso por un rendimiento inferior, porque sus precios son caros y su arquitectura requiere más recursos de computación para las mismas cargas de trabajo.

  • Baja simultaneidad de consultas: los requisitos de simultaneidad de consultas son mucho más altos de lo que espera un almacén de datos tradicional: cientos y miles de usuarios simultáneos ejecutan consultas con expectativas de interactividad y latencia de respuestas de milisegundos, y a costos disruptivamente más bajos.

Los almacenes de datos en la nube sólo pueden atender cargas de trabajo interactivas de baja latencia si compensan excesivamente en términos de costos. En comparación, sería lo mismo que pagar mucho dinero para modificar continuamente un carro viejo para competir en la Fórmula1, cuando la respuesta correcta y más barata es utilizar un carro de Fórmula1.

Previous
Previous

Almacén de datos en tiempo real

Next
Next

Aplicaciones interactivas basadas en datos