Almacén de datos en tiempo real adecuado para su caso de uso

Para satisfacer tanto las altas demandas de las aplicaciones interactivas basadas en datos como tener un costo razonable, un almacén de datos en tiempo real debe admitir:

  • Carga continua de datos desde fuentes de datos en tiempo real, como Apache Kafka.

  • Vistas materializadas que se actualizan continuamente para que incluso las consultas más pesadas se ejecuten en segundos.

  • Rendimiento de milisegundos en consultas de filtrado y agregación (filter y group by) en miles de millones de filas.

Para garantizar la utilidad para los analistas internos, el almacén de datos en tiempo real debe admitir:

  • Integraciones con herramientas de BI, como Grafana, Looker, Apache Superset, y/o Tableau para usuarios internos.

  • Capacidad de archivar objetos en un lago de datos.

  • Capacidad para realizar consultas específicas en datos almacenados en objetos.

Para cumplir con estos requisitos, es necesario que los almacenes de datos en tiempo real operen en una arquitectura de computación y almacenamiento separada, optimizada para las necesidades de las cargas de trabajo en tiempo real aprovechando las ultimas capacidades de los almacenes de objetos. Los beneficios de esta arquitectura dan como resultado un escalamiento independiente de la computación frente al almacenamiento, escalamiento automático y horizontal para las computaciones, los cuales dan como resultado una mejor asignación dinámica de recursos que mejoran el rendimiento y el costo de la computación. Para conjuntos de datos grandes (muchos terabytes y petabytes), esto también resulta en costos de almacenamiento a precios mucho más razonables.

Finalmente, a medida que un número creciente de casos de uso exigen la integración de análisis tradicionales con análisis mejorados por la inteligencia artificial (IA), es cada vez más necesario que una base de datos analítica impulse las capacidades de aprendizaje automático, como el entrenamiento de modelos y la búsqueda de vectores de texto.

Previous
Previous

API desde consultas SQL

Next
Next

Almacén de datos en tiempo real