Almacén de datos en tiempo real
Un almacén de datos en tiempo real es una plataforma de datos optimizada para ejecutar aplicaciones interactivas con uso intensivo de datos. Hoy en día, las empresas unen múltiples sistemas para satisfacer los requisitos de las aplicaciones interactivas sin tomar en cuenta la arquitectura general de sus sistemas de datos. El concepto de almacén de datos en tiempo real simplifica los flujos de datos y reduce el número de dependencias.
Por ejemplo, la siguiente arquitectura no es infrecuente para una organización moderna que maneja grandes cantidades de datos analíticos y trata de introducir un componente que pueda manejar cargas de trabajo analíticos en tiempo real. Esta arquitectura combina el uso de una base de datos analítica en tiempo real (para admitir aplicaciones externas), pero aun aprovecha el almacén de datos tradicional para otros casos de uso internos.
PILA DE DATOS MODERNO (MODERN DATA STACK) CON GRAN DEPENDENCIA DE UN ALMACÉN DE DATOS TRADICIONAL
El almacén de datos en tiempo real resuelve este desafío de una manera diferente: abarca tantas aplicaciones de datos interactivas internas y externas de manera unificada, y descarga informes fuera de línea (si es necesario) a un almacén de objetos, pero a veces también a un almacén de datos tradicional con una capacidad reducida.
PILA DE DATO MODERNA (MODERN DATA STACK) BASADO EN UN ALMACÉN DE DATOS EN TIEMPO REAL
DESAGREGACIÓN DEL ALMACÉN DE DATOS
Llamamos a la evolución que nos aleja de un almacén de datos monolítico en la nube y en el que el volumen de datos de la expansión puede ser difícil de administrar debido a la "desagregación del almacén de datos." Las organizaciones que pasan por esta transformación examinan e identifican cuidadosamente las cargas de trabajo que se necesitan para crear aplicaciones interactivas basadas en datos y trasladan esas cargas de trabajo a un almacén de datos en tiempo real.
En el proceso, también toman la decisión de si el resto de los datos deben permanecer en un almacén de datos tradicional o pasar a una arquitectura más abierta basada en el concepto de lago de datos ("data lake"). La adopción de un lago de datos tiene ventajas como un almacenamiento más económico y estándares cada vez más abiertos (p. ej., Iceberg utilizando el formato de datos Parquet).
Esto significa que para las aplicaciones que no necesitan rendimiento en tiempo real, múltiples equipos y aplicaciones pueden tener acceso a la misma fuente de información, sin la necesidad de almacenar datos varias veces o mantenerlos en un sistema cerrado.
No importa cuál sea la respuesta, creemos que la tendencia a separar el almacenamiento y la computación entre plataformas de datos (con el almacén de objetos como almacén de datos principal) desempeñará un papel importante. Vemos que esto impulsará la adopción continua de lagos de datos para almacenamiento. Si bien algunas empresas se quedaran con los almacenes de datos tradicionales por un tiempo debido a las inversiones existentes, pero con el tiempo la mayoría avanzara hacia un enfoque de lago de datos más neutral en cuanto a proveedores, y los proveedores de almacenamiento de datos en la nube (Amazon, Microsoft y Google) abrirán sus tecnologías para incluir capacidades analíticas para ejecutarse directamente sobre lagos de datos.
CICLO DE DESAGREGACIÓN/REAGRUPACIÓN