Introducción a la arquitectura de Data Warehouse

  • Un Data Warehouse es un lugar de almacenamiento que contiene colecciones de varios tipos diferentes de datos adquiridos de varios tipos de fuentes.
  • Todo el proceso donde se adquieren, procesan, almacenan y analizan fuentes externas de datos para obtener información utilizable se lleva a cabo dentro de un conjunto de sistemas que están unificados por un solo esquema conocido como Arquitectura de depósito de datos.

Arquitectura del almacén de datos

La arquitectura de Data Warehouse generalmente consta de tres niveles.

  • Nivel superior
  • Nivel medio
  • Nivel Inferior

Nivel superior

  • El nivel superior consiste en el front-end del lado del cliente de la arquitectura.
  • La información aplicada transformada y lógica almacenada en el almacén de datos se utilizará y adquirirá con fines comerciales en este nivel.
  • Varias herramientas para la generación y análisis de informes están presentes para la generación de la información deseada.
  • La extracción de datos que se ha convertido en una gran tendencia en estos días se realiza aquí.
  • Todos los documentos de análisis de requisitos, el costo y todas las características que determinan un acuerdo comercial basado en ganancias se realizan en base a estas herramientas que utilizan la información del Data Warehouse.

Nivel medio

  • El nivel medio consiste en los servidores OLAP
  • OLAP es un servidor de procesamiento analítico en línea
  • OLAP se utiliza para proporcionar información a analistas y gerentes de negocios.
  • Como se encuentra en el nivel medio, interactúa legítimamente con la información presente en el nivel inferior y transmite los conocimientos a las herramientas de nivel superior que procesan la información disponible.
  • Mayormente OLAP relacional o multidimensional se utiliza en la arquitectura del almacén de datos.

Nivel Inferior

El nivel inferior se compone principalmente de las fuentes de datos, la herramienta ETL y el almacén de datos.

1. Fuentes de datos

Los orígenes de datos consisten en los datos de origen que se adquieren y se proporcionan a las herramientas de ensayo y ETL para su posterior proceso.

2. Herramientas ETL

  • Las herramientas ETL son muy importantes porque ayudan a combinar la lógica, los datos sin procesar y el esquema en uno, y carga la información en el almacén de datos o data marts.
  • A veces, ETL carga los datos en Data Marts y luego la información se almacena en Data Warehouse. Este enfoque se conoce como el enfoque de abajo hacia arriba.
  • El enfoque en el que ETL carga información directamente en el Data Warehouse se conoce como Enfoque descendente.

Diferencia entre el enfoque de arriba hacia abajo y el enfoque de abajo hacia arriba

Enfoque de arriba hacia abajoEnfoque de abajo hacia arriba
Proporciona una vista definida y coherente de la información a medida que se utiliza la información del almacén de datos para crear Data MartsLos informes se pueden generar fácilmente ya que los Data Marts se crean primero y es relativamente fácil interactuar con Data Marts.
Modelo fuerte y, por lo tanto, preferido por las grandes empresas.No es tan fuerte, pero el almacén de datos se puede ampliar y se puede crear la cantidad de data marts
Tiempo, costo y mantenimiento es altoEl tiempo, el costo y el mantenimiento son bajos.

Data marts

  • Data Mart también es un componente de almacenamiento utilizado por una autoridad individual para almacenar datos de una función o parte específica relacionada con una empresa.
  • Data Mart recopila la información de Data Warehouse y, por lo tanto, podemos decir que Data Mart almacena el subconjunto de información en Data Warehouse.
  • Data Marts son flexibles y de pequeño tamaño.

3. Almacén de datos

  • Data Warehouse es el componente central de toda la arquitectura de Data Warehouse.
  • Actúa como un repositorio para almacenar información.
  • Grandes cantidades de datos se almacenan en el Data Warehouse.
  • Esta información es utilizada por varias tecnologías como Big Data que requieren analizar grandes subconjuntos de información.
  • Data Mart también es un modelo de Data Warehouse.

Diferentes capas de arquitectura de almacenamiento de datos

Hay cuatro tipos diferentes de capas que siempre estarán presentes en la arquitectura de Data Warehouse.

1. Capa de origen de datos

  • La capa de origen de datos es la capa donde se encuentran los datos de la fuente y posteriormente se envían a las otras capas para las operaciones deseadas.
  • Los datos pueden ser de cualquier tipo.
  • Los datos de origen pueden ser una base de datos, una hoja de cálculo o cualquier otro tipo de archivo de texto.
  • Los datos de origen pueden ser de cualquier formato. No podemos esperar obtener datos con el mismo formato teniendo en cuenta que las fuentes son muy diferentes.
  • En la vida real, algunos ejemplos de datos de origen pueden ser
  • Archivos de registro de cada aplicación específica o trabajo o entrada de empleadores en una empresa.
  • Datos de encuestas, datos de bolsa, etc.
  • Datos del navegador web y muchos más.

2. Capa de preparación de datos

Los siguientes pasos tienen lugar en Data Staging Layer.

1. Extracción de datos

Los datos recibidos por la capa de origen se introducen en la capa de ensayo donde el primer proceso que tiene lugar con los datos adquiridos es la extracción.

2. Base de datos de aterrizaje

  • Los datos extraídos se almacenan temporalmente en una base de datos de aterrizaje.
  • Recupera los datos una vez que se extraen los datos.

3. Área de ensayo

  • Se toman los datos en la base de datos de aterrizaje y se realizan varios controles de calidad y operaciones de preparación en el área de preparación.
  • La Estructura y el Esquema también se identifican y se realizan ajustes a los datos que están desordenados, por lo que se trata de lograr una coincidencia entre los datos que se han adquirido.
  • Tener un lugar o una configuración para los datos justo antes de la transformación y los cambios es una ventaja adicional que hace que el proceso de preparación sea muy importante.
  • Facilita el procesamiento de datos.

4. ETL

  • Es una extracción, transformación y carga.
  • Las herramientas ETL se utilizan para la integración y el procesamiento de datos en los que la lógica se aplica a datos sin procesar pero algo ordenados.
  • Estos datos se extraen según la naturaleza analítica que se requiere y se transforman en datos que se consideran aptos para ser almacenados en el Data Warehouse.
  • Después de la transformación, los datos o más bien una información finalmente se cargan en el almacén de datos.
  • Algunos ejemplos de herramientas ETL son Informatica, SSIS, etc.

3. Capa de almacenamiento de datos

  • Los datos procesados ​​se almacenan en el Data Warehouse.
  • Estos datos se limpian, transforman y preparan con una estructura definida y, por lo tanto, brindan oportunidades para que los empleadores utilicen los datos según lo requiera la empresa.
  • Dependiendo del enfoque de la arquitectura, los datos se almacenarán en Data Warehouse y Data Marts. Data Marts se discutirá en las etapas posteriores.
  • Algunos también incluyen un Almacén de datos operativos.

4. Capa de presentación de datos

  • Esta capa donde los usuarios pueden interactuar con los datos almacenados en el almacén de datos.
  • Se emplearán consultas y varias herramientas para obtener diferentes tipos de información en función de los datos.
  • La información llega al usuario a través de la representación gráfica de los datos.
  • Las herramientas de informes se utilizan para obtener datos comerciales y la lógica empresarial también se aplica para reunir varios tipos de información.
  • La información de metadatos y las operaciones y el rendimiento del sistema también se mantienen y se ven en esta capa.

Conclusión

Un punto importante sobre Data Warehouse es su eficiencia. Para crear un Data Warehouse eficiente, construimos un marco conocido como Business Analysis Framework. Existen cuatro tipos de vistas con respecto al diseño de un almacén de datos.

1. Vista de arriba hacia abajo: esta vista solo permite seleccionar información específica necesaria para un almacén de datos.

2. Vista de fuente de datos: esta vista muestra toda la información de la fuente de datos sobre cómo se transforma y almacena.

3. Vista del almacén de datos: esta vista muestra la información presente en el almacén de datos a través de tablas de hechos y tablas de dimensiones.

4. Vista de consulta empresarial: esta es una vista que muestra los datos desde el punto de vista del usuario.

Artículos recomendados

Esta ha sido una guía para la arquitectura de Data Warehouse. Aquí discutimos los diferentes tipos de vistas, capas y niveles de la arquitectura de Data Warehouse. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Carrera en almacenamiento de datos
  2. Cómo funciona JavaScript
  3. Preguntas de la entrevista del almacén de datos
  4. ¿Qué es pandas?

Categoría: