Data Warehouse vs Hadoop - 6 diferencias importantes para saber

Tabla de contenido:

Anonim

Diferencias entre Data Warehouse y Hadoop

En cada década, la industria de TI experimenta una importante innovación que sacude a toda la industria de TI. En los últimos años, Apache Hadoop ha hecho lo mismo al infundir centros de datos con nueva infraestructura

Al dar el poder del procesamiento paralelo al programador, Hadoop está en un aumento tan exponencial en la adopción y su ecosistema se está expandiendo tanto en profundidad como en amplitud, es natural preguntarse si Hadoop reemplazará el Data Warehouse tradicional.

Veamos qué dijo Alasdair Anderson (Vicepresidente Ejecutivo de Nordea) en una Cumbre de Hadoop sobre este tema candente en la ciudad.

“En este momento no existe una relación entre EDW y Hadoop: serán complementarios. NO se trata de extraer y reemplazar: no vamos a deshacernos de RDBMS o MPP, sino que usaremos la herramienta adecuada para el trabajo correcto, y eso dependerá en gran medida del precio. "

Cada vez que comienza esta interesante discusión, se nos ocurren muchas preguntas como:

1) Si tiene big data, ¿necesita un almacén de datos?

2) ¿Hadoop reemplazará el Data Warehouse?

3) ¿Es esta la muerte de la era tradicional de Data Warehouse?

Para conocer las respuestas a todas estas preguntas, debemos analizar el contexto más amplio de esta imagen.

1. ¿Qué es Hadoop?

¿Quién no ha oído hablar de Big Data últimamente? Con cientos de terabytes de datos generados cada día a partir de diferentes fuentes, está claro que el mundo moderno de hoy es un mundo de Big Data

Cuando comience a hablar de Big Data, tarde o temprano comenzará a discutir el tema más candente del mundo de Big Data: Hadoop, pero ¿qué es exactamente?

Hadoop es un marco de programación de código abierto basado en Java que admite el procesamiento y el almacenamiento de conjuntos de datos extremadamente grandes en un entorno informático distribuido.

Los 4 módulos de Hadoop -

Hadoop se compone de 4 módulos:

  1. Sistema de archivos distribuido

El Sistema de archivos distribuido permite que los datos se almacenen en un formato de fácil acceso, en una gran cantidad de dispositivos de almacenamiento vinculados.

  1. Mapa reducido

Map Reduce es la combinación de dos operaciones: leer datos de la base de datos y ponerlos en un formato adecuado para análisis (mapa) y realizar operaciones matemáticas (reducir).

  1. Hadoop Common

Hadoop Common proporciona las herramientas necesarias para los datos almacenados en HDFS (Hadoop Distributed File System)

  1. HILO

YARN gestiona los recursos de los sistemas almacenando los datos y ejecutando el análisis.

2. ¿Qué es un almacén de datos?

Un almacén de datos es una base de datos relacional que está diseñada para consultar y analizar datos. Por lo general, contiene datos históricos derivados de diferentes fuentes.

El entorno de almacenamiento de datos incluye soluciones ETL, un motor de procesamiento analítico en línea (OLAP), herramientas de análisis de clientes y otras aplicaciones que administran el proceso de análisis de datos y la entrega a los usuarios comerciales.

Resumamos qué es el almacén de datos:

  1. Orientado a la materia

Un almacén de datos se puede utilizar para analizar un área temática particular como ventas, finanzas e inventario. Cada área temática contiene datos detallados.

  1. Integrado

Un almacén de datos integra datos de múltiples fuentes de datos. Por ejemplo, las fechas están en el mismo formato, los códigos masculino / femenino son consistentes. En un almacén de datos, solo habrá una única forma de identificar un producto y utilizarán el mismo registro de cliente, no copias

  1. No volátil

Los datos se almacenan en el almacén de datos sin modificaciones y no cambiarán. Por lo tanto, los datos históricos en un almacén de datos nunca deben modificarse.

  1. Variante de tiempo

uno puede recuperar datos de 3 meses, 6 meses, 12 meses o incluso datos más antiguos de un almacén de datos.

  1. No virtual

El almacén de datos es un repositorio físico y persistente.

Data Warehouse vs Hadoop (Infografía)

A continuación se muestran las 6 principales comparaciones entre Data Warehouse y Hadoop

Data Warehouse vs Hadoop: ¿cuál usar?

  • Si tiene datos limpios, consistentes y de alta calidad, entonces debe optar por Data Warehouse porque Hadoop carece de calidad de datos en algunas de sus soluciones.
  • Si tiene datos sin estructurar sin procesar, entonces debe optar por Hadoop porque Hadoop funciona bien con datos sin estructurar / sin procesar, pero Data Warehouse solo funciona con datos estructurados.
  • Para informes de baja latencia e interactivos, debe ir a Data Warehouse
  • Para OLTP / Real-time / Point Queries, debe ir a Data Warehouse porque Hadoop funciona bien con datos por lotes.
  • Para conjuntos de datos de gran volumen, debe optar por Hadoop porque Hadoop está diseñado para resolver problemas de Big data.

Tabla comparativa cara a cara entre Data Warehouse y Hadoop

A continuación se muestra la lista de puntos que describe las comparaciones entre Data Warehouse y Hadoop

Bases para la comparaciónAlmacén de datosHadoop
DatosEn Data Warehouse analizamos datos estructurados y procesados.En Hadoop, podemos procesar cualquier tipo de datos, incluidos los estructurados / no estructurados / semiestructurados y sin procesar.
ProcesandoSu procesamiento se basa en conceptos de esquema en escrituraSu procesamiento se basa en conceptos de esquema de lectura
AlmacenamientoAdecuado para datos con un volumen pequeño y es demasiado costoso para datos de gran volumenFunciona bien con grandes conjuntos de datos que tienen un gran volumen, velocidad y variedad.
AgilidadEs menos ágil y de configuración fija.Es altamente ágil, configura y reconfigura según sea necesario
SeguridadLas tecnologías de Data Warehouse han existido durante décadas. Por lo tanto, en términos de seguridad, podemos confiar en Data WarehouseSi bien las tecnologías de Hadoop son relativamente nuevas en comparación con Data Warehouse, la seguridad es una gran preocupación aquí
Los usuariosLos profesionales de negocios usualmente usan data warehouseHadoop es bastante famoso en el campo de la ciencia de datos y la ingeniería de datos.

Conclusión: Data Warehouse vs Hadoop

Ahora que conocemos Data Warehouse y Hadoop, regresemos y examinemos la pregunta que hicimos al comienzo de este artículo de Data Warehouse y Hadoop:

1) si tiene big data, ¿necesita un almacén de datos?

Respuesta: siempre que su organización necesite datos confiables, creíbles y accesibles, necesitará un almacén de datos.

2) ¿Hadoop reemplazará el Data Warehouse?

Respuesta: Comparar Data Warehouse con Hadoop es como comparar manzanas y naranjas. Tanto Data Warehouse como Hadoop tienen sus propios beneficios en diferentes escenarios de casos de uso. En algunos casos, todavía dependemos de las técnicas tradicionales de Data Warehouse, pero a medida que cambia el tiempo, nos centramos más en Hadoop Framework para manejar los problemas de Big Data.

3) ¿Es esta una muerte de la era tradicional de Data Warehouse?

Respuesta: Como puede ver, esta no es realmente una pregunta simple y, por lo tanto, no se presta bien a una respuesta simple. Es cierto que los grandes datos van a cambiar el enfoque tradicional de almacenamiento de datos en los próximos años, pero no obsoletos los conceptos y la práctica del almacenamiento de datos.

Artículo recomendado

Esta ha sido una guía útil para Data Warehouse vs Hadoop. Aquí hemos discutido su significado, comparación directa, diferencia clave y conclusión. También puede consultar el siguiente artículo para obtener más información:

  1. Hadoop vs Splunk - Descubre las mejores 7 diferencias
  2. Hadoop vs Elasticsearch - Cuál es más útil
  3. Big Data vs Data Warehouse: descubra las mejores diferencias
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios