Introducción a las alternativas de la colmena

Antes de discutir las alternativas de HIVE. ¿Primero entendemos qué es un HIVE? Entonces, HIVE es básicamente una herramienta de almacenamiento de datos que se desarrolla sobre HDFS (Sistema de archivos distribuidos de Hadoop). Se utiliza para proporcionar una interfaz de consulta similar a SQL para consultar datos que se almacenan en varios archivos integrados con Hadoop. Convierte consultas similares a SQL en trabajos Map Reduce que ayudan en la ejecución fácil de grandes volúmenes de datos.

Caracteristicas

A continuación se presentan algunas de las características de Hive:

  • Al igual que SQL, tiene su propio lenguaje declarativo llamado HiveQL.
  • Tiene una estructura de tabla similar a las tablas en la base de datos relacional y también proporciona soporte ETL (extracto / soporte / carga).
  • Una característica interesante es que permite la conversión de formato desde el HIVE.

Limitación de alternativas de colmena

Conozcamos algunas limitaciones de Hive:

  • No está diseñado para OLTP (procesamiento de transacciones en línea) pero admite OLAP (procesamiento analítico en línea).
  • Una limitación importante es que no admite actualizaciones y eliminaciones.
  • En Hive tampoco se admiten subconsultas.

5 alternativas importantes de la colmena

A continuación vamos a discutir cinco alternativas importantes de HIVE presente en el mercado:

1. Apache Impala

Es un motor de consulta SQL de procesamiento paralelo de código abierto para datos almacenados en un clúster de computadora que ejecuta Apache Hadoop. Se anunció en el año octubre de 2012. A continuación se presentan las características más destacadas de Apache Impala como una alternativa al VIH.

  • Impala es una buena opción para las personas que ejecutan consultas SQL en Hadoop y Apache HBase sin transformar los datos, ya que no es necesario transformarlos ni moverlos, a diferencia de HIVE.
  • Otra diferencia entre estos dos es la generación de expresiones de consulta. Impala los genera en tiempo de ejecución usando llvm mientras que HIVE los genera en tiempo de compilación.
  • Hive Queries tiene un problema de arranque en frío, que no es el caso de las consultas de Impala, ya que en Impala, los procesos del demonio se inician en el tiempo de arranque, siempre listos para procesar una consulta, por lo que se evita el problema de arranque en frío.
  • Impala reconoce formatos de archivo Hadoop, seguridad Hadoop, controlador ODBC.
  • La principal USP del impala es la fuerza bruta del procesamiento paralelo. Entonces, Impala es una mejor alternativa si uno está comenzando un nuevo proyecto.

2. Presto DB

Presto es otra alternativa para HIVE desarrollada por facebook. Su USP es que incluso puede consultar datos de múltiples fuentes dentro de una sola consulta. A continuación se presentan las características más destacadas de PrestoDB como alternativa al VIH.

  • Presto es un motor de consulta SQL distribuido en memoria que también es muy rápido ya que el motor de consulta de Presto es rápido y adecuado para el análisis interactivo.
  • El USP para Presto sobre otros es su modelo plug and play con diferentes fuentes de datos. Debido a este modelo plug and play, unir consultas a través de diferentes fuentes de datos es muy fácil con presto.
  • En Presto, las tablas de unión de dimensión pequeña se han hecho más rápido. Presto sobresale con la mayoría de los otros motores de consulta distribuidos.
  • Presto no es apropiado para grandes uniones de hecho, ya que no aprovecha el disco y no usa memoria para el procesamiento.
  • Un punto más importante para presto es su asignación de recursos. Tiene una asignación de recursos basada en cola prioritaria.
  • Una compensación para un buen rendimiento en Presto es que el soporte UDF no está disponible en presto debido a que uno tiene que escribir su propia función, lo que aumenta la sobrecarga, ya que debe construirse exclusivamente para presto y dificulta la interoperabilidad.

3. Spark SQL

Es un módulo para el procesamiento de datos estructurados y también de código abierto. También puede actuar como un motor de consulta SQL distribuido y también una parte única de esto es que proporciona abstracción de programación conocida como marcos de datos. Fue lanzado por primera vez en 2014 desarrollado por Apache Software Foundation. A continuación se presentan algunas de las características más destacadas de Spark SQL como alternativa a HIVE.

  • Lo bueno de Spark SQL es que se puede implementar en lenguaje Java, Scala, Python y R, mientras que HIVE se puede implementar en lenguaje Java.
  • Existe una similitud completa en el modelo de base de datos primaria entre HIVE y Spark ya que para ambos modelos de base de datos primaria es DBMS relacional.
  • También es similar a HIVE, ya que ambos admiten la tienda Key-Value como un modelo de base de datos adicional.
  • Tiene tipos de datos predefinidos como flotante y fecha.
  • Es compatible con SQL ya que posee sentencias DML y DDL.
  • A diferencia de HIVE, que admite JDBC, ODBC y Thrift, Spark SQL solo admite JDBC y ODBC.
  • Spark SQL usa el núcleo de chispa para almacenar datos en diferentes nodos.
  • Otra diferencia importante entre spark y HIVE son los métodos de replicación: hay un factor de replicación selectiva en HIVE para almacenar datos redundantes en múltiples nodos, pero no hay un factor de replicación disponible en Spark SQL.
  • En Spark SQL no hay derechos de acceso para usuarios, mientras que en Apache Hive tenemos derechos de acceso para usuarios, grupos.
  • No es compatible con una tabla transaccional y no es compatible con el tipo char.

4. tiburón

Es un motor de consulta SQL de código abierto que está escrito en Scala. El hecho interesante de Shark es que, en lugar de utilizar Map-Reduce para ejecutar sus consultas, utiliza sus propios conjuntos de nodos de trabajo. A continuación se presentan algunas de las características de Shark:

  • Utiliza un cliente de línea de comandos.
  • Ofrece interoperabilidad con Hive para compartir esquemas.
  • Proporciona soporte para extensiones de colmena existentes, como UDF.

Todavía no es muy famoso, pero ofrece una alternativa al VIH.

5. BigSQL de IBM

Es proporcionado por Big Blue (IBM). IBM tiene su propia distribución de Hadoop llamada Big Insights. Entonces, Big SQL se ofrece como parte de él. No es de código abierto, ya que lo proporciona IBM. Algunas de las cosas que proporcionan son las siguientes:

  • Admiten controladores JDBC y OJDBC.
  • Proporcionan soporte SQL
  • Se pueden usar para consultar datos de HDFS.

Artículos recomendados

Esta es una guía de alternativas a la colmena. Aquí discutimos características, limitaciones y 5 alternativas importantes de Hive. También puede consultar nuestros otros artículos relacionados para obtener más información.

  1. Alternativas de Hadoop
  2. Alternativas de Tableau
  3. Alternativas de Google Analytics
  4. Hadoop Streaming
  5. Orden de la colmena por
  6. Instalación de colmena
  7. Marcos de datos en R

Categoría: