Introducción a los comandos de Hive

El comando Hive es una herramienta de infraestructura de almacenamiento de datos que se encuentra en la parte superior de Hadoop para resumir Big data. Procesa datos estructurados. Facilita la consulta y el análisis de datos. El comando Hive también se llama "esquema de lectura"; Hive no verifica los datos cuando se carga, la verificación ocurre solo cuando se emite una consulta. Esta propiedad de Hive lo hace rápido para la carga inicial. Es como copiar o simplemente mover un archivo sin poner restricciones ni controles. La colmena fue desarrollada por primera vez por Facebook. Apache Software Foundation lo retomó más tarde y lo desarrolló aún más.

Aquí están los componentes del comando Hive:

Fig. 1. Componentes de la colmena

https://www.developer.com/

Estas son las características del comando Hive que se enumeran a continuación:

  1. Los almacenes de colmena son conjuntos de datos sin procesar y procesados ​​en Hadoop.
  2. Está diseñado para el procesamiento de transacciones en línea (OLTP). OLTP son los sistemas que facilitan datos de gran volumen en muy poco tiempo sin depender del servidor único.
  3. Es rápido, escalable y confiable.
  4. El lenguaje de consulta de tipo SQL proporcionado aquí se llama HiveQL o HQL. Esto facilita las tareas de ETL y otros análisis.

Fig 2. Propiedades de la colmena

Imágenes de fuentes: - Google

También hay algunas limitaciones del comando Hive, que se enumeran a continuación:

  1. Hive no admite subconsultas.
  2. Hive seguramente admite la sobreescritura, pero desafortunadamente, no admite la eliminación y las actualizaciones.
  3. Hive no está diseñado para OLTP, pero se usa para ello.

Para ingresar al shell interactivo de la colmena:

$ HIVE_HOME / bin / hive

Comandos básicos de la colmena

  1. Crear

Esto creará la nueva base de datos en Hive.

  1. soltar

La caída eliminará una tabla de Hive

  1. Alterar

El comando Alter le ayudará a renombrar la tabla o las columnas de la tabla.

Por ejemplo:

colmena> ALTERAR TABLA empleado RENOMBRAR A empleado1;

  1. mostrar

El comando Show mostrará todas las bases de datos que residen en Hive.

  1. Describir

El comando Describir le ayudará con la información sobre el esquema de la tabla.

Comandos intermedios de la colmena

La colmena divide una tabla en particiones relacionadas en función de las columnas. Usando estas particiones, se hace más fácil consultar datos. Estas particiones se dividen aún más en cubos, para ejecutar consultas de manera eficiente en los datos.

En otras palabras, los depósitos distribuyen datos en el conjunto de clústeres calculando el código hash de la clave mencionada en la consulta.

  1. Agregar partición

Agregar partición se puede lograr alterando la tabla. Supongamos que tiene la tabla "EMP", con campos como Id, Nombre, Salario, Departamento, Designación y yoj.

colmena> ALTERAR TABLA empleado

> AGREGAR PARTICIÓN (año = '2012')

ubicación '/ 2012 / part2012';

  1. Renombrar partición

colmena> ALTERAR TABLA PARTICIÓN DE EMPLEADOS (año = '1203')

RENOMBRAR A LA PARTICIÓN (Yoj = '1203');

  1. Partición de caída

colmena> CAMBIAR TABLA de empleados (SI EXISTE)

> PARTICIÓN (año = '1203');

  1. Operadores relacionales

Los operadores relacionales consisten en un cierto conjunto de operadores, que ayudan a obtener información relevante.

Por ejemplo: Digamos que su tabla "EMP" se ve así:

Ejecutemos la consulta Hive que nos traerá al empleado cuyo salario sea mayor a 30000.

colmena> SELECCIONAR * DESDE EMP DONDE Salario> = 40000;

  1. Operadores aritméticos

Estos son operadores que ayudan en la ejecución de operaciones aritméticas en los operandos y, a su vez, siempre devuelven tipos de números.

Por ejemplo: para agregar dos números como 22 y 33

colmena> SELECCIONE 22 + 33 AGREGAR DE temp;

  1. Operador lógico

Estos operadores deben ejecutar operaciones lógicas, que a cambio siempre devuelven Verdadero / Falso.

colmena> SELECCIONAR * DE EMP DONDE Salario> 40000 && Dept = TP;

Comandos avanzados de la colmena

  1. Ver

Ver el concepto en Hive es similar al de SQL. La vista se puede crear al momento de ejecutar una instrucción SELECT.

Ejemplo:

colmena> CREAR VISTA EMP_30000 AS

SELECCIONAR * DESDE EMP

DONDE salario> 30000;

  1. Cargando datos en la tabla

Colmena> Cargar datos en ruta local '/home/hduser/Desktop/AllStates.csv' en los estados de la tabla;

Aquí "Estados" es la tabla ya creada en Hive.

https://www.tutorialspoint.com/hive/

Hive tiene algunas funciones integradas que lo ayudan a obtener su resultado de una mejor manera.

Como redondo, piso, BIGINT etc.

  1. Unirse

La cláusula Join puede ayudar a unir dos tablas basadas en el mismo nombre de columna.

Ejemplo:

colmena> SELECCIONAR c.ID, c.NAME, c.AGE, o.AMOUNT

DE CLIENTES c ÚNETE A PEDIDOS o

ENCENDIDO (c.ID = o.CUSTOMER_ID);

Hive admite todo tipo de combinaciones: combinación externa izquierda, combinación externa derecha, combinación externa completa.

Consejos y trucos para usar los comandos de la colmena

Hive hace que el procesamiento de datos sea tan fácil, directo y extensible, que el usuario presta menos atención para optimizar las consultas de Hive. Pero prestar atención a algunas cosas al escribir consultas de Hive seguramente traerá un gran éxito en la administración de la carga de trabajo y en el ahorro de dinero. A continuación hay algunos consejos al respecto:

  1. Particiones y cubos: Hive es una gran herramienta de datos, que puede consultar en grandes conjuntos de datos. Sin embargo, escribir la consulta sin comprender el dominio puede generar grandes particiones en Hive.

Si el usuario conoce el conjunto de datos, las columnas relevantes y muy utilizadas podrían agruparse en la misma partición. Esto ayudará a ejecutar la consulta de manera más rápida e ineficiente.

En definitiva el no. de mapeador y operaciones de E / S también se reducirán.

Fig 3. Particionamiento

Imágenes de fuentes: imagen de Google

Higo 4 Bucketing

Imágenes de fuentes: - imagen de Google

  1. Ejecución paralela: Hive ejecuta la consulta en varias etapas. En algunos casos, estas etapas pueden depender de otras etapas, por lo tanto, no puede comenzar, una vez que se completa la etapa anterior. Sin embargo, las tareas independientes pueden ejecutarse en paralelo para ahorrar tiempo de ejecución general. Para habilitar la ejecución paralela en Hive:

establecer hive.exec.parallel = true;

Por lo tanto, esto mejorará la utilización del clúster.

  1. Muestreo en bloque: los datos de muestreo de una tabla permitirán explorar consultas sobre datos.

A pesar del rechazo, preferimos muestrear el conjunto de datos más al azar. El muestreo en bloque viene con varias sintaxis potentes, que ayudan a muestrear los datos de una manera diferente.

El muestreo se puede usar para encontrar aprox. información del conjunto de datos como la distancia promedio entre el origen y el destino.

Consultar el 1% de los grandes datos dará la respuesta perfecta. La exploración se vuelve mucho más fácil y efectiva.

Conclusión: comandos de Hive

Hive es una abstracción de nivel superior sobre HDFS, que proporciona un lenguaje de consulta flexible. Ayuda a consultar y procesar datos de una manera más fácil.

Hive puede combinarse con otros elementos de Big Data para aprovechar su funcionalidad de manera completa.

Artículos recomendados

Esta ha sido una guía para los comandos de Hive. Aquí hemos discutido los comandos de Hive básicos y avanzados y algunos comandos de Hive inmediatos. También puede consultar el siguiente artículo para obtener más información:

  1. Preguntas de la entrevista de la colmena
  2. Hive VS Hue - Las 6 mejores comparaciones útiles
  3. Comandos de Tableau
  4. Comandos de Adobe Photoshop
  5. Uso de la función ORDER BY en Hive
  6. Descargue e instale Hive paso a paso

Categoría: