¿Cómo instalar Hive?

Apache Hadoop es una colección del marco que permite el procesamiento de grandes datos distribuidos en el clúster. Según Apache Hive es un proyecto de software de almacenamiento de datos construido sobre Apache Hadoop para proporcionar consultas y análisis de datos. Apache Hive proporciona una interfaz similar a SQL para consultar y procesar una gran cantidad de datos llamada HQL (lenguaje de consulta Hive). La colmena Apache se ejecuta sobre el ecosistema de Hadoop y los datos almacenados en forma de archivo significan el sistema de archivos distribuidos de Hadoop (HDFS). Apache Hive proporciona una excelente interfaz para que el usuario acceda y realice una operación sobre los datos en forma de tabla, proporciona una gran técnica de optimización para mejorar el rendimiento. Es muy difícil hacer que la consulta sea más rápida con big data y créeme, es importante en un entorno de producción.

En el backend, el compilador convierte la consulta HQL en trabajos de reducción de mapas y luego los envía al marco Hadoop para su ejecución.

Diferencia entre Hive y SQL

Apache Hive es muy similar a SQL pero, como sabemos, la colmena se ejecuta sobre el ecosistema de Hadoop y convierte los trabajos internamente en MR (trabajos de reducción de mapas) hace alguna diferencia entre Hive y SQL.

Hive no sería el mejor enfoque para aquellas aplicaciones donde se requiere una respuesta muy rápida y es muy importante comprender que Hive es más adecuado para el procesamiento por lotes sobre conjuntos muy grandes de datos inmutables y debemos tener en cuenta que Hive es un RDBMS regular y, por último, pero no menos importante, apache hive es un esquema en los medios de lectura (al insertar datos en la tabla de la colmena no se molestará por la falta de coincidencia del tipo de datos, pero al leer los datos mostrará un valor nulo si el tipo de datos no coincide con el tipo de datos de la columna específica).

Requisito previo para instalar Hive

Como dije antes, es muy importante entender que la colmena Apache se ejecuta sobre Hadoop Ecosystem y Hadoop debería estar funcionando con todos los demonios.

Algunos de los demonios básicos de Hadoop son los siguientes:

  • Nombre de nodo
  • Nodo de datos
  • Administrador de recursos
  • Gerente de nodo

Para verificar la versión de Hadoop a continuación es el comando:

Escriba → Versión de Hadoop en el símbolo del sistema; le dará la versión de Hadoop.

Para verificar el comando de activación del informe del clúster Hadoop a continuación:

Escriba → Hadoop dfsadmin –report en el símbolo del sistema, le dará el informe completo del clúster si su servidor se está ejecutando.

Si Hadoop no está instalado en su máquina y le solicita que lo haga, siga las instrucciones de apache para instalar Hadoop en su sistema.

Espero que Java ya se haya instalado en su sistema también. Para verificar la versión de Java, consulte la siguiente captura de pantalla.

Pasos para instalar Hive en Ubuntu

A continuación se detallan los pasos para instalar Hive en Ubuntu:

Paso 1 : Hive alquitrán que podemos descargar usando el siguiente comando en el terminal que también podemos descargar directamente desde el terminal.

Comando: obtenemos http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Paso 2 : Extraiga el archivo tar utilizando el siguiente comando en el terminal, podemos extraer el archivo tar que se encuentra arriba directamente descargado.

Comando: tar -xzf apache-hive-2.1.0-bin.tar.gz

Le sugeriré que verifique con el comando ls sobre el archivo de colmena extraído.

Paso 3: Edite el archivo " .bashrc " para actualizar las variables de entorno para el usuario.

Comando: sudo the .bashrc

Agregue lo siguiente al final del archivo:

# Establecer HIVE_HOME

Ejecute el siguiente comando para completar el trabajo de cambios en el terminal actual.

Comando: fuente .bashrc

Paso 5 : Necesitamos crear directorios de Hive dentro de la ubicación de HDFS y este directorio 'almacén' será la ubicación para almacenar la información relacionada con los metadatos de la tabla de colmena y los datos relacionados con Hive.

Comando :

  • hdfs dfs -mkdir -p / user / hive / warehouse
  • hdfs dfs -mkdir / tmp

Paso 6 : Para establecer el permiso de lectura y escritura para la tabla de la colmena, ejecute el siguiente comando.

Mando:

En el siguiente comando, proporciona permiso de escritura al grupo de usuarios:

  • hdfs dfs -chmod g + w / user / hive / warehouse
  • hdfs dfs -chmod g + w / tmp

Configuración de Hive: es muy importante configurar el punto de instalación para configurar con Hadoop. Necesitamos editar hive-env.sh, un archivo que se coloca en el directorio $ HIVE_HOME / conf. Los siguientes comandos redirigen a la carpeta conf de Hive y copian el archivo de plantilla:

Paso 7 : Establecer una ruta de Hadoop en hive-env.sh

Edite el archivo hive-env.sh agregando la siguiente línea:

Ahora, con este proceso, casi hemos terminado y las instalaciones de la colmena se han completado con éxito. Es importante configurar Metastore con el servidor de base de datos externo y, de manera predeterminada, el marco Apache Hive usa la base de datos Derby. Mediante el siguiente comando Inicializando la base de datos Derby.

Comando: bin / schematool -initSchema -dbType derby

Paso 8 : Inicie Hive .

Comando: colmena (escriba colmena en la terminal dentro de la segunda terminal de colmena se abrirá).

Trabajando con Hive: ahora veremos algunas de las operaciones en la colmena para ver cuántas tablas tenemos en la base de datos predeterminada, use las capturas de pantalla a continuación en las siguientes capturas de pantalla. No muestra ninguna tabla, lo que significa que no tenemos ninguna tabla en la base de datos predeterminada. .

Para crear una tabla en la colmena, es muy importante consultar la base de datos requerida; de lo contrario, cualquier tabla se creará en la base de datos predeterminada.

Comandos importantes en Hive

1: mostrar bases de datos (mostrará todas las bases de datos que se han creado hasta ahora).

2: cree la base de datos si no existe mydb (este comando creará una base de datos con el nombre de ' mydb' si ' mydb' no existe y si ' mydb ya existe, tampoco dará ningún error')

3: use la base de datos cada vez que tengamos que usar algún comando DDl en la base de datos particular, deberíamos usar el comando "usar base de datos" en nuestro caso ya hemos creado "mydb". El comando show mydb se usaría.

Comando DDL de Hive importante

CREAR, BAJAR, TRUNCAR, MOSTRAR, DESCRIBIR .

  • Crear : crea una instrucción utilizada para crear una base de datos o crear una tabla en la colmena.

Ejemplo: colmena> crear base de datos Empresa; (crear base de datos)

Colmena> uso Empresa;

Colmena> crear tabla empleado (id int, nombre String, salario String); (esto creará una tabla de empleados en la base de datos Compañía porque ya hemos ejecutado el comando Usar base de datos).

  • Describe proporciona información sobre el esquema de la tabla.

Colmena> describir empleado; (esto dará los detalles del esquema de la tabla de empleados en detalles)

  • TRUNCATE eliminará los datos de la tabla.

Colmena> truncar empleado de tabla;

También podemos instalar Hive en una ventana, pero para la mejor práctica, preferiré Ubuntu para usar, dará una mejor vista del entorno de producción y sus datos aumentarán en el futuro, será fácil de administrar.

Artículos recomendados

Esta ha sido una guía para instalar Hive. Aquí hemos discutido los diferentes pasos para instalar Hive, el comando DDL, etc. También puede consultar los siguientes artículos para obtener más información:

  1. Cómo instalar SQL Server
  2. Cómo instalar MATLAB
  3. Comandos y características de la colmena
  4. Preguntas básicas de la entrevista de la colmena
  5. Arquitectura de la colmena | WorkFlow
  6. Uso de la función ORDER BY en Hive
  7. Instalación de colmena

Categoría: