Introducción a Hive Entrevista Preguntas y respuestas

En la nueva era de datos, Hive es un paquete de herramientas de infraestructura de almacenamiento de datos y ETL de escala de petabytes de código abierto para almacenar datos estructurados y no estructurados en el Sistema de archivos distribuido (HDFS)
para analizar, consultar y extraer conjuntos de datos de gran volumen al habilitar un lenguaje similar a SQL llamado HiveQL (HQL) y una fácil ejecución de consultas mediante la planificación de Hadoop MapReduce.

Hive está construido sobre Hadoop para procesar y analizar Big Data y facilita las consultas.
La colmena fue creada inicialmente por Facebook, luego fue mejorada y desarrollada como fuente abierta por Apache Software Foundation y la nombró Apache Hive. Ahora hay muchas compañías que hacen uso de Apache Hive para sus soluciones de Big Data.

Si está buscando un trabajo relacionado con Hive, debe prepararse para las preguntas de la entrevista de Hive 2018. Aunque cada entrevista es diferente y el alcance de un trabajo también es diferente, podemos ayudarlo con las principales preguntas y respuestas de la entrevista de Hive 2018, que lo ayudarán a dar el salto y lograr el éxito en su entrevista.

A continuación se muestra la lista superior de preguntas de la entrevista de Hive que se hacen principalmente en una entrevista. Estas preguntas se dividen en dos partes son las siguientes:

Parte 1 - Preguntas de la entrevista de la colmena (básico)

Esta primera parte cubre preguntas y respuestas básicas de la entrevista de Hive.

1. ¿Enumerar los diferentes componentes de la arquitectura de Hive?

Responder:
A continuación se enumeran cinco componentes principales en la arquitectura de Hive:
• Interfaz de usuario (UI): actúa como un comunicador entre usuarios y controladores cuando el usuario escribe las consultas, la UI lo acepta y lo ejecuta en el controlador, hay dos tipos de interfaz disponibles: línea de comando e interfaz GUI.
• Controlador: mantiene el ciclo de vida de la consulta HiveQL. Recibe las consultas de la interfaz de usuario y crea la sesión para procesar la consulta.
• Compilador: recibe los planes de consulta del controlador y obtiene la información requerida de Metastore para ejecutar el plan.
• Metastore: almacena la información sobre los datos como una tabla; Puede ser de una tabla interna o externa. Envía la información de metadatos al compilador para ejecutar la consulta.
• Ejecutar motor: el servicio Hive ejecutará el resultado en el motor de ejecución; ejecuta la consulta en MapReduce para procesar los datos. Es responsable de controlar cada etapa para todos estos componentes.

2. ¿Cuáles son los diferentes tipos de modos que puede operar Hive?

Responder:
Estas son las preguntas comunes de la entrevista de Hive en una entrevista. Hive puede operar en dos modos según el tamaño de los datos,
Estos modos son:
• Modo de reducción de mapa
•Modo local

3. ¿Cuáles son los escenarios donde Hive se puede usar y no se puede usar?

Respuesta :
Cuando crea aplicaciones de depósito de datos cuando sus datos son estáticos, cuando su aplicación no necesita un alto tiempo de respuesta, cuando el volumen de datos es enorme, cuando los datos no cambian rápidamente y cuando está utilizando consultas en lugar de secuencias de comandos. Hive solo admite transacciones OLAP, no es adecuado para transacciones OLTP.

Pasemos a las siguientes preguntas de la entrevista de Hive.

4. ¿Cuáles son los formatos de archivo que admite Hive? ¿Enumerar el tipo de aplicaciones que son compatibles con HIVE?

Responder:
De manera predeterminada, Hive admite el formato de archivo de texto y también admite el formato de archivo binario, como el archivo de secuencia, los archivos ORC, los archivos de parquet y los archivos de datos Avro.
• Archivo de secuencia: generalmente es un archivo de formato binario, que se puede comprimir y es divisible.
• Archivo ORC: el archivo de columnas optimizadas de filas es un archivo de columna y un archivo de almacenamiento orientado a columnas.
• Archivo de parquet: es un archivo binario orientado a columnas, es altamente eficiente para consultas a gran escala.
• Archivo de datos Avro: es el mismo que el formato de archivo de secuencia, que es un archivo divisible, compresible y orientado a filas.
El tamaño máximo del tipo de datos de cadena permitido en Hive es de 2 GB.

Hive es un marco de almacenamiento de datos que es adecuado para aquellas aplicaciones que están escritas en Java, C ++, PHP, Python o Ruby.

5. ¿Cuáles son los diferentes tipos de tabla disponibles en Hive?

Responder:
Hay dos tipos de tablas en la aplicación Hive, son:
• Tablas administradas: los datos y el esquema controlan Hive.
• Tablas externas: solo el esquema controla la colmena.

Parte 2 - Preguntas de la entrevista de la colmena (avanzado)

Veamos ahora las preguntas avanzadas de la entrevista de Hive.

6. ¿Qué es un Metastore en Hive? ¿Enumerar y explicar los diferentes tipos de configuración de Hive Metastores?

Responder:
Metastore en Hive se utiliza para almacenar la información de metadatos, es un repositorio central en Hive. Permite almacenar la información de metadatos en una base de datos externa. De forma predeterminada, Hive almacena información de metadatos en la base de datos Derby, pero también se puede almacenar en otras bases de datos como Oracle, MySql, etc.
Hay tres tipos de configuración de Metastore, que son:
• Metastore incorporado: es un modo predeterminado; puede acceder localmente a la biblioteca de Hive, todas las operaciones de línea de comandos se realizan en modo incrustado. El servicio Hive, el servicio metastore y la base de datos se ejecutan en la misma JVM.
• Metastore local: almacena datos en una base de datos externa como MySql u Oracle. El servicio Hive y el servicio metastore se ejecutan en la misma JVM, se conecta a la base de datos que se ejecuta en una JVM separada.
• Metastore remoto: utiliza el modo remoto para ejecutar consultas, aquí el servicio de metastore y el servicio de colmena se ejecutan en una JVM separada. Puede tener varios servidores de metastore para aumentar la disponibilidad.

7. ¿Qué es un procesador de consultas Hive? ¿Cuáles son los diferentes componentes del procesador de consultas Hive?

Responder:
Estas son las preguntas frecuentes de la entrevista de Hive en una entrevista. Hive Query Processor se utiliza para convertir SQL a trabajos MapReduce. Según el orden de las dependencias, se ejecutan los trabajos.
Los componentes de Hive Query Processor se enumeran a continuación:
• Analizador semántico
• UDF y UDAF
• Optimizador
•Operador
• Analizador
• Motor de ejecución
• Verificación de tipo
• Generación de plan lógico
• Generación de plan físico

8. ¿Cuál es la funcionalidad de Object-Inspector en Hive?

Responder:
Se compone de Hive que se utiliza para identificar la estructura de las columnas individuales y la estructura interna de los objetos de fila. Se puede acceder a los objetos complejos que se almacenan en múltiples formatos utilizando Object-Inspector en Hive.
Object-Inspector identificará la estructura de un objeto y las formas de acceder a los campos internos dentro del objeto.

Pasemos a las siguientes preguntas de la entrevista de Hive.

9. ¿Cuáles son las diferentes formas de conectar las aplicaciones a Hive Server?

Responder:
Hay tres formas de conectar las aplicaciones al servidor de Hive, que son:
• Thrift Client: se utiliza para ejecutar todos los comandos de la colmena utilizando un lenguaje de programación diferente, como Java, C ++, PHP, Python o Ruby.
• Controlador ODBC: esto admitirá el protocolo ODBC
• Controlador JDBC: esto admitirá el protocolo JDBC

10. ¿Cuáles son las clases de lectura y escritura predeterminadas en Hive?

Responder:
A continuación se encuentran las clases de lectura y escritura disponibles en Hive:
• TextInputFormat: esta clase se utiliza para leer datos en formato de texto sin formato.
• HiveIgnoreKeyTextOutputFormat: esta clase se utiliza para escribir datos en formato de texto sin formato.
• SequenceFileInputFormat: esta clase se utiliza para leer datos en formato de archivo Hadoop Sequence.
• SequenceFileOutputFormat: esta clase se utiliza para escribir datos en formato de archivo Hadoop Sequence.

Artículo recomendado

Esta ha sido una guía para la lista de preguntas y respuestas de la entrevista de la colmena para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista de la colmena fácilmente. También puede consultar los siguientes artículos para obtener más información:

  1. Las 5 preguntas y respuestas útiles de la entrevista DBA
  2. Las 12 preguntas y respuestas más impresionantes de la entrevista de GitHub
  3. Las 15 preguntas y respuestas más importantes de Ruby Interview
  4. Las 10 preguntas más útiles de la entrevista de HBase