Hadoop Cluster Interview Preguntas y respuestas

El propósito de este artículo es ayudar a todos los aspirantes a Big Data a responder todas las preguntas de la entrevista de Hadoop Cluster relacionadas con la configuración de Big Data Environment en una organización. Este cuestionario ayudará a configurar los nodos de datos, el nodo de nombres y a definir la capacidad del servidor alojado de los demonios de Big Data.

Entonces, si finalmente ha encontrado el trabajo de sus sueños en Hadoop Cluster pero se pregunta cómo descifrar la entrevista de Hadoop Cluster y cuáles podrían ser las posibles preguntas de la entrevista de Hadoop Cluster. Cada entrevista es diferente y el alcance de un trabajo también es diferente. Teniendo esto en cuenta, hemos diseñado las preguntas y respuestas más comunes de la entrevista de Hadoop Cluster para ayudarlo a tener éxito en su entrevista.

Algunas de las preguntas más importantes de la entrevista de Hadoop Cluster que se hacen con frecuencia en una entrevista son las siguientes:

1. ¿Cuáles son los principales componentes de Hadoop en el clúster de Hadoop?

Responder :
Hadoop es un marco en el que procesamos big data o Hadoop es la plataforma donde se puede procesar la gran cantidad de datos en servidores básicos. Hadoop es la combinación de muchos componentes. Los siguientes son los componentes principales en el entorno Hadoop.
Nombre del nodo : es el nodo maestro que se encarga de toda la información de los nodos de datos y la ubicación del almacenamiento de datos en formato de metadatos.
Nodo de nombre secundario : funciona como nodo de nombre primario si el nodo de nombre primario se cae.
HDFS (Sistema de archivos distribuidos de Hadoop) : se encarga de todo el almacenamiento del clúster de Hadoop.
Nodos de datos : los nodos de datos son nodos esclavos. Los datos reales se guardan en los Nodos Esclavos para su procesamiento.
HILO (Otro negociador de recursos) : un marco de software para escribir las aplicaciones y procesar grandes cantidades de datos. Proporciona las mismas características que MapReduce, además permitiría que cada trabajo por lotes se ejecute en paralelo en el clúster de Hadoop.

2.¿Cómo planificar el almacenamiento de datos en el clúster Hadoop?

Responder :
El almacenamiento se basa en la fórmula (Almacenamiento = Ingestión diaria de datos * Replicación).
Si el clúster de Hadoop obtiene 120 TB de datos diariamente y tenemos un factor de replicación predeterminado, el requisito de almacenamiento diario de datos sería
Requisito de almacenamiento = 120 TB (ingesta diaria de datos) * 3 (replicación predeterminada) => 360 TB
Como resultado, necesitamos configurar al menos un clúster de datos de 360 ​​TB para el requerimiento diario de ingestión de datos.
El almacenamiento también depende del requisito de retención de datos. En caso de que queramos que los datos se almacenen durante 2 años en el mismo clúster, debemos organizar los nodos de datos según el requisito de retención.

3. Calcular números de nodo de datos.

Responder :
Necesitamos calcular una cantidad de nodos de datos necesarios para el clúster Hadoop. Supongamos que tenemos servidores con JBOD de 10 discos y cada disco tiene un tamaño de almacenamiento de 4 TB, por lo que cada servidor tiene 40 TB de almacenamiento. El clúster de Hadoop obtiene datos de 120 TB por día y 360 TB después de aplicar el factor de replicación predeterminado.
No de nodos de datos = ingesta diaria de datos / capacidad del nodo de datos
No de nodos de datos = 360/40 => 9 nodos de datos
Por lo tanto, para que el clúster Hadoop obtenga datos de 120 TB con la configuración anterior, solo necesita configurar 9 nodos de datos.

4. ¿Cómo cambiar el factor de replicación en el clúster de Hadoop?

Responder :
Edite el archivo hdfs-site.xml. La ruta predeterminada está en la carpeta conf / del directorio de instalación de Hadoop. cambiar / agregar la siguiente propiedad en hdfs-site.xml:
dfs.replication
3
Replicación de bloque
No es obligatorio tener el factor de replicación 3. También se puede establecer como 1. El factor de replicación 5 también funciona en el clúster Hadoop. La configuración del valor predeterminado hace que el clúster sea más eficiente y se requiere un hardware mínimo.
El aumento del factor de replicación aumentaría los requisitos de hardware porque el almacenamiento de datos se multiplica por el factor de replicación.

5. ¿Cuál es el tamaño predeterminado del bloque de datos en Hadoop y cómo modificarlo?

Responder :
El tamaño de bloque reduce / divide los datos en bloques y guárdelos en nodos de datos diferentes.
Por defecto, el tamaño de bloque es de 128 MB (en Apache Hadoop) y podemos modificar el tamaño de bloque predeterminado.
Edite el archivo hdfs-site.xml. La ruta predeterminada está en la carpeta conf / del directorio de instalación de Hadoop. cambiar / agregar la siguiente propiedad en hdfs-site.xml:
dfs.block.size
134217728
Tamaño de bloque
El tamaño del bloque en bytes es 134, 217, 728 o 128 MB. Además, especifique el tamaño con sufijo (no distingue entre mayúsculas y minúsculas) como k (kilo-), m (mega-), g (giga-) o t (tera-) para establecer el tamaño del bloque en KB, MB, TB, etc.

6. ¿Cuánto tiempo el clúster Hadoop debe mantener un archivo HDFS eliminado en el directorio delete / trash?

Responder :
El "fs.trash.interval" es el parámetro que especifica cuánto tiempo HDFS puede mantener cualquier archivo eliminado en el entorno Hadoop para recuperar el archivo eliminado.
El período de intervalo se puede definir solo en minutos. Para un intervalo de recuperación de 2 días, necesitamos especificar la propiedad en un formato fluido.
Edite el archivo core-site.xml y agréguelo / modifíquelo utilizando la siguiente propiedad
fs.trash.interval
2880
De manera predeterminada, el intervalo de recuperación es 0, pero el administrador de Hadoop puede agregar / modificar la propiedad anterior según los requisitos.

7. ¿Cuáles son los comandos básicos para iniciar y detener demonios de Hadoop?

Responder :
Todos los comandos para iniciar y detener los demonios almacenados en sbin / folder.
./sbin/stop-all.sh - Para detener todos los demonios a la vez.
hadoop-daemon.sh start name node
Nodo de datos de inicio Hadoop-daemon.sh
yarn-daemon.sh, iniciar administrador de recursos
yarn-daemon.sh, iniciar administrador de nodos
mr-jobhistory-daemon.sh iniciar servidor de historial

8. ¿Cuál es la propiedad para definir la asignación de memoria para tareas administradas por YARN?

Responder :
La propiedad "yarn.nodemanager.resource.memory-mb" debe modificarse / agregarse para cambiar la asignación de memoria para todas las tareas que administra YARN.
Especifica la cantidad de RAM en MB. Los nodos de datos requieren que el 70% de la RAM real se use para HILAR. El nodo de datos con 96 GB usará 68 GB para YARN, el resto del RAM es usado por el demonio Data Node para "No-YARN-Work"
Edite el archivo "archivo yarn.xml" y agregue / modifique la siguiente propiedad.
yarn.nodemanager.resource.memory-mb
68608
El valor predeterminado de yarn.nodemanager.resource.memory-mb es 8, 192MB (8GB). Si los nodos de datos tienen una gran capacidad de RAM, debemos cambiar su valor hasta un 70%; de lo contrario, desperdiciaremos nuestra memoria.

9. ¿Cuáles son las recomendaciones para cambiar el tamaño del nodo de nombre?

Responder :
Se recomiendan los siguientes detalles para configurar el Nodo maestro en una etapa muy inicial.
Procesadores: Para procesos, una sola CPU con 6-8 núcleos es suficiente.
Memoria RAM: para el servidor de procesamiento de datos y trabajos debe tener al menos 24-96 GB de RAM.
Almacenamiento: dado que no hay datos HDFS almacenados en el nodo maestro. Puedes 1-2TB como almacenamiento local
Como es difícil decidir futuras cargas de trabajo, diseñe su clúster seleccionando hardware como CPU, RAM y memoria que se pueda actualizar fácilmente con el tiempo.

10. ¿Cuáles son los puertos predeterminados en el clúster de Hadoop?

Responder :

Nombre del demonioPuerto predeterminado no
Nombre de nodo.50070
Nodos de datos.50075
Nodo de nombre secundario.50090
Nodo de copia de seguridad / punto de control.50105
Job Tracker.50030
Rastreadores de tareas.50060

Artículos recomendados

Esta ha sido una guía para la Lista de preguntas y respuestas de la entrevista del grupo de Hadoop para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista del grupo de Hadoop fácilmente. También puede consultar los siguientes artículos para obtener más información:

  1. Preguntas y respuestas de la entrevista Elasticsearch-Top y más útil
  2. 9 increíbles preguntas y respuestas de la entrevista de MapReduce
  3. 8 Guía más útil para las preguntas de la entrevista de Big Data
  4. Preguntas y respuestas de la entrevista ETL que debe saber