Introducción a las preguntas y respuestas de la entrevista administrativa de Hadoop

Por lo tanto, finalmente ha encontrado el trabajo de sus sueños en Hadoop Admin, pero se pregunta cómo descifrar la entrevista de Hadoop Admin y cuáles podrían ser las preguntas de la entrevista de Hadoop Admin. Cada entrevista es diferente y el alcance de un trabajo también es diferente. Teniendo esto en cuenta, hemos diseñado las preguntas y respuestas más comunes de la entrevista administrativa de Hadoop para ayudarlo a tener éxito en su entrevista.

Las siguientes son las preguntas de la entrevista administrativa de Hadoop que lo ayudarán a descifrar una entrevista con Hadoop.

1. ¿Qué es la conciencia del estante? ¿Y por qué es necesario?

Responder:
El reconocimiento de bastidores consiste en distribuir nodos de datos en varios bastidores. El HDFS sigue el algoritmo de reconocimiento de bastidores para colocar los bloques de datos. Un bastidor tiene varios servidores. Y para un clúster, podría haber varios bastidores. Digamos que hay un clúster Hadoop configurado con 12 nodos. Podría haber 3 bastidores con 4 servidores en cada uno. Los 3 bastidores están conectados para que los 12 nodos estén conectados y que formen un clúster. Al decidir sobre el recuento de rack, el punto importante a considerar es el factor de replicación. Si hay 100 GB de datos que fluirán todos los días con el factor de replicación 3. Entonces son 300 GB de datos que tendrán que residir en el clúster. Es una mejor opción tener los datos replicados en los bastidores. Incluso si algún nodo se cae, la réplica estará en otro rack.

2. ¿Cuál es el tamaño de bloque predeterminado y cómo se define?

Responder:
128 MB y se define en hdfs-site.xml y también es personalizable según el volumen de datos y el nivel de acceso. Digamos que 100 GB de datos fluyen en un día, los datos se segregan y almacenan en el clúster. ¿Cuál será el número de archivos? 800 archivos. (1024 * 100/128) (1024 à convirtió un GB a MB). Hay dos formas de configurar el tamaño del bloque de datos personalizado.

  1. hadoop fs -D fs.local.block.size = 134217728 (en bits)
  2. En hdfs-site.xml agregue esta propiedad à block.size con el tamaño de bits.

Si cambia el tamaño predeterminado a 512 MB ya que el tamaño de los datos es enorme, entonces el número de archivos generados será 200. (1024 * 100/512)

3. ¿Cómo se obtiene el informe del sistema de archivos hdfs? ¿Sobre disponibilidad de disco y no. De nodos activos?

Responder:
Comando: sudo -u hdfs dfsadmin –report

Esta es la lista de información que muestra,

  1. Capacidad configurada: capacidad total disponible en hdfs
  2. Capacidad actual: es la cantidad total de espacio asignado para que los recursos residan junto al uso de espacio de metastore y fsimage.
  3. DFS restante: es la cantidad de espacio de almacenamiento aún disponible para que HDFS almacene más archivos
  4. DFS usado: es el espacio de almacenamiento utilizado por HDFS.
  5. DFS utilizado% - En porcentaje
  6. Bajo bloques replicados - No. de bloques
  7. Bloques con réplicas corruptas: si hay bloques dañados
  8. Bloques faltantes
  9. Bloques faltantes (con factor de replicación 1)

4. ¿Qué es el equilibrador de Hadoop y por qué es necesario?

Responder:
Los datos distribuidos entre los nodos no se distribuyen en la proporción correcta, lo que significa que la utilización de cada nodo podría no estar equilibrada. Un nodo podría estar sobreutilizado y el otro podría estar subutilizado. Esto lleva a tener un alto efecto de costo mientras se ejecuta cualquier proceso y terminaría ejecutándose con un uso intensivo de esos nodos. Para resolver esto, se utiliza el equilibrador de Hadoop que equilibrará la utilización de los datos en los nodos. Entonces, cada vez que se ejecuta un equilibrador, los datos se mueven a través de donde se llenan los nodos infrautilizados y se liberan los nodos sobreutilizados.

5. ¿Diferencia entre Cloudera y Ambari?

Responder:

Gerente de ClouderaAmbari
Herramienta de administración para ClouderaHerramienta de administración para obras de Horton
Supervisa y administra todo el clúster e informa el uso y cualquier problemaSupervisa y administra todo el clúster e informa el uso y cualquier problema
Viene con servicio pagado de ClouderaFuente abierta

6. ¿Cuáles son las principales acciones realizadas por el administrador de Hadoop?

Responder:
Supervisar el estado del clúster: hay muchas páginas de aplicaciones que deben supervisarse si se ejecuta algún proceso. (Servidor de historial de trabajos, administrador de recursos YARN, administrador / ambary de Cloudera según la distribución)

activar la seguridad : SSL o Kerberos

Refinar el rendimiento : equilibrador Hadoop

Agregue nuevos nodos de datos según sea necesario : cambios y configuraciones de infraestructura

Opcional para activar el servidor de seguimiento de historial de trabajos de MapReduce à Algunas veces reiniciar los servicios ayudaría a liberar memoria caché. Esto es cuando el clúster con un proceso vacío.

7. ¿Qué es Kerberos?

Responder:
Es una autenticación requerida para que cada servicio se sincronice para ejecutar el proceso. Se recomienda habilitar Kerberos. Como nos ocupamos de la informática distribuida, siempre es una buena práctica tener cifrado al acceder a los datos y procesarlos. A medida que cada nodo está conectado y cualquier pasaje de información es a través de una red. Como Hadoop usa Kerberos, las contraseñas no se envían a través de las redes. En cambio, las contraseñas se utilizan para calcular las claves de cifrado. Los mensajes se intercambian entre el cliente y el servidor. En términos simples, Kerberos proporciona identidad entre sí (nodos) de manera segura con el cifrado.

Configuración en core-site.xml
Hadoop.security.authentication: Kerberos

8. ¿Cuál es la lista importante de comandos hdfs?

Responder:

ComandosPropósito
hdfs dfs –lsPara enumerar los archivos del sistema de archivos hdfs.
Hdfs dfs –putCopie el archivo del sistema local al sistema de archivos hdfs
Hdfs dfs –chmod 777Dar un permiso de lectura, escritura, ejecución al archivo
Hdfs dfs –getCopie el archivo del sistema de archivos hdfs al sistema de archivos local
Hdfs dfs –catVer el contenido del archivo del sistema de archivos hdfs
Hdfs dfs –rmElimine el archivo del sistema de archivos hdfs. Pero se moverá a la ruta del archivo de basura (es como una papelera de reciclaje en Windows)
Hdfs dfs –rm –skipTrashElimina el archivo permanentemente del clúster.
Hdfs dfs –touchzCrear un archivo en el sistema de archivos hdfs

9. ¿Cómo verificar los registros de un trabajo Hadoop enviado en el clúster y cómo finalizar el proceso que ya se está ejecutando?

Responder:
yarn logs –applicationId: el maestro de aplicaciones genera registros en su contenedor y se agregará con la identificación que genera. Esto será útil para monitorear el estado de ejecución del proceso y la información de registro.

yarn application –kill: si un proceso existente que se estaba ejecutando en el clúster necesita ser terminado, se usa el comando kill donde se usa la identificación de la aplicación para terminar el trabajo en el clúster.

Artículo recomendado

Esta ha sido una guía para la Lista de preguntas y respuestas de la entrevista administrativa de Hadoop para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista administrativa de Hadoop fácilmente. También puede consultar los siguientes artículos para obtener más información.

  1. Preguntas y respuestas de la entrevista de Hadoop Cluster: los 10 más útiles
  2. Preguntas de la entrevista de modelado de datos - 10 Pregunta importante
  3. Preguntas de la entrevista del sistema SAS: las 10 preguntas más útiles