Preguntas de la entrevista administrativa de Hadoop - Más útil y más solicitado

Introducción a las preguntas y respuestas de la entrevista administrativa de Hadoop

Por lo tanto, finalmente ha encontrado el trabajo de sus sueños en Hadoop Admin, pero se pregunta cómo descifrar la entrevista de Hadoop Admin y cuáles podrían ser las preguntas de la entrevista de Hadoop Admin. Cada entrevista es diferente y el alcance de un trabajo también es diferente. Teniendo esto en cuenta, hemos diseñado las preguntas y respuestas más comunes de la entrevista administrativa de Hadoop para ayudarlo a tener éxito en su entrevista.

Las siguientes son las preguntas de la entrevista administrativa de Hadoop que lo ayudarán a descifrar una entrevista con Hadoop.

1. ¿Qué es la conciencia del estante? ¿Y por qué es necesario?

Responder:
El reconocimiento de bastidores consiste en distribuir nodos de datos en varios bastidores. El HDFS sigue el algoritmo de reconocimiento de bastidores para colocar los bloques de datos. Un bastidor tiene varios servidores. Y para un clúster, podría haber varios bastidores. Digamos que hay un clúster Hadoop configurado con 12 nodos. Podría haber 3 bastidores con 4 servidores en cada uno. Los 3 bastidores están conectados para que los 12 nodos estén conectados y que formen un clúster. Al decidir sobre el recuento de rack, el punto importante a considerar es el factor de replicación. Si hay 100 GB de datos que fluirán todos los días con el factor de replicación 3. Entonces son 300 GB de datos que tendrán que residir en el clúster. Es una mejor opción tener los datos replicados en los bastidores. Incluso si algún nodo se cae, la réplica estará en otro rack.

2. ¿Cuál es el tamaño de bloque predeterminado y cómo se define?

Responder:
128 MB y se define en hdfs-site.xml y también es personalizable según el volumen de datos y el nivel de acceso. Digamos que 100 GB de datos fluyen en un día, los datos se segregan y almacenan en el clúster. ¿Cuál será el número de archivos? 800 archivos. (1024 * 100/128) (1024 à convirtió un GB a MB). Hay dos formas de configurar el tamaño del bloque de datos personalizado.

hadoop fs -D fs.local.block.size = 134217728 (en bits)
En hdfs-site.xml agregue esta propiedad à block.size con el tamaño de bits.

Si cambia el tamaño predeterminado a 512 MB ya que el tamaño de los datos es enorme, entonces el número de archivos generados será 200. (1024 * 100/512)

3. ¿Cómo se obtiene el informe del sistema de archivos hdfs? ¿Sobre disponibilidad de disco y no. De nodos activos?

Responder:
Comando: sudo -u hdfs dfsadmin –report

Esta es la lista de información que muestra,

Capacidad configurada: capacidad total disponible en hdfs
Capacidad actual: es la cantidad total de espacio asignado para que los recursos residan junto al uso de espacio de metastore y fsimage.
DFS restante: es la cantidad de espacio de almacenamiento aún disponible para que HDFS almacene más archivos
DFS usado: es el espacio de almacenamiento utilizado por HDFS.
DFS utilizado% - En porcentaje
Bajo bloques replicados - No. de bloques
Bloques con réplicas corruptas: si hay bloques dañados
Bloques faltantes
Bloques faltantes (con factor de replicación 1)

4. ¿Qué es el equilibrador de Hadoop y por qué es necesario?

Responder:
Los datos distribuidos entre los nodos no se distribuyen en la proporción correcta, lo que significa que la utilización de cada nodo podría no estar equilibrada. Un nodo podría estar sobreutilizado y el otro podría estar subutilizado. Esto lleva a tener un alto efecto de costo mientras se ejecuta cualquier proceso y terminaría ejecutándose con un uso intensivo de esos nodos. Para resolver esto, se utiliza el equilibrador de Hadoop que equilibrará la utilización de los datos en los nodos. Entonces, cada vez que se ejecuta un equilibrador, los datos se mueven a través de donde se llenan los nodos infrautilizados y se liberan los nodos sobreutilizados.

5. ¿Diferencia entre Cloudera y Ambari?

Responder:

Gerente de Cloudera	Ambari
Herramienta de administración para Cloudera	Herramienta de administración para obras de Horton
Supervisa y administra todo el clúster e informa el uso y cualquier problema	Supervisa y administra todo el clúster e informa el uso y cualquier problema
Viene con servicio pagado de Cloudera	Fuente abierta

6. ¿Cuáles son las principales acciones realizadas por el administrador de Hadoop?

Responder:
Supervisar el estado del clúster: hay muchas páginas de aplicaciones que deben supervisarse si se ejecuta algún proceso. (Servidor de historial de trabajos, administrador de recursos YARN, administrador / ambary de Cloudera según la distribución)

activar la seguridad : SSL o Kerberos

Refinar el rendimiento : equilibrador Hadoop

Agregue nuevos nodos de datos según sea necesario : cambios y configuraciones de infraestructura

Opcional para activar el servidor de seguimiento de historial de trabajos de MapReduce à Algunas veces reiniciar los servicios ayudaría a liberar memoria caché. Esto es cuando el clúster con un proceso vacío.

7. ¿Qué es Kerberos?

Responder:
Es una autenticación requerida para que cada servicio se sincronice para ejecutar el proceso. Se recomienda habilitar Kerberos. Como nos ocupamos de la informática distribuida, siempre es una buena práctica tener cifrado al acceder a los datos y procesarlos. A medida que cada nodo está conectado y cualquier pasaje de información es a través de una red. Como Hadoop usa Kerberos, las contraseñas no se envían a través de las redes. En cambio, las contraseñas se utilizan para calcular las claves de cifrado. Los mensajes se intercambian entre el cliente y el servidor. En términos simples, Kerberos proporciona identidad entre sí (nodos) de manera segura con el cifrado.

Configuración en core-site.xml
Hadoop.security.authentication: Kerberos

8. ¿Cuál es la lista importante de comandos hdfs?

Responder:

Comandos	Propósito
hdfs dfs –ls	Para enumerar los archivos del sistema de archivos hdfs.
Hdfs dfs –put	Copie el archivo del sistema local al sistema de archivos hdfs
Hdfs dfs –chmod 777	Dar un permiso de lectura, escritura, ejecución al archivo
Hdfs dfs –get	Copie el archivo del sistema de archivos hdfs al sistema de archivos local
Hdfs dfs –cat	Ver el contenido del archivo del sistema de archivos hdfs
Hdfs dfs –rm	Elimine el archivo del sistema de archivos hdfs. Pero se moverá a la ruta del archivo de basura (es como una papelera de reciclaje en Windows)
Hdfs dfs –rm –skipTrash	Elimina el archivo permanentemente del clúster.
Hdfs dfs –touchz	Crear un archivo en el sistema de archivos hdfs

9. ¿Cómo verificar los registros de un trabajo Hadoop enviado en el clúster y cómo finalizar el proceso que ya se está ejecutando?

Responder:
yarn logs –applicationId: el maestro de aplicaciones genera registros en su contenedor y se agregará con la identificación que genera. Esto será útil para monitorear el estado de ejecución del proceso y la información de registro.

yarn application –kill: si un proceso existente que se estaba ejecutando en el clúster necesita ser terminado, se usa el comando kill donde se usa la identificación de la aplicación para terminar el trabajo en el clúster.

Artículo recomendado

Esta ha sido una guía para la Lista de preguntas y respuestas de la entrevista administrativa de Hadoop para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista administrativa de Hadoop fácilmente. También puede consultar los siguientes artículos para obtener más información.

Preguntas y respuestas de la entrevista de Hadoop Cluster: los 10 más útiles
Preguntas de la entrevista de modelado de datos - 10 Pregunta importante
Preguntas de la entrevista del sistema SAS: las 10 preguntas más útiles

Preguntas de la entrevista administrativa de Hadoop - Más útil y más solicitado

Tabla de contenido:

Introducción a las preguntas y respuestas de la entrevista administrativa de Hadoop

1. ¿Qué es la conciencia del estante? ¿Y por qué es necesario?

2. ¿Cuál es el tamaño de bloque predeterminado y cómo se define?

3. ¿Cómo se obtiene el informe del sistema de archivos hdfs? ¿Sobre disponibilidad de disco y no. De nodos activos?

4. ¿Qué es el equilibrador de Hadoop y por qué es necesario?

5. ¿Diferencia entre Cloudera y Ambari?

6. ¿Cuáles son las principales acciones realizadas por el administrador de Hadoop?

7. ¿Qué es Kerberos?

8. ¿Cuál es la lista importante de comandos hdfs?

9. ¿Cómo verificar los registros de un trabajo Hadoop enviado en el clúster y cómo finalizar el proceso que ya se está ejecutando?

Artículo recomendado

Fórmula de reconciliación bancaria - Ejemplos con plantilla de Excel

Los mejores bancos en Bermudas - Guía completa de los 4 mejores bancos en Bermudas

Bancos en Bélgica - Resumen de los 10 bancos principales en Bélgica

Balance general Formula - Calculadora (plantilla de Excel)

Bancos en Austria - Guía completa de los 8 mejores bancos en Austria

Carrera en RedHat - Educacion - Salario - Empleos - Perspectivas

Carrera en Selenium - Educación y Empleos - Salario - Perspectivas de carrera

Carrera en SEO - Por qué deberías considerar comenzar una carrera en SEO

Carrera en Gestión de la Cadena de Suministro - Educación y salario - Perspectivas

Carrera en Spark - Educacion - Salario - Empleos - Perspectivas

Prince2 en Gestión de Proyectos - Características clave y beneficios de Prince2

Principios Prince2 - Aprenda los 7 principios principales de Prince2

Número primo en C ++ - Encuentra números primos usando varios métodos

Principios del Manifiesto Ágil - Descubre los 12 principios del manifiesto ágil

Principios de la animación - Comprender los doce principios básicos principales