Introducción a las preguntas y respuestas de la entrevista de Apache PIG

Entonces, finalmente ha encontrado el trabajo de sus sueños en Apache PIG, pero nos preguntamos cómo descifrar la entrevista de Apache PIG 2019 y cuáles podrían ser las preguntas probables de la entrevista de Apache PIG. Cada entrevista de Apache PIG es diferente y el alcance de un trabajo también es diferente. Teniendo esto en mente, hemos diseñado las preguntas y respuestas más comunes de la entrevista de Apache PIG para ayudarlo a tener éxito en su entrevista de Apache PIG.

La siguiente es la lista de preguntas de la entrevista de Apache PIG 2019 que se hacen principalmente

1. ¿Cuáles son las diferencias clave entre MapReduce y Apache Pig?

Responder:
Las siguientes son las diferencias clave entre Apache Pig y MapReduce debido a que Apache Pig entró en escena:
• MapReduce es un modelo de procesamiento de datos de bajo nivel, mientras que Apache Pig es una plataforma de flujo de datos de alto nivel.
• Sin escribir las complejas implementaciones de Java en MapReduce, los programadores pueden lograr las mismas implementaciones fácilmente usando Pig Latin.
• Apache Pig proporciona tipos de datos anidados como bolsas, tuplas y mapas, ya que faltan en MapReduce.
• Pig admite las operaciones de datos como filtros, uniones, pedidos, clasificación, etc. con muchos operadores integrados. Mientras que realizar la misma función en MapReduce es una tarea inmensa.

2. Explica los usos de MapReduce en Pig.

Responder:
Los programas de Apache Pig están escritos en un lenguaje de consulta conocido como Pig Latin, que es similar al lenguaje de consulta SQL. Para ejecutar una consulta, es necesario un motor de ejecución. Y el motor Pig convierte las consultas en trabajos de MapReduce y, por lo tanto, MapReduce actúa como motor de ejecución y es necesario para ejecutar los programas.

3. Explica los usos del cerdo.

Responder:
Podemos usar el cerdo en tres categorías, son:
• Canalización de datos ETL: ayuda a llenar nuestro almacén de datos. Pig puede canalizar los datos a una aplicación externa, esperará hasta que haya terminado para recibir los datos procesados ​​y continuar desde allí. Es el caso de uso más común para Pig.
• Investigación sobre datos en bruto.
• Procesamiento iterativo.

4. Compare Apache Pig y SQL.

Responder:
• Apache Pig difiere de SQL en su uso para ETL, evaluación diferida, almacenamiento de datos en cualquier momento dado en la tubería, soporte para divisiones de tubería y declaración explícita de planes de ejecución. SQL (lenguaje de consulta estructural) está orientado a consultas que producen un único resultado. SQL no tiene un mecanismo incorporado para dividir el flujo de procesamiento de datos y aplicar diferentes operadores a cada flujo secundario.
• Apache Pig permite que el código de usuario se incluya en cualquier punto de la tubería, mientras que si SQL, donde se utilizarán los datos, primero debe importarse a la base de datos y luego comienza el proceso de limpieza y transformación.

5. Explicar sobre los diferentes tipos de datos complejos en Pig.

Responder:
Apache Pig admite tres tipos de datos complejos:
• Mapas: se trata de almacenes clave de valor unidos mediante #.
Ejemplo: ('ciudad' # 'pune', 'pin' # 411045) • Tuplas: similar a la fila de una tabla, donde los diferentes elementos están separados por una coma. Las tuplas pueden tener múltiples atributos.
• Bolsas: una colección desordenada de tuplas. La bolsa permite múltiples tuplas duplicadas.
Ejemplo: (('Mumbai', 022), ('Nueva Delhi', 011), ('Kolkata', 44))

6. Explique los diferentes modelos de ejecución disponibles en Pig.

Responder:
Tres modos de ejecución diferentes disponibles en Pig son,
• Modo interactivo o modo Grunt.
Modo interactivo o modo gruñido: el shell interactivo de Pig se conoce como grunt shell. Si no se especifica ningún archivo para ejecutarse en Pig, se iniciará.
• Modo por lotes o modo de secuencia de comandos.
Pig ejecuta los comandos especificados en el archivo de script.
• Modo integrado
Podemos incrustar programas Pig en Java y podemos ejecutar los programas desde Java.

7. Explicar sobre los planes de ejecución (plan lógico y físico) de un script de Pig

Responder:
Los planes lógicos y físicos se crean durante la ejecución de un script de cerdo. Los guiones de Pig se basan en la verificación de intérpretes. El plan lógico se produce mediante la comprobación semántica y el análisis básico y no se realiza ningún procesamiento de datos durante la creación de un plan lógico. Para cada línea en el script Pig, la verificación de sintaxis se realiza para los operadores y se crea un plan lógico. Cada vez que se encuentra un error dentro del script, se produce una excepción y finaliza la ejecución del programa; de lo contrario, cada instrucción del script tiene su propio plan lógico.
Un plan lógico contiene la colección de operadores en el script pero no contiene los bordes entre los operadores.
Después de que se genera el plan lógico, la ejecución del script se mueve al plan físico donde hay una descripción de los operadores físicos que utilizará Apache Pig para ejecutar el script de Pig. Un plan físico es más o menos como una serie de trabajos de MapReduce, pero el plan no tiene ninguna referencia sobre cómo se ejecutará en MapReduce. Durante la creación de un plan físico, el operador lógico de cogrupo se convierte en 3 operadores físicos, a saber: reordenamiento local, reordenamiento global y paquete. Las funciones de carga y almacenamiento generalmente se resuelven en el plan físico.

8. ¿Cuáles son las herramientas de depuración utilizadas para los scripts de Apache Pig?

Responder:
Describir y explicar son las utilidades de depuración importantes en Apache Pig.
• La utilidad Explain es útil para los desarrolladores de Hadoop cuando intentan depurar errores u optimizar los scripts de PigLatin. Explicación puede aplicarse a un alias en particular en el script o puede aplicarse a todo el script en el shell interactivo gruñido. La utilidad de explicación produce varios gráficos en formato de texto que se pueden imprimir en un archivo.
• Describir la utilidad de depuración es útil para los desarrolladores al escribir scripts de Pig, ya que muestra el esquema de una relación en el script. Para los principiantes que están tratando de aprender, Apache Pig puede usar la utilidad describe para comprender cómo cada operador realiza modificaciones en los datos. Un script de cerdo puede tener múltiples descripciones.

9. ¿Cuáles son algunos de los casos de uso de Apache Pig que se te ocurren?

Responder:
• La herramienta de big data de Apache Pig se utiliza en particular para el procesamiento iterativo, la investigación de datos sin procesar y para las canalizaciones de datos ETL tradicionales. Como Pig puede operar en circunstancias en las que el esquema no se conoce, es inconsistente o está incompleto, es ampliamente utilizado por investigadores que desean hacer uso de los datos antes de limpiarlos y cargarlos en el almacén de datos.
• Para construir modelos de predicción de comportamiento, por ejemplo, puede ser utilizado por un sitio web para rastrear la respuesta de los visitantes a varios tipos de anuncios, imágenes, artículos, etc.

10. Resalte la diferencia entre los operadores de grupo y de grupo en Pig.

Responder:
Ambos operadores pueden trabajar con una o más relaciones. Los operadores de grupo y de grupo son idénticos. El operador del grupo recopila todos los registros con la misma clave. Cogroup es una combinación de grupo y unión, es una generalización de un grupo en lugar de recopilar registros de una entrada depende de una clave, recopila registros de n entradas en función de una clave. A la vez podemos agrupar hasta 127 relaciones.

Artículos recomendados

Esta ha sido una guía para la lista de preguntas y respuestas de la entrevista de Apache PIG para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista de Apache PIG fácilmente. Este artículo consta de todas las preguntas y respuestas útiles de la entrevista PIG de Apache que lo ayudarán en una entrevista. También puede consultar los siguientes artículos para obtener más información:

  1. Apache Pig vs Apache Hive
  2. Las 10 preguntas más difíciles de la entrevista
  3. 8 pasos efectivos para prepararse para una entrevista interna
  4. Consejos importantes para sobrevivir a la entrevista del panel (útil)