Introducción a las preguntas y respuestas de la entrevista de MapReduce

MapReduce es un modelo simple de programación de datos paralelos diseñado para la escalabilidad y la tolerancia a fallas. Podemos decir que MapReduce es un marco, que usa el concepto de nodos para paralelizar los problemas que ocurren en grandes conjuntos de datos, si son redes locales, usa el mismo hardware y si MapReduce está distribuido geográficamente, usa hardware diferente, respectivamente. MapReduce se compone esencialmente de la función Map () y la función Reduce (). Se hizo popular por el proyecto de código abierto Hadoop.

A continuación se presentan las 9 preguntas y respuestas importantes de la entrevista MapReduce 2019:

Si está buscando un trabajo relacionado con MapReduce, debe prepararse para las preguntas de la entrevista de MapReduce 2019. Aunque cada entrevista de MapReduce es diferente y el alcance de un trabajo también es diferente, podemos ayudarlo con las principales preguntas de la entrevista de MapReduce con respuestas, que lo ayudarán a dar el salto y lograr el éxito en su entrevista.

Estas preguntas se dividen en dos partes son las siguientes:

Parte 1 - Preguntas de la entrevista de MapReduce (Básico)

Esta primera parte cubre preguntas y respuestas básicas de la entrevista de MapReduce.

1. ¿Qué es MapReduce?

Responder:
MapReduce es un modelo simple de programación de datos paralelos diseñado para la escalabilidad y la tolerancia a fallas. En otras palabras, es un marco que procesa problemas paralelizables en grandes conjuntos de datos utilizando el concepto de nodos (la cantidad de computadoras) que a su vez se clasifican como grupos si es una red local y utiliza el mismo hardware o cuadrículas si están distribuidos geográficamente y utilizan diferentes hardware. El MapReduce se compone esencialmente de una función Map () y una función Reduce (). Fue pionero de Google y procesa muchos petabytes de datos todos los días. Se hizo popular por el proyecto de código abierto Hadoop y se usa en Yahoo, Facebook y Amazon, por nombrar algunos.

2. ¿Para qué se utiliza MapReduce-By Company?

Responder:
Google
• Construcción de índice para la búsqueda de Google
El proceso de construcción de un índice posicional o no posicional se denomina construcción de índice o indexación. El papel de MapReduce es Index Construction y está diseñado para grandes grupos de computadoras. El propósito del clúster es resolver problemas computacionales para nodos o computadoras que están construidas con partes estándar en lugar de una supercomputadora.
• Agrupación de artículos para Google News
Para la agrupación de artículos, las páginas se clasifican primero según sean necesarias para la agrupación. Las páginas incluyen mucha información que no es necesaria para la agrupación. Luego, el artículo se lleva a su forma vectorial en función de las palabras clave y el peso que se le da. Luego se agrupan utilizando algoritmos.
• Traducción automática estadística
La traducción de corpus de texto bilingües mediante análisis genera modelos estadísticos que traducen un idioma a otro utilizando pesos y se reduce a la traducción más probable.
Yahoo
• "Mapa web" que impulsa Yahoo! Buscar
Similar al agrupamiento de artículos para Google News, MapReduce se usa para agrupar resultados de búsqueda en Yahoo! Plataforma.
• Detección de spam para Yahoo! Correo
Facebook
•Procesamiento de datos
La reciente tendencia de explosión de datos ha resultado en la necesidad de métodos sofisticados para dividir los datos en fragmentos que puedan usarse fácilmente para el siguiente paso de análisis.
• d Optimización
• Detección de spam

Pasemos a las siguientes preguntas de la entrevista de MapReduce.

3. ¿Cuáles son los objetivos de diseño de MapReduce?

Responder:
Escalabilidad a grandes volúmenes de datos.
Dado que MapReduce es un marco cuyo objetivo es trabajar con datos paralelizables utilizando el concepto de nodos que son la cantidad de computadoras, ya sea como grupos o cuadrículas, es escalable a n cantidad de máquinas de computadora. Entonces, un objetivo de diseño destacado de MapReduce es que es escalable a miles de máquinas y, por lo tanto, a 10, 000 de discos.
Rentabilidad
Como MapReduce trabaja con datos paralelos en los nodos o en la cantidad de computadoras, las siguientes son las razones que lo hacen rentable:
-Máquinas de productos básicos baratas en lugar de una supercomputadora. Aunque baratos, no son confiables.
Red de productos básicos
- Tolerancia a fallos automática, es decir, se requieren menos administradores.
-Es fácil de usar, es decir, requiere menos programadores.

4. ¿Cuáles son los desafíos de MapReduce?

Responder:
Estas son las preguntas comunes de la entrevista MapReduce realizadas en una entrevista. Los principales desafíos de MapReduce son los siguientes:
-Los nodos baratos fallan, especialmente si tiene muchos
El tiempo medio entre fallas para 1 nodo es igual a 3 años. El tiempo medio entre fallas para 1000 nodos es igual a 1 día. La solución es construir tolerancia a fallas en el sistema mismo.
-La red de productos básicos es igual o implica un ancho de banda bajo
La solución para un ancho de banda bajo es impulsar el cálculo a los datos.
-Programación de sistemas distribuidos son difíciles
La solución para esto es que, de acuerdo con el modelo de programación de datos paralelos, los usuarios escriben funciones de "mapa" y "reducción". El sistema distribuye el trabajo y maneja las fallas.

5. ¿Cuál es el modelo de programación MapReduce?

Responder:
El modelo de programación MapReduce se basa en un concepto llamado registros clave-valor. También proporciona paradigmas para el procesamiento de datos en paralelo. Para procesar los datos en MapReduce, tanto los datos de entrada como los de salida deben asignarse al formato de múltiples pares clave-valor. El par clave-valor único también se conoce como registro. El modelo de programación MapReduce consta de una función Map () y una función Reducir. El modelo para estos es el siguiente.
Función Map (): (K in, V in) list (K inter, V inter)
Función Reducir (): (K inter, list (V inter)) list (K out, V out)

Parte 2 - Preguntas de la entrevista de MapReduce (Avanzado)

Veamos ahora las preguntas avanzadas de la entrevista de MapReduce.

6. ¿Cuáles son los detalles de ejecución de MapReduce?

Responder:
En el caso de la ejecución de MapReduce, un solo maestro controla la ejecución del trabajo en múltiples esclavos. Se prefiere que los mapeadores se coloquen en el mismo nodo o en el mismo bastidor que su bloque de entrada para minimizar el uso de la red. Además, los mapeadores guardan las salidas en el disco local antes de servirlas a los reductores. Esto permite la recuperación si un reductor falla y permite más reductores que nodos.

7. ¿Qué es un combinador?

Responder:
El combinador, que también se conoce como semi-reductor, opera aceptando entradas de la clase Map y pasando los pares clave-valor de salida a la clase Reductor. La función principal de un combinador es resumir los registros de salida del mapa con la misma clave. En otras palabras, un combinador es una función de agregación local para claves repetidas producidas por el mismo mapa. Funciona para funciones asociativas como SUM, COUNT y MAX. Disminuye el tamaño de los datos intermedios, ya que es un resumen de la agregación de valores para todas las claves repetitivas.

Pasemos a las siguientes preguntas de la entrevista de MapReduce.

8. ¿Por qué cerdo? ¿Por qué no MapReduce?

Responder:
• MapReduce le permite al programador llevar a cabo una función de mapa seguida de una función de reducción, pero trabajar en cómo ajustar su procesamiento de datos en este patrón, que a menudo requiere múltiples etapas de MapReduce, puede ser un desafío.
• Con Pig, las estructuras de datos son mucho más ricas, ya que tienen valores múltiples y están anidadas, y el conjunto de transformaciones que puede aplicar a los datos es mucho más poderoso. Por ejemplo, incluyen combinaciones que no son posibles en MapReduce.
• Además, Pig es un programa que convierte la transformación en una serie de trabajos de MapReduce.

9.Reduce las críticas del mapa

Responder:
Una crítica destacada de MapReduce es que el ciclo de desarrollo es muy largo. Escribir los mapeadores y reductores, compilar y empaquetar el código, enviar el trabajo y recuperar los resultados lleva mucho tiempo. Incluso con la transmisión, que elimina el paso de compilación y paquete, la experiencia todavía lleva mucho tiempo.

Artículo recomendado

Esta ha sido una guía para la lista de preguntas y respuestas de la entrevista de MapReduce para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista de MapReduce fácilmente. También puede consultar los siguientes artículos para obtener más información:

  1. Preguntas importantes de la entrevista de análisis de datos
  2. 10 preguntas de la mejor entrevista de patrones de diseño
  3. Preguntas de la entrevista de Elasticsearch
  4. Preguntas de la entrevista de Ruby más útiles
  5. Cómo funciona MapReduce