Preguntas de la entrevista de Spark - Las 12 preguntas principales actualizadas para 2018

Tabla de contenido:

Anonim

Introducción a Spark Preguntas y respuestas de la entrevista

Apache Spark es un marco de código abierto. Spark, como es una plataforma de código abierto, podemos usar múltiples lenguajes de programación como java, python, Scala, R. En comparación con el rendimiento del proceso Map-Reduce, spark ayuda a mejorar el rendimiento de la ejecución. También proporciona una ejecución en memoria 100 veces más rápida que Map-Reduce. Debido al poder de procesamiento de la chispa hoy en día, las industrias prefieren la chispa.

Así que finalmente ha encontrado el trabajo de sus sueños en Spark, pero se pregunta cómo descifrar la entrevista de Spark y cuáles podrían ser las posibles preguntas de la entrevista de Spark para 2018. Cada entrevista es diferente y el alcance de un trabajo también es diferente. Teniendo esto en cuenta, hemos diseñado las preguntas y respuestas más frecuentes de Spark Interview para 2018 para ayudarlo a tener éxito en su entrevista.

Estas preguntas se dividen en dos partes.

Parte 1 - Preguntas de la entrevista de Spark (Básico)

Esta primera parte cubre preguntas y respuestas básicas de la entrevista de Spark

1. ¿Qué es Spark?

Responder:
Apache Spark es un marco de código abierto. Mejora el rendimiento de ejecución que el proceso Map-Reduce. Es una plataforma abierta donde podemos usar múltiples lenguajes de programación como Java, Python, Scala, R. Spark proporciona una ejecución en memoria que es 100 veces más rápida que Map-Reduce. Utiliza el concepto de RDD. RDD es un conjunto de datos distribuido resistente que le permite almacenar datos de forma transparente en la memoria y persistirlos en el disco solo si es necesario. Aquí es donde reducirá el tiempo de acceso a los datos desde la memoria en lugar del disco. Hoy la industria prefiere Spark por su poder de procesamiento.

2.Diferencia entre Hadoop y Spark?

Responder:

Criterios de característicasApache SparkHadoop
Velocidad10 a 100 veces más rápido que HadoopVelocidad normal
ProcesandoProcesamiento por lotes y en tiempo real, en memoria, almacenamiento en cachéSolo procesamiento por lotes, depende del disco
DificultadFácil debido a los módulos de alto nivel.Difícil de aprender
RecuperaciónPermite la recuperación de particiones usando RDDTolerante a fallos
InteractividadTiene modos interactivos, interactivosSin modo interactivo excepto Pig & Hive, sin modo iterativo

La arquitectura normal de Hadoop sigue Map-Reduce básico. Para el mismo proceso, spark proporciona ejecución en memoria. En lugar de leer y escribir desde el disco duro para Map-Reduce, spark proporciona lectura y escritura desde la memoria virtual.

Pasemos a las siguientes preguntas de la entrevista de Spark

3. ¿Cuáles son las características de Spark?

Responder:

  1. Proporcione la facilidad de integración con Hadoop y Files en HDFS. Spark puede ejecutarse sobre Hadoop usando el agrupamiento de recursos YARN. Spark tiene la capacidad de reemplazar el motor Map-Reduce de Hadoop.
  2. Polyglot: Spark Proporciona API de alto nivel para Java, Python, Scala y R. El código de Spark se puede escribir en cualquiera de estos cuatro idiomas. TI proporciona un shell independiente para la escala (el lenguaje en el que se escribe Spark) y un intérprete de Python. ¿Qué ayudará a interactuar con el motor de chispa? Se puede acceder a Scala shell a través de ./bin/spark-shell y Python shell a través de ./bin/pyspark desde el directorio instalado.
  3. Velocidad: el motor Spark es 100 veces más rápido que Hadoop Map-Reduce para el procesamiento de datos a gran escala. La velocidad se logrará mediante particiones para paralelizar el procesamiento de datos distribuidos con un tráfico de red mínimo. Spark Proporciona RDD (conjuntos de datos distribuidos resilientes), que se pueden almacenar en caché a través de nodos de computación en un clúster
  4. Múltiples formatos: Spark tiene una API de fuente de datos. Proporcionará un mecanismo para acceder a datos estructurados a través de spark SQL. Las fuentes de datos pueden ser cualquier cosa, Spark solo creará un mecanismo para convertir los datos y llevarlos a la chispa. Spark admite múltiples fuentes de datos como Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark proporciona algunas bibliotecas incorporadas para realizar múltiples tareas desde el mismo núcleo, como el procesamiento por lotes, el vapor, el aprendizaje automático, las consultas interactivas de SQL. Sin embargo, Hadoop solo admite el procesamiento por lotes. Spark Proporciona MLIb (bibliotecas de aprendizaje automático) que serán útiles para que Big-Data Developer procese los datos. Esto ayuda a eliminar dependencias en múltiples herramientas para diferentes propósitos. Spark proporciona una potente plataforma común para ingenieros de datos y científicos de datos con un rendimiento rápido y fácil de usar.
  6. Apache Spark retrasa la ejecución del proceso hasta que la acción sea necesaria. Esta es una de las características clave de la chispa. Spark agregará cada transformación al DAG (Gráfico Acíclico Directo) para su ejecución, y cuando la acción quiera ejecutarse, en realidad activará el procesamiento del DAG.
  7. Streaming en tiempo real: Apache Spark proporciona cálculos en tiempo real y baja latencia, debido a la ejecución en memoria. Spark está diseñado para grandes escalas como mil nodos del clúster y varios modelos para cálculos.

4. ¿Qué es HILO?

Responder:
Estas son las preguntas básicas de la entrevista de Spark formuladas en una entrevista. YARN (Yet Another Resource Negotiator) es el administrador de recursos. Spark es una plataforma que proporciona una ejecución rápida. Spark usará YARN para la ejecución del trabajo en el clúster, en lugar de su propio administrador incorporado. Hay algunas configuraciones para ejecutar Yarn. Incluyen maestro, modo de despliegue, memoria de controlador, memoria de ejecutor, núcleos de ejecutor y cola. Estas son las preguntas comunes de la entrevista de Spark que se hacen en una entrevista a continuación son las ventajas de la chispa:

Ventajas de Spark sobre Map-Reduce

Spark tiene ventajas sobre Map-Reduce de la siguiente manera: -
Debido a la capacidad del proceso en memoria, Spark puede ejecutar entre 10 y 100 veces más rápido que Map-Reduce. Donde Map-Reduce puede usarse para la persistencia de datos en la etapa Map and Reduce.

Apache Spark proporciona un alto nivel de bibliotecas incorporadas para procesar múltiples tareas al mismo tiempo que el procesamiento por lotes, la transmisión en tiempo real, Spark-SQL, la transmisión estructurada, MLib, etc. Al mismo tiempo, Hadoop solo proporciona el procesamiento por lotes.
El proceso Hadoop Map-Reduce dependerá del disco, donde Spark proporciona almacenamiento en caché y en memoria.

Spark tiene tanto iterativo, realiza múltiples cálculos en el mismo conjunto de datos e interactivo, realiza cómputo entre diferentes conjuntos de datos donde Hadoop no admite el cálculo iterativo.

5. ¿Cuál es el idioma compatible con Spark?

Responder:
Spark admite scala, Python, R y Java. En el mercado, el desarrollador de big data prefiere principalmente scala y python. Para que una escala compile el código, necesitamos establecer la ruta del directorio scale / bin o hacer un archivo jar.

6. ¿Qué es RDD?

Responder:
RDD es una abstracción del conjunto de datos distribuidos resilientes, que proporciona una colección de elementos particionados en todos los nodos del clúster que ayudará a ejecutar múltiples procesos en paralelo. El uso del desarrollador RDD puede almacenar los datos en memoria o en caché, para ser reutilizados de manera eficiente para la ejecución paralela de operaciones. RDD se puede recuperar fácilmente de la falla del nodo.

Parte 2 - Preguntas de la entrevista de Spark (Avanzado)

Veamos ahora las preguntas avanzadas de la entrevista de Spark.

7. ¿Cuáles son los factores responsables de la ejecución de Spark?

Responder:
1. Spark proporciona ejecución en memoria en lugar de depender del disco como Hadoop Map-Reduce.
2.RDD Dataset distribuido resistente, que es una ejecución paralela responsable de múltiples operaciones en todos los nodos de un clúster.
3. Spark proporciona una característica variable compartida para ejecución paralela. Estas variables ayudan a reducir la transferencia de datos entre nodos y comparten una copia de todos los nodos. Hay dos variables
4.Variable de difusión: esta variable se puede usar para almacenar en caché un valor en la memoria en todos los nodos
5. Variable de acumuladores: esta variable solo se "agrega", como contadores y sumas.

8. ¿Qué es la memoria del ejecutor?

Responder:
Estas son las preguntas frecuentes de la entrevista de Spark en una entrevista. Es el tamaño de almacenamiento dinámico asignado para el ejecutor de chispas. Esta propiedad puede controlarse mediante la propiedad spark.executor.memory del indicador –executor-memory. Cada aplicación Spark tiene un ejecutor para cada nodo de trabajo. Esta propiedad se refiere a la cantidad de memoria de los nodos de trabajo se asignará a una aplicación.

9. ¿Cómo se usa Spark Stream? ¿Explicar un caso de uso?

Responder:
Spark Stream es una de las características útiles para un caso de uso en tiempo real. Podemos usar el canal, Kafka con una chispa para este propósito. Flume activará los datos de una fuente. Kafka persistirá los datos en el tema. Desde Kafka, Spark extraerá los datos utilizando la transmisión y los transmitirá en D y realizará la transformación.

Podemos utilizar este proceso para una transacción sospechosa en tiempo real, ofertas en tiempo real, etc.

Pasemos a las siguientes preguntas de la entrevista de Spark

10. ¿Podemos usar Spark para el proceso ETL?

Responder:
Sí, podemos usar la plataforma de chispa para el proceso ETL.

11. ¿Qué es Spark SQL?

Responder:
Es un componente especial de spark que admitirá consultas SQL.

12. ¿Qué evaluación perezosa?

Responder:
Cuando estamos trabajando con una chispa, las transformaciones no se evalúan hasta que realice una acción. Esto ayuda a optimizar el flujo de trabajo general del procesamiento de datos. Al definir la transformación, se agregará al DAG (Gráfico Acíclico Directo). Y en el momento de la acción comenzará a ejecutar transformaciones paso a paso. Esta es la útil pregunta de la entrevista de Spark formulada en una entrevista.

Artículo recomendado

Esta ha sido una guía para la Lista de preguntas y respuestas de la entrevista de Spark para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista de Spark fácilmente. También puede consultar los siguientes artículos para obtener más información.

  1. Java vs Node JS simplificando las diferencias
  2. Mongo Database Preguntas de la entrevista | Útil y más solicitado
  3. Las 15 preguntas y respuestas más exitosas de la entrevista R
  4. Perl Entrevista Preguntas y respuestas
  5. Preguntas de la entrevista del sistema SAS: las 10 preguntas más útiles