Instalar Spark - Guía completa sobre la instalación de Spark

¿Cómo instalar Spark?

Spark es un marco de código abierto para ejecutar aplicaciones de análisis. Es un motor de procesamiento de datos alojado en Apache Software Foundation independiente del proveedor para trabajar en grandes conjuntos de datos o big data. Es un sistema de computación en clúster de propósito general que proporciona API de alto nivel en Scala, Python, Java y R. Fue desarrollado para superar las limitaciones en el paradigma MapReduce de Hadoop. Los científicos de datos creen que Spark se ejecuta 100 veces más rápido que MapReduce, ya que puede almacenar datos en la memoria caché, mientras que MapReduce funciona más leyendo y escribiendo en discos. Realiza el procesamiento en memoria que lo hace más potente y rápido.

Spark no tiene su propio sistema de archivos. Procesa datos de diversas fuentes de datos como Hadoop Distributed File System (HDFS), el sistema S3 de Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Puede ejecutarse en Hadoop YARN (Yet Another Resource Negotiator), en Mesos, en EC2, en Kubernetes o usando el modo de clúster independiente. Utiliza RDD (conjunto de datos distribuidos resilientes) para delegar cargas de trabajo a nodos individuales que admiten aplicaciones iterativas. Debido a RDD, la programación es fácil en comparación con Hadoop.

Spark consta de varios componentes llamados componentes de ecosistema de Spark.

Spark Core: es la base de la aplicación Spark de la que otros componentes dependen directamente. Proporciona una plataforma para una amplia variedad de aplicaciones, como la programación, el envío distribuido de tareas, el procesamiento de la memoria y la referencia de datos.
Spark Streaming: es el componente que funciona en la transmisión de datos en vivo para proporcionar análisis en tiempo real. Los datos en vivo se ingieren en unidades discretas llamadas lotes que se ejecutan en Spark Core.
Spark SQL: es el componente que funciona en la parte superior del núcleo de Spark para ejecutar consultas SQL en datos estructurados o semiestructurados. Data Frame es la forma de interactuar con Spark SQL.
GraphX: es el motor o marco de cálculo de gráficos que permite procesar datos de gráficos. Proporciona varios algoritmos gráficos para ejecutar en Spark.
MLlib: contiene algoritmos de aprendizaje automático que proporcionan un marco de aprendizaje automático en un entorno distribuido basado en memoria. Realiza algoritmos iterativos de manera eficiente debido a la capacidad de procesamiento de datos en memoria.
SparkR: Spark proporciona un paquete R para ejecutar o analizar conjuntos de datos utilizando R shell.

Hay tres formas de instalar o implementar spark en sus sistemas:

Modo independiente en Apache Spark
Hadoop HILO / Mesos
SIMR (Spark en MapReduce)

Veamos la implementación en modo independiente.

Modo de implementación independiente de Spark:

Paso 1: actualice el índice del paquete

Esto es necesario para actualizar todos los paquetes actuales en su máquina.

Comando de uso : $ sudo apt-get update

Paso 2: Instale el Kit de desarrollo de Java (JDK)

Esto instalará JDK en su máquina y lo ayudará a ejecutar aplicaciones Java.

Paso 3: compruebe si Java se ha instalado correctamente

Java es un requisito previo para usar o ejecutar aplicaciones Apache Spark.

Use el comando : $ java –version

Esta captura de pantalla muestra la versión de Java y asegura la presencia de Java en la máquina.

Paso 4: Instale Scala en su máquina

Como Spark está escrito en escala, la escala debe instalarse para ejecutar la chispa en su máquina.

Comando de uso: $ sudo apt-get install scala

Paso 5: Verifique si Scala está instalado correctamente

Esto asegurará la instalación exitosa de la báscula en su sistema.

Comando de uso : $ scala –version

Paso 6: Descargue Apache Spark

Descargue Apache Spark de acuerdo con su versión de Hadoop desde https://spark.apache.org/downloads.html

Cuando vaya al enlace de arriba, aparecerá una ventana.

Paso 7: Seleccione la versión adecuada de acuerdo con su versión de Hadoop y haga clic en el enlace marcado.

Aparecería otra ventana.

Paso 8: haga clic en el enlace marcado y Apache spark se descargará en su sistema.

Verifique si el archivo .tar.gz está disponible en la carpeta de descargas.

Paso 9: Instalar Apache Spark

Para la instalación de Spark, se debe extraer el archivo tar.

Comando de uso: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Debe cambiar la versión mencionada en el comando de acuerdo con su versión descargada. En esto, hemos descargado la versión spark-2.4.0-bin-hadoop2.7.

Paso 10: Configuración de la variable de entorno para Apache Spark

Comando de uso: $ source ~ / .bashrc

Añadir línea : export PATH = $ PATH: / usr / local / spark / bin

Paso 11: Verifique la instalación de Apache Spark

Comando de uso : $ spark-shell

Si la instalación fue exitosa, se generará el siguiente resultado.

Esto significa la instalación exitosa de Apache Spark en su máquina y Apache Spark comenzará en Scala.

Despliegue de Spark en Hadoop YARN:

Hay dos modos para implementar Apache Spark en Hadoop YARN.

Modo de clúster: en este modo, YARN en el clúster gestiona el controlador Spark que se ejecuta dentro de un proceso maestro de aplicación. Después de iniciar la aplicación, el cliente puede ir.
Modo cliente: en este modo, el maestro de aplicaciones solicita los recursos de YARN y el controlador Spark se ejecuta en el proceso del cliente.

Para implementar una aplicación Spark en modo de clúster, use el comando:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

El comando anterior iniciará un programa cliente YARN que iniciará el Application Master predeterminado.

Para implementar una aplicación Spark en modo cliente, use el comando:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Puede ejecutar spark shell en modo cliente utilizando el comando:

$ spark-shell –master yarn –deploy-mode client

Consejos y trucos para usar la instalación por chispa:

Asegúrese de que Java esté instalado en su máquina antes de instalar spark.
Si usa el lenguaje scala, asegúrese de que la escala ya esté instalada antes de usar Apache Spark.
También puede usar Python en lugar de Scala para programar en Spark, pero también debe preinstalarse como Scala.
También puede ejecutar Apache Spark en Windows, pero se sugiere crear una máquina virtual e instalar Ubuntu usando Oracle Virtual Box o VMWare Player .
Spark puede ejecutarse sin Hadoop (es decir, modo independiente), pero si se requiere una configuración de múltiples nodos, se necesitan administradores de recursos como YARN o Mesos.
Mientras usa YARN no es necesario instalar Spark en los tres nodos. Debe instalar Apache Spark solo en un nodo.
Mientras usa YARN si está en la misma red local con el clúster, puede usar el modo cliente, mientras que si está lejos, puede usar el modo clúster.

Artículos recomendados: instalación de Spark

Esta ha sido una guía sobre cómo instalar Spark. Aquí hemos visto cómo implementar Apache Spark en modo independiente y además del administrador de recursos YARN y también se mencionan algunos consejos y trucos para una instalación sin problemas de Spark. También puede consultar el siguiente artículo para obtener más información:

Cómo usar los comandos de Spark
Una carrera en Spark: debes probar
Diferencias de Splunk vs Spark
Spark Interview Preguntas y respuestas
Ventajas de Spark Streaming
Tipos de combinaciones en Spark SQL (ejemplos)

Instalar Spark - Guía completa sobre la instalación de Spark

Tabla de contenido:

¿Cómo instalar Spark?

Spark consta de varios componentes llamados componentes de ecosistema de Spark.

Hay tres formas de instalar o implementar spark en sus sistemas:

Modo de implementación independiente de Spark:

Paso 1: actualice el índice del paquete

Paso 2: Instale el Kit de desarrollo de Java (JDK)

Paso 3: compruebe si Java se ha instalado correctamente

Paso 4: Instale Scala en su máquina

Paso 5: Verifique si Scala está instalado correctamente

Paso 6: Descargue Apache Spark

Paso 7: Seleccione la versión adecuada de acuerdo con su versión de Hadoop y haga clic en el enlace marcado.

Paso 8: haga clic en el enlace marcado y Apache spark se descargará en su sistema.

Paso 9: Instalar Apache Spark

Paso 10: Configuración de la variable de entorno para Apache Spark

Paso 11: Verifique la instalación de Apache Spark

Despliegue de Spark en Hadoop YARN:

Consejos y trucos para usar la instalación por chispa:

Artículos recomendados: instalación de Spark

6 mejores programas y soluciones de capacitación en certificación de tendencias

Referencia de celda en Excel (Ejemplos) - Tipos: relativo, absoluto y mixto

CFA vs CFP - Las 12 principales diferencias para aprender con infografías

TECHO en Excel (Fórmula, Ejemplos) - ¿Cómo utilizar el TECHO en Excel?

Comandos C - Conceptos - Comandos básicos a avanzados

Haga de Photoshop su editor de imágenes predeterminado en Windows 10

Obtenga más de 1000 pinceles más en Photoshop CC 2018

Cómo hacer que Photoshop sea tu editor de imágenes predeterminado en Mac OS X

Preferencias esenciales de Photoshop para principiantes

Cómo abrir imágenes en Photoshop desde Adobe Bridge

Maneras ágiles de trabajar - Conozca el factor clave y los beneficios de Agile

Ágil vs Scrum vs Cascada - Las 5 mejores comparaciones para aprender

Trabajo ágil - Conozca los principios y beneficios del método ágil

Ágil vs Cascada - Las 10 principales comparaciones que debe saber

Ágil vs Scrum - Las 14 mejores diferencias que debes saber