¿Cómo instalar Spark?
Spark es un marco de código abierto para ejecutar aplicaciones de análisis. Es un motor de procesamiento de datos alojado en Apache Software Foundation independiente del proveedor para trabajar en grandes conjuntos de datos o big data. Es un sistema de computación en clúster de propósito general que proporciona API de alto nivel en Scala, Python, Java y R. Fue desarrollado para superar las limitaciones en el paradigma MapReduce de Hadoop. Los científicos de datos creen que Spark se ejecuta 100 veces más rápido que MapReduce, ya que puede almacenar datos en la memoria caché, mientras que MapReduce funciona más leyendo y escribiendo en discos. Realiza el procesamiento en memoria que lo hace más potente y rápido.
Spark no tiene su propio sistema de archivos. Procesa datos de diversas fuentes de datos como Hadoop Distributed File System (HDFS), el sistema S3 de Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Puede ejecutarse en Hadoop YARN (Yet Another Resource Negotiator), en Mesos, en EC2, en Kubernetes o usando el modo de clúster independiente. Utiliza RDD (conjunto de datos distribuidos resilientes) para delegar cargas de trabajo a nodos individuales que admiten aplicaciones iterativas. Debido a RDD, la programación es fácil en comparación con Hadoop.
Spark consta de varios componentes llamados componentes de ecosistema de Spark.
- Spark Core: es la base de la aplicación Spark de la que otros componentes dependen directamente. Proporciona una plataforma para una amplia variedad de aplicaciones, como la programación, el envío distribuido de tareas, el procesamiento de la memoria y la referencia de datos.
- Spark Streaming: es el componente que funciona en la transmisión de datos en vivo para proporcionar análisis en tiempo real. Los datos en vivo se ingieren en unidades discretas llamadas lotes que se ejecutan en Spark Core.
- Spark SQL: es el componente que funciona en la parte superior del núcleo de Spark para ejecutar consultas SQL en datos estructurados o semiestructurados. Data Frame es la forma de interactuar con Spark SQL.
- GraphX: es el motor o marco de cálculo de gráficos que permite procesar datos de gráficos. Proporciona varios algoritmos gráficos para ejecutar en Spark.
- MLlib: contiene algoritmos de aprendizaje automático que proporcionan un marco de aprendizaje automático en un entorno distribuido basado en memoria. Realiza algoritmos iterativos de manera eficiente debido a la capacidad de procesamiento de datos en memoria.
- SparkR: Spark proporciona un paquete R para ejecutar o analizar conjuntos de datos utilizando R shell.
Hay tres formas de instalar o implementar spark en sus sistemas:
- Modo independiente en Apache Spark
- Hadoop HILO / Mesos
- SIMR (Spark en MapReduce)
Veamos la implementación en modo independiente.
Modo de implementación independiente de Spark:
Paso 1: actualice el índice del paquete
Esto es necesario para actualizar todos los paquetes actuales en su máquina.
Comando de uso : $ sudo apt-get update
Paso 2: Instale el Kit de desarrollo de Java (JDK)
Esto instalará JDK en su máquina y lo ayudará a ejecutar aplicaciones Java.
Paso 3: compruebe si Java se ha instalado correctamente
Java es un requisito previo para usar o ejecutar aplicaciones Apache Spark.
Use el comando : $ java –version
Esta captura de pantalla muestra la versión de Java y asegura la presencia de Java en la máquina.
Paso 4: Instale Scala en su máquina
Como Spark está escrito en escala, la escala debe instalarse para ejecutar la chispa en su máquina.
Comando de uso: $ sudo apt-get install scala
Paso 5: Verifique si Scala está instalado correctamente
Esto asegurará la instalación exitosa de la báscula en su sistema.
Comando de uso : $ scala –version
Paso 6: Descargue Apache Spark
Descargue Apache Spark de acuerdo con su versión de Hadoop desde https://spark.apache.org/downloads.html
Cuando vaya al enlace de arriba, aparecerá una ventana.
Paso 7: Seleccione la versión adecuada de acuerdo con su versión de Hadoop y haga clic en el enlace marcado.
Aparecería otra ventana.
Paso 8: haga clic en el enlace marcado y Apache spark se descargará en su sistema.
Verifique si el archivo .tar.gz está disponible en la carpeta de descargas.
Paso 9: Instalar Apache Spark
Para la instalación de Spark, se debe extraer el archivo tar.
Comando de uso: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Debe cambiar la versión mencionada en el comando de acuerdo con su versión descargada. En esto, hemos descargado la versión spark-2.4.0-bin-hadoop2.7.
Paso 10: Configuración de la variable de entorno para Apache Spark
Comando de uso: $ source ~ / .bashrc
Añadir línea : export PATH = $ PATH: / usr / local / spark / bin
Paso 11: Verifique la instalación de Apache Spark
Comando de uso : $ spark-shell
Si la instalación fue exitosa, se generará el siguiente resultado.
Esto significa la instalación exitosa de Apache Spark en su máquina y Apache Spark comenzará en Scala.
Despliegue de Spark en Hadoop YARN:
Hay dos modos para implementar Apache Spark en Hadoop YARN.
- Modo de clúster: en este modo, YARN en el clúster gestiona el controlador Spark que se ejecuta dentro de un proceso maestro de aplicación. Después de iniciar la aplicación, el cliente puede ir.
- Modo cliente: en este modo, el maestro de aplicaciones solicita los recursos de YARN y el controlador Spark se ejecuta en el proceso del cliente.
Para implementar una aplicación Spark en modo de clúster, use el comando:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
El comando anterior iniciará un programa cliente YARN que iniciará el Application Master predeterminado.
Para implementar una aplicación Spark en modo cliente, use el comando:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Puede ejecutar spark shell en modo cliente utilizando el comando:
$ spark-shell –master yarn –deploy-mode client
Consejos y trucos para usar la instalación por chispa:
- Asegúrese de que Java esté instalado en su máquina antes de instalar spark.
- Si usa el lenguaje scala, asegúrese de que la escala ya esté instalada antes de usar Apache Spark.
- También puede usar Python en lugar de Scala para programar en Spark, pero también debe preinstalarse como Scala.
- También puede ejecutar Apache Spark en Windows, pero se sugiere crear una máquina virtual e instalar Ubuntu usando Oracle Virtual Box o VMWare Player .
- Spark puede ejecutarse sin Hadoop (es decir, modo independiente), pero si se requiere una configuración de múltiples nodos, se necesitan administradores de recursos como YARN o Mesos.
- Mientras usa YARN no es necesario instalar Spark en los tres nodos. Debe instalar Apache Spark solo en un nodo.
- Mientras usa YARN si está en la misma red local con el clúster, puede usar el modo cliente, mientras que si está lejos, puede usar el modo clúster.
Artículos recomendados: instalación de Spark
Esta ha sido una guía sobre cómo instalar Spark. Aquí hemos visto cómo implementar Apache Spark en modo independiente y además del administrador de recursos YARN y también se mencionan algunos consejos y trucos para una instalación sin problemas de Spark. También puede consultar el siguiente artículo para obtener más información:
- Cómo usar los comandos de Spark
- Una carrera en Spark: debes probar
- Diferencias de Splunk vs Spark
- Spark Interview Preguntas y respuestas
- Ventajas de Spark Streaming
- Tipos de combinaciones en Spark SQL (ejemplos)