Descripción general de Instalar Hadoop

El siguiente artículo, Instalar Hadoop, proporciona un resumen de los módulos clave de framework Hadoop más comunes y la instalación paso a paso para Hadoop. Apache Hadoop es una colección de software que permite el procesamiento de grandes conjuntos de datos y almacenamiento distribuido en un grupo de diferentes tipos de sistemas informáticos. Actualmente, Hadoop sigue siendo la plataforma de análisis más utilizada para big data ("Sanchita Lobo, autor en el blog de capacitación de análisis", sin fecha).

Marco Hadoop

El marco Apache Hadoop consta de los siguientes módulos clave.

  • Apache Hadoop Común.
  • Sistema de archivos distribuidos Apache Hadoop (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (otro administrador de recursos).

Apache Hadoop Common

El módulo Apache Hadoop Common consta de bibliotecas compartidas que se consumen en todos los demás módulos, incluida la administración de claves, paquetes genéricos de E / S, bibliotecas para la recopilación métrica y utilidades para el registro, la seguridad y la transmisión.

HDFS

El HDFS se basa en el sistema de archivos de Google y está estructurado para ejecutarse en hardware de bajo costo. HDFS tolera fallas y está diseñado para aplicaciones que tienen grandes conjuntos de datos.

Mapa reducido

MapReduce es un modelo de programación paralela inherente para el procesamiento de datos y Hadoop puede ejecutar programas MapReduce escritos en varios lenguajes, como Java. MapReduce funciona dividiendo el procesamiento en la fase del mapa y reduce la fase.

Apache Hadoop HILO

Apache Hadoop YARN es un componente central y es una tecnología de gestión de recursos y programación de trabajos en el marco de procesamiento distribuido de Hadoop.

En este artículo, discutiremos la instalación y configuración de Hadoop 2.7.4 en un clúster de nodo único y probaremos la configuración ejecutando el programa MapReduce llamado wordcount para contar la cantidad de palabras en el archivo. Veremos más a fondo algunos comandos importantes del sistema de archivos Hadoop.

Pasos para instalar Hadoop

El siguiente es un resumen de las tareas involucradas en la configuración de Apache Hadoop.

Tarea 1: La primera tarea en la instalación de Hadoop incluyó la configuración de una plantilla de máquina virtual que se configuró con Cent OS7. Se descargaron paquetes como Java SDK 1.8 y Runtime Systems necesarios para ejecutar Hadoop y se configuró la variable de entorno Java para Hadoop editando bash_rc.

Tarea 2: el paquete Hadoop Release 2.7.4 se descargó del sitio web de apache y se extrajo en la carpeta opt. Que luego se renombró como Hadoop para facilitar el acceso.

Tarea 3: una vez que se extrajeron los paquetes de Hadoop, el siguiente paso incluyó la configuración de la variable de entorno para el usuario de Hadoop seguido de la configuración de los archivos XML del nodo de Hadoop. En este paso, NameNode se configuró en core-site.xml y DataNode se configuró en hdfs-site.xml. El administrador de recursos y el administrador de nodos se configuraron en yarn-site.xml.

Tarea 4: El firewall se desactivó para iniciar YARN y DFS. El comando JPS se utilizó para verificar si los demonios relevantes se están ejecutando en segundo plano. El número de puerto para acceder a Hadoop se configuró en http: // localhost: 50070 /

Tarea 5: Los siguientes pasos se usaron para verificar y probar Hadoop. Para esto, hemos creado un archivo de prueba temporal en el directorio de entrada para el programa WordCount. El programa Map-reduce Hadoop-MapReduce-examples2.7.4.jar se usó para contar el número de palabras en el archivo. Los resultados se evaluaron en el host local y se analizaron los registros de la solicitud presentada. Todas las aplicaciones de MapReduce enviadas se pueden ver en la interfaz en línea, el número de puerto predeterminado es 8088.

Tarea 6: En la tarea final, presentaremos algunos comandos básicos del Sistema de archivos Hadoop y verificaremos sus usos. Veremos cómo se puede crear un directorio dentro del sistema de archivos Hadoop, para enumerar el contenido de un directorio, su tamaño en bytes. Más adelante veremos cómo eliminar un directorio y un archivo específicos.

Resultados en la instalación de Hadoop

A continuación se muestran los resultados de cada una de las tareas anteriores:

Resultado de la tarea 1

Se configuró una nueva máquina virtual con una imagen cenOS7 para ejecutar Apache Hadoop. La Figura 1 muestra cómo se configuró la imagen de CenOS 7 en la máquina virtual. La Figura 1.2 muestra la configuración de la variable de entorno JAVA dentro de .bash_rc.

Figura 1: configuración de la máquina virtual

Figura 1.2: Configuración variable de entorno Java

Resultado de la tarea 2

La Figura 2 muestra la tarea realizada para extraer el paquete Hadoop 2.7.4 en la carpeta opt.

Figura 2: Extracción del paquete Hadoop 2.7.4

Resultado de la tarea 3

La Figura 3 muestra la configuración de la variable de entorno para el usuario de Hadoop, la Figura 3.1 a 3.4 muestra la configuración de los archivos XML necesarios para la configuración de Hadoop.

Figura 3: Configuración de la variable de entorno para el usuario de Hadoop

Figura 3.1: Configuración de core-site.xml

Figura 3.2: Configuración de hdfs-site.xml

Figura 3.3: Configuración del archivo mapred-site.xml

Figura 3.4: Configuración del archivo yarn-site.xml

Resultado de la tarea 4

La figura 4 muestra el uso del comando jps para verificar que los demonios relevantes se estén ejecutando en segundo plano y la siguiente figura muestra la interfaz de usuario en línea de Hadoop.

Figura 4: comando jps para verificar la ejecución de demonios.

Figura 4.1: Acceso a la interfaz en línea de Hadoop en el puerto http://hadoop1.example.com:50070/

Resultado de la tarea 5

La Figura 5 muestra el resultado del programa MapReduce llamado wordcount que cuenta el número de palabras en el archivo. El siguiente par de figuras muestra la interfaz de usuario en línea del administrador de recursos de YARN para la tarea enviada.

Figura 5: Resultados del programa MapReduce

Figura 5.1: Solicitud de reducción de mapa enviada.

Figura 5.2: Registros para la aplicación MapReduce enviada.

Resultado de la tarea 6

La Figura 6 muestra cómo crear un directorio dentro del sistema de archivos Hadoop y realizar una lista del directorio hdfs.

Figura 6: Crear un directorio dentro del sistema de archivos Hadoop

La Figura 6.1 muestra cómo colocar un archivo en el sistema de archivos distribuido de Hadoop y la Figura 6.2 muestra el archivo creado en el directorio dirB.

Figura 6.1: Crear un archivo en HDFS.

Figura 6.2: Nuevo archivo creado.

Las siguientes figuras muestran cómo enumerar los contenidos de directorios particulares:

Figura 6.3: Contenido de dirA

Figura 6.4: Contenido de dirB

La siguiente figura muestra cómo se puede mostrar el tamaño del archivo y el directorio:

Figura 6.5: Mostrar un archivo y el tamaño del directorio.

La eliminación de un directorio o un archivo se puede lograr fácilmente mediante el comando -rm.

Figura 6.6: Para eliminar un archivo.

Conclusión

Big Data ha jugado un papel muy importante en la configuración del mercado mundial actual. El marco Hadoop facilita la vida del analista de datos mientras trabaja en grandes conjuntos de datos. La configuración de Apache Hadoop fue bastante simple y la interfaz de usuario en línea proporcionó al usuario múltiples opciones para ajustar y administrar la aplicación. Hadoop se ha utilizado de forma masiva en organizaciones para el almacenamiento de datos, análisis de aprendizaje automático y copias de seguridad de datos. Administrar una gran cantidad de datos ha sido bastante útil debido al entorno distribuido de Hadoop y MapReduce. El desarrollo de Hadoop fue bastante sorprendente en comparación con las bases de datos relacionales, ya que carecen de opciones de ajuste y rendimiento. Apache Hadoop es una solución fácil de usar y de bajo costo para administrar y almacenar grandes datos de manera eficiente. HDFS también ayuda mucho en el almacenamiento de datos.

Artículos recomendados

Esta es una guía para instalar Hadoop. Aquí discutimos la introducción a Instal Hadoop, la instalación paso a paso de Hadoop junto con los resultados de la instalación de Hadoop. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Introducción a Hadoop Streaming
  2. ¿Qué es el clúster de Hadoop y cómo funciona?
  3. Apache Hadoop Ecosystem y sus componentes
  4. ¿Cuáles son las alternativas de Hadoop?

Categoría: