¿Qué es MapReduce en Hadoop? El - Cómo funciona - Habilidades y crecimiento profesional

Tabla de contenido:

Anonim

¿Qué es MapReduce en Hadoop?

MapReduce es un marco de trabajo de Hadoop que se utiliza para procesar grandes cantidades de datos en paralelo en grandes grupos de hardware básico de manera confiable. Hadoop es un proyecto de código abierto proporcionado por la base de software Apache. Hadoop solía realizar análisis de forma rápida y confiable tanto para datos estructurados como para datos no estructurados. Hadoop puede manejar conjuntos de datos muy grandes y que podrían ser tanto datos estructurados como datos no estructurados, que en realidad están asociados con grandes datos. Marco de Hadoop que permite que una aplicación almacene los datos en una forma distribuida y procese grandes conjuntos de datos a través de grupos de computadoras usando un modelo de programación simple, eso es lo que Map Reduce, por lo tanto, en otras palabras, podemos llamar a Map Reduce como un modelo de programación utilizado para el procesamiento gran cantidad de datos distribuidos en la cantidad de clústeres. Hadoop puede escalar de servidores individuales a miles de nodos de computación o máquinas que cada uno usa para computación y almacenamiento.

El proyecto Apache Hadoop contiene varios subproyectos como:

  • Hadoop Common: Hadoop Common tiene utilidades que admiten los otros subproyectos de Hadoop.
  • Sistema de archivos distribuidos de Hadoop (HDFS): el sistema de archivos distribuidos de Hadoop proporciona acceso al archivo distribuido a los datos de la aplicación.
  • Hadoop MapReduce: Hadoop MapReduce es un marco de software para el procesamiento de grandes conjuntos de datos distribuidos en clústeres de cómputo.
  • Hadoop YARN: Hadoop YARN es un marco para la gestión de recursos y la programación de trabajos.

¿Cómo MapReduce en Hadoop hace que trabajar sea tan fácil?

MapReduce facilita el escalado del procesamiento de datos en cientos o miles de máquinas de clúster. El modelo MapReduce en realidad funciona en dos pasos llamados map and reduce y el procesamiento llamado mapeador y reductor respectivamente. Una vez que escribimos MapReduce para una aplicación, la aplicación para escalar y ejecutar múltiples o incluso múltiples de miles de clústeres es simplemente un cambio de configuración. Esta característica del modelo MapReduce ha atraído a muchos programadores para usarlo.

¿Cómo funciona MapReduce en Hadoop?

El programa MapReduce se ejecuta principalmente en cuatro pasos:

  1. Divisiones de entrada
  2. Mapa
  3. Barajar
  4. Reducir

Ahora veremos cada paso cómo funcionan.

1. Paso del mapa

Este paso es la combinación del paso de divisiones de entrada y el paso de Mapa. En el paso Mapa, el archivo fuente se pasa línea por línea. Antes de que la entrada pase al trabajo de la función de Mapa, la entrada se divide en el pequeño tamaño fijo llamado Divisiones de entrada. La división de entrada es una porción de la entrada que podría ser consumida por un solo mapa. En el paso Mapa, cada dato dividido se pasa a la función del mapeador, luego la función del mapeador procesa los datos y luego los valores de salida. En general, los datos de entrada de trabajo del mapa o del mapeador tienen la forma de un archivo o directorio que se almacena en el sistema de archivos Hadoop (HDFS).

2. Reduce el paso

Este paso es la combinación del paso Aleatorio y el Reducir. La función de reducción o el trabajo de Reductor toma los datos que son el resultado de la función de mapa. Después de procesar reduciendo la función, se produce un nuevo conjunto de resultados que nuevamente se almacenan en el HDFS.

En un marco Hadoop, no es seguro que cada clúster realice qué trabajo, ya sea Mapa o Reducir, o tanto Mapa como Reducir. Por lo tanto, la solicitud de las tareas Mapa y Reducir debe enviarse a los servidores apropiados en el clúster. El propio marco de Hadoop gestiona todas las tareas de emisión, verificación de finalización del trabajo, obtención de datos de HDFS, copia de datos en el clúster de los nodos, etc. En Hadoop, la informática se lleva a cabo principalmente en los nodos junto con los datos en los propios nodos, lo que reduce el tráfico de la red.

Por lo tanto, el marco de MapReduce es muy útil en el marco de Hadoop.

Ventajas de MapReduce

  1. Escalabilidad : MapReduce hace que Hadoop sea altamente escalable porque permite almacenar grandes conjuntos de datos en forma de distribución en varios servidores. Como se distribuye entre múltiples, puede funcionar en paralelo.
  2. Solución rentable : MapReduce proporciona una solución muy rentable para las empresas que necesitan almacenar los datos crecientes y procesar los datos de una manera muy rentable, que es la necesidad comercial actual.
  3. Flexibilidad : MapReduce hace que Hadoop sea muy flexible para diferentes fuentes de datos e incluso para diferentes tipos de datos, como datos estructurados o no estructurados. Por lo tanto, es muy flexible acceder a datos estructurados o no estructurados y procesarlos.
  4. Rápido : como los datos de almacenamiento de Hadoop en el sistema de archivos distribuido, mediante el cual se almacenan los datos en el disco local de un clúster y los programas MapReduce también se encuentran generalmente en los mismos servidores, lo que permite un procesamiento más rápido de los datos ya que no es necesario acceder Los datos de otros servidores.
  5. Procesamiento en paralelo : como los datos de almacenamiento de Hadoop en el sistema de archivos distribuido y el funcionamiento del programa MapReduce es tal que divide el mapa de tareas y reduce las tareas y podría ejecutarse en paralelo. Y nuevamente, debido a la ejecución paralela, reduce todo el tiempo de ejecución.

Habilidades

Las habilidades requeridas para MapReduce en Hadoop son tener un buen conocimiento de programación de Java (obligatorio), sistema operativo Linux y conocimiento de consultas SQL.

El alcance de MapReduce en Hadoop

MapReduce en Hadoop es un campo de rápido crecimiento ya que el campo de big data está creciendo, por lo que el alcance de MapReduce en Hadoop es muy prometedor en el futuro, ya que la cantidad de datos estructurados y no estructurados aumenta exponencialmente día a día. Las plataformas de redes sociales están generando una gran cantidad de datos no estructurados que se pueden extraer para obtener información real sobre diferentes dominios.

Conclusión

  • MapReduce es un marco de trabajo de Hadoop que se utiliza para procesar grandes cantidades de datos en paralelo en grandes grupos de hardware básico de manera confiable.
  • El proyecto Apache Hadoop contiene varios subproyectos como Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • En el paso del mapa, cada dato dividido se pasa a la función del mapeador, luego la función del mapeador procesa los datos y luego los valores de salida.
  • La función de reducción o el trabajo de Reductor toma los datos que son el resultado de la función de mapa.
  • Las ventajas de MapReduce figuran como Escalabilidad, Solución rentable, Flexibilidad, Procesamiento rápido y paralelo.

Artículos recomendados

Esta ha sido una guía de Qué es MapReduce en Hadoop. Aquí discutimos los componentes, el trabajo, las habilidades, el crecimiento profesional y las ventajas de MapReduce en Hadoop. También puede consultar nuestros otros artículos sugeridos para obtener más información.

  1. ¿Qué es un algoritmo?
  2. Diferencias entre Hadoop y MapReduce
  3. ¿Qué es el azul?
  4. ¿Qué es la tecnología Big Data?
  5. Cómo funciona MapReduce