Aprenda las 10 mejores diferencias entre MapReduce y Yarn

Tabla de contenido:

Anonim

Diferencia entre mapa reducir e hilo

Yarn significa Yet Another Resource Negotiator, es el nuevo marco para administrar recursos (Memoria y CPU). Nos ayuda a desarrollar la aplicación distribuida de cualquier tipo, nos proporciona los demonios y API necesarios. Otra característica importante de YARN es que maneja y programa la solicitud de recursos de la aplicación y ayuda al proceso a ejecutar la solicitud. YARN es una plataforma genérica para ejecutar cualquier aplicación distribuida, Map Reduce versión 2 es la aplicación distribuida que se ejecuta sobre YARN, mientras que map reduce es la unidad de procesamiento del componente Hadoop, procesa datos en paralelo en el entorno distribuido. Básicamente, el trabajo de reducción de mapas en un componente de datos enorme procesa los datos y los almacena en HDFS de tal manera que la recuperación es más fácil que el almacenamiento tradicional.

Comparación cabeza a cabeza entre MapReduce y Yarn (infografía)

A continuación se muestra la comparación de los 10 principales entre MapReduce vs Yarn

Diferencia clave entre MapReduce vs Yarn

  1. En Hadoop 1 tiene dos componentes, el primero es HDFS (Hadoop Distributed File System) y el segundo es Map Reduce. Mientras que en Hadoop 2 también tiene dos componentes HDFS y YARN / MRv2 (generalmente llamamos YARN como Map reduce la versión 2).
  2. En Map Reduce, cuando Map-reduce deja de funcionar, automáticamente todo su nodo esclavo dejará de funcionar. Este es el único escenario en el que la ejecución del trabajo puede interrumpirse y se denomina un solo punto de falla. YARN supera este problema debido a su arquitectura, YARN tiene el concepto de nodo de nombre activo, así como el nodo de nombre en espera. Cuando el nodo activo deja de funcionar por algún tiempo, el nodo pasivo comienza a funcionar como nodo activo y continúa la ejecución.
  3. La reducción de mapas tiene una arquitectura de maestro único y esclavo múltiple. Si el maestro-esclavo se cae, todo el esclavo dejará de funcionar, este es el único punto de falla en HADOOP1, mientras que HADOOP2, que se basa en la arquitectura HILAR, tiene el concepto de maestro múltiple y esclavo, Si un maestro se cae, otro maestro reanudará su proceso y continuará la ejecución.
  4. Como podemos ver en el siguiente diagrama, la diferencia en los ecosistemas HADOOP1 y HADOOP2. La gestión de recursos de YARN por componentes interactúa con Map-reduce y HDFS.

Básicamente, YARN es responsable de la gestión de recursos, es decir, qué trabajo será ejecutado por qué sistema decidirá YARN, mientras que map reduce es el marco de programación que es responsable de cómo ejecutar un trabajo en particular, por lo que básicamente map-reduce tiene un mapeador y reductor de dos componentes para la ejecución de un programa.

  1. En Map, reduzca cada nodo de datos ejecutado individualmente, mientras que en Yarn cada nodo de datos lo ejecuta un administrador de nodos.
  2. Map reduce utiliza el rastreador de trabajos para crear y asignar una tarea al rastreador de tareas debido a los datos, la administración del recurso no es impresionante, ya que algunos de los nodos de datos permanecerán inactivos y no sirven, mientras que en YARN tiene un Administrador de recursos para cada cluster y cada nodo de datos ejecuta un Node Manager. Para cada trabajo, un nodo esclavo actuará como maestro de aplicaciones, monitoreando recursos / tareas.

Tabla de comparación MapReduce vs Yarn

Bases para la comparación HILO Mapa reducido
SentidoYARN representa otro negociador de recursos.Map Reduce está autodefinido.
VersiónIntroducir en Hadoop 2.0Introducir en Hadoop 1.0
ResponsabilidadAhora YARN es responsable de la parte de gestión de recursos.Mapa anterior reducir fue responsable de la gestión de recursos, así como el procesamiento de datos
Modelo de ejecuciónEl modelo de ejecución de hilo es más genérico en comparación con Map reduceMenos genérico en comparación con HILO.
Ejecución de la aplicaciónYARN también puede ejecutar esas aplicaciones que no siguen el modelo Map ReduceMap Reduce puede ejecutar su propia aplicación basada en modelos.
ArquitecturaYARN se introduce en MR2 sobre el rastreador de trabajos y el rastreador de tareas. En lugar de la aplicación de seguimiento de trabajos y de seguimiento de tareas, el maestro entra en escena.En la versión anterior de MR1, YARN no estaba allí. En lugar de YARN, el rastreador de trabajos y el rastreador de tareas estaban presentes, lo que ayuda en la ejecución de aplicaciones o trabajos.
FlexibilidadHILO es más aislado y escalableMenos escalable en comparación con HILO.
DemoniosYARN tiene nodo de nombre, nodo de datos, nodo de nombre secundario, administrador de recursos y administrador de nodo.Map Reduce tiene nodo de nombre, nodo de datos, nodo de nombre secundario, rastreador de trabajos y rastreador de tareas.
LimitaciónNo hay un concepto de punto único de falla en YARN porque tiene múltiples Maestros, por lo que si uno falla, otro maestro lo recogerá y reanudará la ejecución.Punto único de falla, baja utilización de recursos (máximo de 4200 clústeres por YAHOO) y menos escalabilidad en comparación con YARN
TallaPor defecto, el tamaño de un nodo de datos en YARN es de 128 MBPor defecto, el tamaño de un nodo de datos en Map reduce es de 64 MB.

Conclusión - MapReduce vs Yarn

En Hadoop 1, que se basa en Map Reduce, tenemos varios problemas que se superan en Hadoop 2 con Yarn. Al igual que en Hadoop 1, el rastreador de trabajos es responsable de la administración de recursos, pero YARN tiene el concepto de administrador de recursos, así como el administrador de nodos, que se encargará de la administración de recursos. La reducción de mapas tiene un solo punto de falla, es decir, Rastreador de trabajos, si el rastreador de trabajos deja de funcionar, entonces tenemos que reiniciar todo nuestro clúster y ejecuta nuestro trabajo nuevamente desde Inicial. En un escenario real, ninguna de las organizaciones quiere correr este tipo de riesgo, especialmente en un sector de defensa bancaria. Dicha organización que trabaja en datos optimizados no estará lista para asumir este tipo de riesgo. Por unos minutos, van a perder sus datos y pueden tener un impacto comercial crítico. Entonces YARN tiene un mejor resultado que Map-reduce.

Artículo recomendado

Esta ha sido una guía para MapReduce vs Yarn, su significado, comparación directa, diferencias clave, tabla de comparación y conclusión. También puede consultar los siguientes artículos para obtener más información:

  1. Las 15 mejores cosas que debe saber sobre MapReduce vs Spark
  2. Las 5 mejores diferencias entre Hadoop y MapReduce
  3. 10 diferencia útil entre Hadoop vs Redshift
  4. Apache Hadoop vs Apache Spark | ¡Las 10 mejores comparaciones que debes conocer!
  5. ¿Cómo funciona MapReduce?