Introducción a las herramientas de Hadoop

Hadoop Tools es el marco que se utiliza para procesar una gran cantidad de datos. Estos datos se distribuyen en un clúster y se realiza la computación distribuida. Los datos se almacenan en bloques de 128Mb de tamaño y para procesar y lograr un resultado se utiliza la potencia de Map Reduce. Tradicionalmente, Map y Reduce se escribían en Java, pero era difícil cruzar los recursos que trabajaban en el almacén de datos, ya que no tenían experiencia en él. SQL es bien conocido y fácil de usar, por lo que al encontrar una manera de escribir un SQL como una consulta que se convierte en Map and Reduce, Facebook fundó esto y más tarde lo donó a Apache, esta herramienta se conoce como Hive. Yahoo también ideó una herramienta llamada Pig que se convierte a Map Reduce en la ejecución, de manera similar, tenemos Sqoop y flume para herramientas de inyección y movimiento de datos. HBase es una herramienta de sistema de gestión de bases de datos.

Características de las herramientas de Hadoop

  1. Colmena
  2. Cerdo
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. Canal artificial

Ahora veremos las características con una breve explicación.

1. Colmena

Apache Hive fue fundado por Facebook y luego donado a la fundación Apache, que es una infraestructura de almacenamiento de datos, facilita la escritura de SQL como Query llamado HQL o HiveQL. Estas consultas se convierten internamente en trabajos de Map Reduce y el procesamiento se realiza utilizando la informática distribuida de Hadoop. Puede procesar los datos que residen en HDFS, S3 y todo el almacenamiento compatible con Hadoop. Podemos aprovechar las instalaciones proporcionadas por Map Reduce siempre que encontremos algo difícil de implementar en Hive mediante la implementación en Funciones definidas por el usuario. Permite al usuario registrar UDF y usarlo en los trabajos.

Características de la colmena

  • Hive puede procesar muchos tipos de formatos de archivo, como Sequence File, ORC File, TextFile, etc.
  • Particionamiento, Bucketing e Indexación están disponibles para una ejecución más rápida.
  • Los datos comprimidos también se pueden cargar en una tabla de colmena.
  • Las tablas administradas o internas y las tablas externas son las características destacadas de Hive.

2. cerdo

Yahoo desarrolló Apache Pig para tener una herramienta adicional para fortalecer Hadoop al tener una forma ad-hoc de implementar Map Reduce. Pig tiene un motor llamado Pig Engine que convierte los scripts en Map Reduce. Pig es un lenguaje de script, los scripts escritos para Pig están en PigLatin, al igual que Hive aquí también podemos tener UDF para mejorar la funcionalidad. Las tareas en Pig se optimizan automáticamente para que los programadores no tengan que preocuparse por ello. Pig maneja tanto los datos estructurados como los no estructurados.

Características del cerdo

  • Los usuarios pueden tener sus propias funciones para realizar un tipo especial de procesamiento de datos.
  • Es fácil escribir códigos en Pig comparativamente, también la longitud del código es menor.
  • El sistema puede optimizar automáticamente la ejecución.

3. Sqoop

Sqoop se utiliza para transferir datos de HDFS a RDBMS y viceversa. Podemos extraer los datos a HDFS desde RDBMS, Hive, etc. y podemos procesarlos y exportarlos nuevamente a RDBMS. Podemos agregar los datos muchas veces en una tabla y también podemos crear un trabajo Sqoop y ejecutarlo 'n' varias veces.

Características de Sqoop

  • Sqoop puede importar todas las tablas a la vez en HDFS.
  • Podemos incrustar consultas SQL, así como condiciones en la importación de datos.
  • Podemos importar datos para colmenar si una tabla está presente desde HDFS.
  • El número de mapeadores se puede controlar, es decir, la ejecución en paralelo se puede controlar especificando el número de mapeadores.

4. HBase

El sistema de administración de la base de datos sobre HDFS se llama HBase. HBase es una base de datos NoSQL, que se desarrolla sobre HDFS. HBase no es una base de datos relacional, no admite lenguajes de consulta estructurados. HBase utiliza el procesamiento distribuido de HDFS. Puede tener tablas grandes con millones y millones de registros.

Características de la HBase

  • HBase proporciona escalabilidad tanto lineal como modular.
  • Las API en JAVA se pueden usar para el acceso del cliente.
  • HBase proporciona un shell para ejecutar consultas.

5. Zookeeper

Apache Zookeeper es un servicio de mantenimiento de configuración centralizado, mantiene un registro de información, nombres, también proporciona sincronización distribuida y servicios grupales. Zookeeper es un repositorio centralizado que las aplicaciones distribuidas utilizan para colocar y obtener datos del mismo. También ayuda en la gestión de nodos, es decir, unirse o dejar un nodo en el clúster. Proporciona un registro de datos altamente confiable cuando pocos de los nodos están inactivos.

Características del cuidador del zoológico

  • El rendimiento se puede aumentar distribuyendo las tareas que se logran agregando más máquinas.
  • Oculta la complejidad de la distribución y se presenta como una sola máquina.
  • La falla de algunos sistemas no afecta a todo el sistema, pero el inconveniente es que puede conducir a la pérdida parcial de datos.
  • Proporciona atomicidad, es decir, la transacción es exitosa o fallida, pero no en un estado imperfecto.

6. Canal

Apache Flume es una herramienta que proporciona la ingestión de datos, que puede recopilar, agregar y transportar una gran cantidad de datos de diferentes fuentes a un HDFS, HBase, etc. Flume es muy confiable y se puede configurar. Fue diseñado para ingerir datos de transmisión desde el servidor web o datos de eventos a HDFS, por ejemplo, puede ingerir datos de Twitter a HDFS. Flume puede almacenar datos en cualquiera de los almacenes de datos centralizados, como HBase / HDFS. Si hay una situación en la que los datos producidos están a una velocidad mayor en comparación con la velocidad de los datos, entonces el canal actúa como mediador y garantiza que los datos fluyan de manera constante.

Características del canal

  • Puede ingerir datos de servidores web junto con los datos del evento, como los datos de las redes sociales.
  • Las transacciones de canal se basan en canales, es decir, se mantienen dos mensajes, uno es para enviar y otro para recibir.
  • La escala horizontal es posible en un canal.
  • Es altamente tolerante a fallas ya que el enrutamiento contextual está presente en un canal.

Conclusión - Herramientas Hadoop

Aquí en este artículo, hemos aprendido algunas de las herramientas de Hadoop y cómo son útiles en el mundo de los datos. Hemos visto Hive and Pig, que se utiliza para consultar y analizar datos, sqoop para mover datos y canales para ingerir datos de transmisión a HDFS.

Artículos recomendados

Esta ha sido una guía de las herramientas de Hadoop. Aquí discutimos diferentes herramientas de Hadoop con sus características. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Alternativas de Hadoop
  2. Base de datos de Hadoop
  3. Funciones de cadena SQL
  4. ¿Qué es Big Data?

Categoría: