Introducción a los comandos HDFS

Big data es una palabra para conjuntos de datos que son tan grandes o compuestos que el software de aplicación de procesamiento de datos convencional no es suficiente para pactar con ellos. Hadoop es un marco de programación de código abierto basado en Java que encadena el espacio de procesamiento y almacenamiento de conjuntos de datos enormemente voluminosos en un entorno informático diseminado. La base del software Apache es la clave para instalar Hadoop

Características de HDFS:

  • HDFS se ejecuta en arquitectura maestro / esclavo
  • HDFS utiliza los archivos para almacenar los datos relacionados con el usuario
  • contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
  • En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
  • Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.

Namenode:

  • Aquí el sistema de archivos se mantiene por nodo de nombre
  • Namenode también es responsable de registrar todos los cambios del sistema de archivos, además mantiene una imagen del espacio de nombres del sistema de archivos completo y el mapa de bloques de archivos en la memoria
  • La verificación de puntos se realiza periódicamente. por lo tanto, recuperarse fácilmente en el escenario antes de que el punto de choque se pueda lograr aquí.

Datanode:

  • Un Datanode aprovisiona datos en archivos en su sistema de archivos local
  • Para intimar sobre su existencia, el nodo de datos envía el latido al nodo de nombre
  • Se generará un informe de bloque por cada décimo latido recibido
  • La replicación está implícita en los datos almacenados en estos nodos de datos.

Replicación de datos:

  • Aquí la secuencia de bloques forma un archivo con un tamaño de bloque predeterminado de 128 MB
  • Todos los bloques en el archivo, excepto el final, son de un tamaño similar.
  • De todos y cada uno de los nodos de datos en el clúster, el elemento namenode recibe un latido
  • BlockReport contiene todos los bloques en un Datanode.
  • contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
  • En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
  • Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.

Job tracker: JobTracker debate con NameNode para concluir la posición de los datos. Además, busque los mejores nodos de TaskTracker para llevar a cabo tareas basadas en la localidad de datos

Rastreador de tareas: Un Rastreador de tareas es un nodo en el clúster que acepta tareas (operaciones de Mapa, Reducir y Mezclar) de un Rastreador de trabajos.

Secondary Name node (or) checkpoint node: Obtiene EditLog del nodo de nombre a intervalos regulares y se aplica a su imagen FS. Y copia una imagen FS completada al nodo de nombre durante su reinicio. El propósito completo del nodo Nombre secundario es tener un punto de control en HDFS.

HILO

  • YARN tiene un componente de administrador de recursos central que administra los recursos y asigna los recursos a todas y cada una de las aplicaciones.
  • Aquí, el Administrador de recursos es el maestro que adjudica los recursos asociados al clúster, el administrador de recursos está formado por dos componentes, el administrador de aplicaciones y un planificador, estos dos componentes administran juntos los trabajos en los sistemas del clúster. otro componente llama al Node Manager (NM) que es responsable de administrar los trabajos y el flujo de trabajo de los usuarios en un nodo determinado.
  • El Standby NameNode mantiene una replicación exacta de los datos en el nombre de nodo activo. Actúa como esclavo, mantiene el estado suficiente para proporcionar una conmutación por error rápida, si es esencial.

Comandos básicos de HDFS:

Comandos básicos de HDFS

No SeñorPropiedad de comando HDFSComando HDFS
1Imprimir versión hadoop$ hadoop version
2Listar el contenido del directorio raíz en HDFS$ hadoop fs -ls
3Informe la cantidad de espacio utilizado y disponible en un sistema de archivos montado actualmente$ hadoop fs -df hdfs: /
4 4El equilibrador HDFS reequilibra los datos en los DataNodes, moviendo bloques de nodos sobreutilizados a no utilizados.$ hadoop balanceador
5 5Comando de ayuda$ hadoop fs -help

Comandos intermedios de HDFS:

Comandos intermedios de HDFS

No SeñorPropiedad de comando HDFSComando HDFS
6 6crea un directorio en la ubicación HDFS especificada$ hadoop fs -mkdir / usuario / cloudera /
7 7Copia datos de una ubicación a otra$ hadoop fs -put data / sample.txt / user / training / hadoop
8Vea el espacio ocupado por un directorio particular en HDFS$ hadoop fs -du -s -h / user / cloudera /
9 9Eliminar un directorio en Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Elimina todos los archivos en el directorio dado$ hadoop fs -rm -skipTrash hadoop / retail / *
11Vaciar la basura$ hadoop fs -expunge
12copia datos desde y hacia local a HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandos avanzados de HDFS:

Comandos intermedios de HDFS

No SeñorPropiedad de comando HDFSComando HDFS
13cambiar los permisos de archivo$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14establecer el factor de replicación de datos para un archivo$ hadoop fs -setrep -w 5 / usuario / cloudera / pigjobs /
15Cuente la cantidad de directorios, archivos y bytes en hdfs$ hadoop fs -count hdfs: /
dieciséishacer que namenode exista modo seguro$ sudo -u hdfs hdfs dfsadmin -safemode leave
17Hadoop formatea un nodo de nombre$ hadoop namenode -format

Consejos y trucos de HDFS:

1) Podemos lograr una recuperación más rápida cuando el recuento de nodos del clúster es mayor.

2) El aumento en el almacenamiento por unidad de tiempo aumenta el tiempo de recuperación.

3) El hardware Namenode tiene que ser muy confiable.

4) Se puede lograr un monitoreo sofisticado a través de ambari.

5) La inanición del sistema puede reducirse aumentando el recuento reductor.

Artículos recomendados

Esta ha sido una guía para los comandos HDFS. Aquí discutimos los comandos, las funciones de HDFS, sus comandos básicos, intermedios y avanzados con representación gráfica, consejos y trucos sobre los comandos. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Comandos de nodo
  2. Comandos Matlab
  3. Ventajas de DBMS
  4. Ecosistema Hadoop
  5. Comandos Hadoop fs

Categoría: