Introducción a los comandos HDFS
Big data es una palabra para conjuntos de datos que son tan grandes o compuestos que el software de aplicación de procesamiento de datos convencional no es suficiente para pactar con ellos. Hadoop es un marco de programación de código abierto basado en Java que encadena el espacio de procesamiento y almacenamiento de conjuntos de datos enormemente voluminosos en un entorno informático diseminado. La base del software Apache es la clave para instalar Hadoop
Características de HDFS:
- HDFS se ejecuta en arquitectura maestro / esclavo
- HDFS utiliza los archivos para almacenar los datos relacionados con el usuario
- contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
- En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
- Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.
Namenode:
- Aquí el sistema de archivos se mantiene por nodo de nombre
- Namenode también es responsable de registrar todos los cambios del sistema de archivos, además mantiene una imagen del espacio de nombres del sistema de archivos completo y el mapa de bloques de archivos en la memoria
- La verificación de puntos se realiza periódicamente. por lo tanto, recuperarse fácilmente en el escenario antes de que el punto de choque se pueda lograr aquí.
Datanode:
- Un Datanode aprovisiona datos en archivos en su sistema de archivos local
- Para intimar sobre su existencia, el nodo de datos envía el latido al nodo de nombre
- Se generará un informe de bloque por cada décimo latido recibido
- La replicación está implícita en los datos almacenados en estos nodos de datos.
Replicación de datos:
- Aquí la secuencia de bloques forma un archivo con un tamaño de bloque predeterminado de 128 MB
- Todos los bloques en el archivo, excepto el final, son de un tamaño similar.
- De todos y cada uno de los nodos de datos en el clúster, el elemento namenode recibe un latido
- BlockReport contiene todos los bloques en un Datanode.
- contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
- En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
- Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.
Job tracker: JobTracker debate con NameNode para concluir la posición de los datos. Además, busque los mejores nodos de TaskTracker para llevar a cabo tareas basadas en la localidad de datos
Rastreador de tareas: Un Rastreador de tareas es un nodo en el clúster que acepta tareas (operaciones de Mapa, Reducir y Mezclar) de un Rastreador de trabajos.
Secondary Name node (or) checkpoint node: Obtiene EditLog del nodo de nombre a intervalos regulares y se aplica a su imagen FS. Y copia una imagen FS completada al nodo de nombre durante su reinicio. El propósito completo del nodo Nombre secundario es tener un punto de control en HDFS.
HILO
- YARN tiene un componente de administrador de recursos central que administra los recursos y asigna los recursos a todas y cada una de las aplicaciones.
- Aquí, el Administrador de recursos es el maestro que adjudica los recursos asociados al clúster, el administrador de recursos está formado por dos componentes, el administrador de aplicaciones y un planificador, estos dos componentes administran juntos los trabajos en los sistemas del clúster. otro componente llama al Node Manager (NM) que es responsable de administrar los trabajos y el flujo de trabajo de los usuarios en un nodo determinado.
- El Standby NameNode mantiene una replicación exacta de los datos en el nombre de nodo activo. Actúa como esclavo, mantiene el estado suficiente para proporcionar una conmutación por error rápida, si es esencial.
Comandos básicos de HDFS:
Comandos básicos de HDFS |
||
No Señor | Propiedad de comando HDFS | Comando HDFS |
1 | Imprimir versión hadoop | $ hadoop version |
2 | Listar el contenido del directorio raíz en HDFS | $ hadoop fs -ls |
3 | Informe la cantidad de espacio utilizado y disponible en un sistema de archivos montado actualmente | $ hadoop fs -df hdfs: / |
4 4 | El equilibrador HDFS reequilibra los datos en los DataNodes, moviendo bloques de nodos sobreutilizados a no utilizados. | $ hadoop balanceador |
5 5 | Comando de ayuda | $ hadoop fs -help |
Comandos intermedios de HDFS:
Comandos intermedios de HDFS |
||
No Señor | Propiedad de comando HDFS | Comando HDFS |
6 6 | crea un directorio en la ubicación HDFS especificada | $ hadoop fs -mkdir / usuario / cloudera / |
7 7 | Copia datos de una ubicación a otra | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Vea el espacio ocupado por un directorio particular en HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 9 | Eliminar un directorio en Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Elimina todos los archivos en el directorio dado | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | Vaciar la basura | $ hadoop fs -expunge |
12 | copia datos desde y hacia local a HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Comandos avanzados de HDFS:
Comandos intermedios de HDFS |
||
No Señor | Propiedad de comando HDFS | Comando HDFS |
13 | cambiar los permisos de archivo | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | establecer el factor de replicación de datos para un archivo | $ hadoop fs -setrep -w 5 / usuario / cloudera / pigjobs / |
15 | Cuente la cantidad de directorios, archivos y bytes en hdfs | $ hadoop fs -count hdfs: / |
dieciséis | hacer que namenode exista modo seguro | $ sudo -u hdfs hdfs dfsadmin -safemode leave |
17 | Hadoop formatea un nodo de nombre | $ hadoop namenode -format |
Consejos y trucos de HDFS:
1) Podemos lograr una recuperación más rápida cuando el recuento de nodos del clúster es mayor.
2) El aumento en el almacenamiento por unidad de tiempo aumenta el tiempo de recuperación.
3) El hardware Namenode tiene que ser muy confiable.
4) Se puede lograr un monitoreo sofisticado a través de ambari.
5) La inanición del sistema puede reducirse aumentando el recuento reductor.
Artículos recomendados
Esta ha sido una guía para los comandos HDFS. Aquí discutimos los comandos, las funciones de HDFS, sus comandos básicos, intermedios y avanzados con representación gráfica, consejos y trucos sobre los comandos. También puede consultar nuestros otros artículos sugeridos para obtener más información:
- Comandos de nodo
- Comandos Matlab
- Ventajas de DBMS
- Ecosistema Hadoop
- Comandos Hadoop fs