Comando HDFS - Comando básico a avanzado con consejos y trucos

Introducción a los comandos HDFS

Big data es una palabra para conjuntos de datos que son tan grandes o compuestos que el software de aplicación de procesamiento de datos convencional no es suficiente para pactar con ellos. Hadoop es un marco de programación de código abierto basado en Java que encadena el espacio de procesamiento y almacenamiento de conjuntos de datos enormemente voluminosos en un entorno informático diseminado. La base del software Apache es la clave para instalar Hadoop

Características de HDFS:

HDFS se ejecuta en arquitectura maestro / esclavo
HDFS utiliza los archivos para almacenar los datos relacionados con el usuario
contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.

Namenode:

Aquí el sistema de archivos se mantiene por nodo de nombre
Namenode también es responsable de registrar todos los cambios del sistema de archivos, además mantiene una imagen del espacio de nombres del sistema de archivos completo y el mapa de bloques de archivos en la memoria
La verificación de puntos se realiza periódicamente. por lo tanto, recuperarse fácilmente en el escenario antes de que el punto de choque se pueda lograr aquí.

Datanode:

Un Datanode aprovisiona datos en archivos en su sistema de archivos local
Para intimar sobre su existencia, el nodo de datos envía el latido al nodo de nombre
Se generará un informe de bloque por cada décimo latido recibido
La replicación está implícita en los datos almacenados en estos nodos de datos.

Replicación de datos:

Aquí la secuencia de bloques forma un archivo con un tamaño de bloque predeterminado de 128 MB
Todos los bloques en el archivo, excepto el final, son de un tamaño similar.
De todos y cada uno de los nodos de datos en el clúster, el elemento namenode recibe un latido
BlockReport contiene todos los bloques en un Datanode.
contiene un gran conjunto de directorios y archivos que se almacenan en un formato jerárquico.
En el interior, un archivo se extrae en bloques más pequeños y estos bloques se almacenan en un conjunto de Nodos de datos.
Namenode y Datanode son la parte del software destinada a ejecutarse en máquinas de productos que se ejecutan clásicamente en el sistema operativo GNU / Linux.

Job tracker: JobTracker debate con NameNode para concluir la posición de los datos. Además, busque los mejores nodos de TaskTracker para llevar a cabo tareas basadas en la localidad de datos

Rastreador de tareas: Un Rastreador de tareas es un nodo en el clúster que acepta tareas (operaciones de Mapa, Reducir y Mezclar) de un Rastreador de trabajos.

Secondary Name node (or) checkpoint node: Obtiene EditLog del nodo de nombre a intervalos regulares y se aplica a su imagen FS. Y copia una imagen FS completada al nodo de nombre durante su reinicio. El propósito completo del nodo Nombre secundario es tener un punto de control en HDFS.

HILO

YARN tiene un componente de administrador de recursos central que administra los recursos y asigna los recursos a todas y cada una de las aplicaciones.
Aquí, el Administrador de recursos es el maestro que adjudica los recursos asociados al clúster, el administrador de recursos está formado por dos componentes, el administrador de aplicaciones y un planificador, estos dos componentes administran juntos los trabajos en los sistemas del clúster. otro componente llama al Node Manager (NM) que es responsable de administrar los trabajos y el flujo de trabajo de los usuarios en un nodo determinado.
El Standby NameNode mantiene una replicación exacta de los datos en el nombre de nodo activo. Actúa como esclavo, mantiene el estado suficiente para proporcionar una conmutación por error rápida, si es esencial.

Comandos básicos de HDFS:

Comandos básicos de HDFS
No Señor	Propiedad de comando HDFS	Comando HDFS
1	Imprimir versión hadoop	$ hadoop version
2	Listar el contenido del directorio raíz en HDFS	$ hadoop fs -ls
3	Informe la cantidad de espacio utilizado y disponible en un sistema de archivos montado actualmente	$ hadoop fs -df hdfs: /
4 4	El equilibrador HDFS reequilibra los datos en los DataNodes, moviendo bloques de nodos sobreutilizados a no utilizados.	$ hadoop balanceador
5 5	Comando de ayuda	$ hadoop fs -help

Comandos intermedios de HDFS:

Comandos intermedios de HDFS
No Señor	Propiedad de comando HDFS	Comando HDFS
6 6	crea un directorio en la ubicación HDFS especificada	$ hadoop fs -mkdir / usuario / cloudera /
7 7	Copia datos de una ubicación a otra	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Vea el espacio ocupado por un directorio particular en HDFS	$ hadoop fs -du -s -h / user / cloudera /
9 9	Eliminar un directorio en Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Elimina todos los archivos en el directorio dado	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	Vaciar la basura	$ hadoop fs -expunge
12	copia datos desde y hacia local a HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandos avanzados de HDFS:

Comandos intermedios de HDFS
No Señor	Propiedad de comando HDFS	Comando HDFS
13	cambiar los permisos de archivo	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	establecer el factor de replicación de datos para un archivo	$ hadoop fs -setrep -w 5 / usuario / cloudera / pigjobs /
15	Cuente la cantidad de directorios, archivos y bytes en hdfs	$ hadoop fs -count hdfs: /
dieciséis	hacer que namenode exista modo seguro	$ sudo -u hdfs hdfs dfsadmin -safemode leave
17	Hadoop formatea un nodo de nombre	$ hadoop namenode -format

Consejos y trucos de HDFS:

1) Podemos lograr una recuperación más rápida cuando el recuento de nodos del clúster es mayor.

2) El aumento en el almacenamiento por unidad de tiempo aumenta el tiempo de recuperación.

3) El hardware Namenode tiene que ser muy confiable.

4) Se puede lograr un monitoreo sofisticado a través de ambari.

5) La inanición del sistema puede reducirse aumentando el recuento reductor.

Artículos recomendados

Esta ha sido una guía para los comandos HDFS. Aquí discutimos los comandos, las funciones de HDFS, sus comandos básicos, intermedios y avanzados con representación gráfica, consejos y trucos sobre los comandos. También puede consultar nuestros otros artículos sugeridos para obtener más información:

Comandos de nodo
Comandos Matlab
Ventajas de DBMS
Ecosistema Hadoop
Comandos Hadoop fs

Comando HDFS - Comando básico a avanzado con consejos y trucos

Tabla de contenido:

Introducción a los comandos HDFS

Características de HDFS:

Namenode:

Datanode:

Replicación de datos:

HILO

Comandos básicos de HDFS:

Comandos intermedios de HDFS:

Comandos avanzados de HDFS:

Consejos y trucos de HDFS:

Artículos recomendados

Conozca lo mejor - Consultoría de gestión vs Banca de inversión

Pruebas manuales - Guía completa de pruebas manuales

Herramienta de varita mágica en Photoshop - Cómo usar la herramienta Varita mágica

Habilidades clave de la alta gerencia para convertirse en un gerente exitoso - edu CBA

Las 10 principales preguntas y respuestas de la entrevista de prueba manual (Actualizado para 2019)

Matriz de cadenas en C # - Inicialización de matriz de cadenas y asignación de valores

Funciones de cadena en Java con ejemplos - Guide To Java String

StringBuffer vs StringBuilder - Las 4 principales diferencias útiles para aprender

StringBuffer en Java - Aprenda ¿Cómo funciona String Buffer en Java?

Formato de cadena en Python - ¿Cómo formatear cadenas en Python?

Carreras en Linux - Trayectoria profesional y salario - Empleos - Educación

Carreras en JavaScript - Trayectoria profesional y salario - Empleos - panorama

Carreras en el desarrollo de juegos »Wiki Ùtil Educacion - Salario - Empleos - Perspectivas

Carreras en Machine Learning »Wiki Ùtil Trayectoria profesional y perspectivas - Empleos - Salario

Carreras en la administración de Linux »Wiki Ùtil Trayectoria profesional y perspectivas - Empleos - Salario