Introducción a las preguntas y respuestas de la entrevista de Hbase

HBase es un popular sistema de gestión de bases de datos NoSQL orientado a columnas que se ejecuta sobre el Sistema de archivos distribuidos de Hadoop (HDFS). Es adecuado para conjuntos de datos dispersos, que son comunes en muchos casos de uso de big data.

Estas son las 10 preguntas y respuestas más frecuentes de la entrevista de HBase 2019: por lo que finalmente ha encontrado el trabajo de sus sueños en HBase, pero se pregunta cómo descifrar la entrevista de Hbase y cuáles podrían ser las posibles preguntas de la entrevista de Hbase de 2019. Cada entrevista es diferente y el alcance de un trabajo también es diferente. Teniendo esto en cuenta, hemos diseñado las preguntas y respuestas más comunes de la entrevista de Hbase para ayudarlo a tener éxito en su entrevista. Estas preguntas se dividen en dos partes son las siguientes:

Parte 1 - Preguntas de la entrevista de HBase (Básico)

Esta primera parte cubre preguntas y respuestas básicas de la entrevista de HBase.

1. ¿Cuándo debe usar HBase?

Responder:
Hbase no es adecuado para todos los casos de uso. El mejor escenario adecuado se puede identificar con las siguientes comprobaciones:
Volumen de datos : debe tener petabytes de datos para procesar en un entorno distribuido.
ii. Aplicación: HBase no es adecuado para sistemas OLTP (Procesamiento de transacciones en línea) que requieren transacciones complejas de múltiples declaraciones. También carece de soporte SQL complejo que es necesario para el análisis relacional. Se prefiere cuando tiene una gran cantidad de datos con un esquema ligeramente diferente.
iii. Hardware de clúster: HBase se ejecuta sobre HDFS. Y HDFS funciona de manera eficiente con una gran cantidad de nodos (mínimo 5). Por lo tanto, HBase puede ser una buena selección solo con un buen soporte de hardware.
iv. RDBMS no tradicional: Hbase no puede admitir ningún caso de uso que requiera características tradicionales como unir varias tablas, SQL complejas con funciones anidadas o de ventana, etc.
v. Acceso aleatorio rápido a los datos: si necesita un acceso aleatorio y en tiempo real a sus datos, entonces HBase es un candidato adecuado. También es un ajuste perfecto para almacenar tablas grandes con datos multiestructurados.

2. ¿Cuál es la diferencia entre Cassandra y HBase?

Responder:
Tanto HBase como Cassandra han distribuido la base de datos NoSQL para Big Data del ecosistema Hadoop. Ambos construidos para diferentes casos de uso.
HBase tiene una especie de arquitectura maestro-esclavo con varios componentes como Zookeeper, Namenode, HBase Master (Hmaster) y Data Nodes, etc. Cassandra trata todos los nodos como maestros, lo que significa que todos los nodos son iguales y realizan todas las funciones.
HBase está optimizado para lecturas, la escritura solo le sucede al nodo maestro y tiene una fuerte consistencia para leer después de escribir. Cassandra tiene un excelente rendimiento de lectura de una sola fila si se selecciona la coherencia final.
Hbase no admite de forma nativa índices secundarios, Cassandra admite índices secundarios en familias de columnas donde se conoce el nombre de la columna.
Inicialmente, Hbase se creó en Google y lo llamaron BigTable. Incluso ahora las API de Bigtable y HBase son compatibles. El origen de Cassandra es de un artículo para DynamoDB que es la base de datos NoSQL de AWS.

Pasemos a las siguientes preguntas de la entrevista de HBase.

3. ¿Cuáles son los componentes principales de Hbase?

Responder:
HBase a tiene tres componentes importantes: HMaster, Region Server y ZooKeeper.
i.HBase Master - Las tablas HBase se dividen en regiones. Mientras que el maestro de inicio decide qué región asignar a qué servidor de región (el servidor de región será un nodo en un clúster). También maneja operaciones de metadatos de tabla como crear o cambiar el esquema. Este componente también juega un papel importante en la recuperación de fallas
ii) Servidor de región: como se mencionó anteriormente, aquí es donde ocurre la escritura y lectura de datos reales. Estos son nodos de clúster reales. Esto tendrá regiones de muchas tablas que se deciden al iniciar y finalizar las teclas de fila. Un servidor de región típico puede servir hasta mil regiones
iii.ZooKeeper: ZooKeeper es un marco de coordinación de clúster ampliamente utilizado en el ecosistema Hadoop. Zookeeper rastrea todos los servidores (servidores maestros y regionales) presentes en los contactos de clúster HMaster ZooKeeper y se producen notificaciones en caso de errores.

4. ¿Qué es el filtro de floración HBase?

Responder:
Estas son las preguntas comunes de la entrevista de HBase formuladas en una entrevista. Un filtro Bloom de HBase es un mecanismo eficiente para probar si un archivo de almacenamiento (cuando algo se escribe en HBase, primero se escribe en un almacén en memoria, una vez que este memstore alcanza un cierto tamaño, se vacía en el disco en un archivo de almacenamiento ) contiene una fila o celda de fila-col específica. Normalmente, la única forma de decidir si una clave de fila está presente en un archivo de tienda es verificar el índice de bloque del archivo, que tiene la clave de fila de inicio de cada bloque en el archivo de tienda. Los filtros Bloom actúan como una estructura de datos en memoria que ayuda a reducir las lecturas de disco solo a los archivos que probablemente contengan esa fila: no todos los archivos almacenados. Por lo tanto, actúa como un índice en memoria para indicar una probabilidad de encontrar una fila en un archivo de tienda particular.

5. ¿Qué es la compactación? Explicar diferentes tipos de ella.

Responder:
HBase almacena todas las operaciones recibidas en su área de memoria de memstore. Cuando el búfer de memoria está lleno, se vacía en el disco. Debido a que esto puede crear muchos archivos pequeños en HDFS, de vez en cuando, HBase puede seleccionar archivos para compactarlos en uno más grande. Una compactación se llama Menor cuando HBase elige solo algunos de los HFiles para compactar, pero no todos. En una compactación mayor, todos los archivos se eligen para ser compactados juntos. Una compactación principal funciona como una menor, excepto que los marcadores de eliminación se pueden eliminar después de que se aplican a todas las celdas relacionadas y también se descartarán todas las versiones adicionales de la misma celda.

Parte 2 - Preguntas de la entrevista de HBase (Avanzado)

Veamos ahora las preguntas avanzadas de la entrevista de HBase.

6. ¿Cómo los datos de la versión HBase?

Responder:
Cuando se inserta / actualiza / elimina una pieza de datos, HBase creará una nueva versión para esa columna. La eliminación real se produce solo durante la compactación. Si una celda en particular excedió un número de versiones permitidas, se eliminarán versiones adicionales durante la compactación

7. ¿Cuál es la diferencia entre obtener y Escanear?

Responder:
Get devolverá una única fila de la tabla Hbase en función de la clave de fila dada. El comando Escanear devuelve un conjunto de filas según la condición de búsqueda dada. Por lo general, obtener es más rápido que escanear. Entonces debería preferir usar eso si es posible.

Pasemos a las siguientes preguntas de la entrevista de HBase.

8. ¿Qué sucede al eliminar una fila?

Responder:
En el momento de la eliminación, los datos del comando no se eliminan físicamente del sistema de archivos, sino que se vuelven invisibles configurando un marcador. La eliminación física ocurre durante una compactación
Los marcadores de eliminación de columna, versión y familia son tres tipos diferentes de marcadores que marcan la eliminación de una columna, versión de columna y familia de columnas, respectivamente.

9. Explique la diferencia entre HBase y Hive.

Responder:
Esta es la pregunta avanzada de la entrevista de HBase realizada en una entrevista. HBase y Hive son tecnologías completamente diferentes basadas en Hadoop para el procesamiento de datos. Hive es un marco de almacenamiento distribuido compatible con SQL de tipo relacional, mientras que HBase es un almacén de valores de clave NoSQL. Hive actúa como una capa de abstracción sobre Hadoop con soporte SQL. El patrón de acceso a datos HBase es muy limitado con dos operaciones principales: get y scan. HBase es ideal para el procesamiento de datos en tiempo real, donde Hive es una opción ideal para el procesamiento de datos por lotes.

10. ¿Qué son Hlog y HFile?

Responder:
HLog es el archivo de registro de escritura anticipada, también conocido como WAL y HFile es el archivo de almacenamiento de datos real. Los datos se escriben primero en el archivo de registro de escritura anticipada y también en MemStore. Una vez que MemStore está lleno, el contenido de MemStore se vacía en el disco en HFiles.

Artículo recomendado

Esta ha sido una guía para la Lista de preguntas y respuestas de la entrevista de Hbase para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista de Hbase fácilmente. También puede consultar los siguientes artículos para obtener más información:

  1. Preguntas útiles para la entrevista grupal
  2. Consejos importantes para la entrevista básica
  3. Pasos esenciales para la preparación de la entrevista
  4. Preguntas de la entrevista para hacerle a un candidato de finanzas