Introducción a la entrevista con el ingeniero de datos Preguntas y respuestas

La ingeniería de datos es un término en el que todos lo conocen y es bastante popular en el campo de Big Data. La ingeniería de datos se refiere a Infraestructura de datos o Arquitectura de datos. Los datos sin procesar generados a partir de diferentes fuentes, como las redes sociales, los teléfonos móviles, www (internet), deben ser transformados, limpiados, perfilados y agregados para las necesidades del negocio. Estos datos sin procesar también se denominan datos oscuros. La práctica de diseñar, diseñar e implementar el sistema de proceso de datos ayuda a convertir los datos en una información apropiada o un conjunto de datos, dicha información o conjunto de datos se denomina Ingeniería de Datos.

A continuación se muestra la lista de las principales preguntas y respuestas de la entrevista del ingeniero de datos de 2019:

Si está buscando un trabajo relacionado con el ingeniero de datos, debe prepararse para las preguntas de la entrevista del ingeniero de datos de 2019. Aunque cada pregunta de la entrevista del ingeniero de datos es diferente y el alcance de un trabajo también es diferente, podemos ayudarlo con las principales preguntas de la entrevista del ingeniero de datos con respuestas, que lo ayudarán a dar el salto y lograr el éxito en su entrevista del ingeniero de datos.

1. ¿Qué es la ingeniería de datos?

Responder:
La ingeniería de datos es un término que es bastante popular en el campo de Big Data y se refiere principalmente a Infraestructura de datos o Arquitectura de datos.
Los datos generados por muchas fuentes como las redes sociales, los teléfonos móviles, www (internet) son datos en bruto. Necesita ser transformado, limpiado, perfilado y agregado para las necesidades del negocio. Podemos llamar a estos datos sin procesar como Dark Data, que iluminaremos para hacer que estos Dark Data sean útiles. La práctica de diseñar, diseñar e implementar el sistema de proceso de datos que ayudará a convertir los datos en información útil se denomina Ingeniería de datos.

2. ¿Explica el trabajo diario de un ingeniero de datos?

Responder:
El trabajo diario del ingeniero de datos consiste en:
a. manejo de la administración de datos dentro de la organización
si. manejo y mantenimiento de sistemas fuente de datos y áreas de preparación
C. haciendo ETL o ELT y transformación de datos
re. simplificando la limpieza de datos y la mejora de la desduplicación y construcción de datos
mi. haciendo construcción y extracción de consultas de datos ad-hoc
Vea a continuación la visualización que informa sobre las cosas en las que trabaja un ingeniero de datos: -

3. ¿Tiene experiencia con el modelado de datos?

Responder:
Se puede decir que él / ella ha trabajado en un proyecto para un cliente de finanzas / seguros de salud donde han utilizado herramientas ETL como Informatica / Talend / Pentaho, etc. para transformar y procesar los datos obtenidos de una base de datos MySQL / RDS / SQL y envía distribuya esta información a proveedores que puedan ayudar a aumentar sus ingresos. Uno puede mostrar debajo de la arquitectura de alto nivel del modelo de datos. Consiste en una clave primaria, entidad, atributos, relación, restricciones, etc.

4. ¿Cuáles son los diferentes tipos de esquemas de diseño en modelado de datos? ¿Explicar con un ejemplo?

Responder:
Hay dos tipos de esquemas en el modelado de datos:
a. Esquema de estrella
Este esquema se divide en dos, uno es una tabla de hechos y otro es una tabla de dimensiones donde todas las tablas de dimensiones están conectadas a una tabla de hechos. La clave externa en la tabla de hecho se refiere a las claves primarias presentes en las tablas de dimensiones. Vea a continuación la arquitectura del esquema estelar:

si. Esquema de copo de nieve
En este esquema, el nivel de normalización aumenta, aquí la tabla de hechos seguirá siendo la misma que la del esquema en estrella, aquí las tablas de dimensiones se normalizan. Debido a muchas capas de tablas de dimensiones, parece un copo de nieve, por lo tanto, el nombre del esquema de copo de nieve. Vea a continuación la arquitectura: -

5. ¿Qué herramienta ETL está utilizando y cómo se compara mejor con otras?

Responder:
Se puede decir que él / ella ha utilizado Informatica como la herramienta ETL debido a muchos puntos, lo primero y más importante es que según el Cuadrante Mágico de Gartner para Herramientas de Integración de Datos, Informatica se posiciona como líder por décimo año consecutivo. Es fácil de usar y aprender, y tiene características para conectarse con una variedad diferente de datos de origen y tipos de datos, componentes reutilizables y características que lo hacen el favorito para los desarrolladores de ETL. También tiene su propio programador que es otra ventaja, donde otras herramientas ETL tienen que usar un programador externo para programar los trabajos.

6. ¿Qué tecnologías / lenguaje de programación se debe tener / aprender a ser ingeniero de datos?

Responder:
Matemáticas (álgebra lineal y probabilidad)
Estadísticas (resumen de estadísticas)
Técnicas de aprendizaje automático
Lenguajes R y SAS
Bases de datos SQL, Hive QL
Python (mayormente usado)
Aparte de estos, uno debe tener conocimiento de resolución de problemas, análisis y arquitectura de la base de datos.

7. ¿Cuáles son algunos problemas comunes que enfrentan los ingenieros de datos?

Responder:
1. Integración en tiempo real / Integración continua
2. El almacenamiento de una gran cantidad de datos es un problema, la información de esos datos es otro problema.
3. Qué herramientas se pueden usar para obtener el mejor rendimiento, almacenamiento, eficiencia y resultados.
4. ¿El almacenamiento escala? Suponga cómo saber que, para procesar todo el conjunto de datos, ¿cuánto tiempo llevará?
5. Considerando los procesadores y la configuración de RAM
6. ¿Cómo lidiar con las fallas, hay tolerancia a fallas allí o no?

8. ¿En qué se diferencia el arquitecto de datos del ingeniero de datos?

Responder:
Data Architect es la persona que administra los datos, especialmente cuando se trata de diferentes números de una variedad de fuentes de datos. Uno debe tener un conocimiento profundo de cómo funciona una base de datos, cómo los datos se relacionan con problemas comerciales y cómo los cambios perturbarán el uso de datos de la organización y luego el arquitecto de datos manipulará / transformará la arquitectura de datos de acuerdo con ellos.
La principal responsabilidad del arquitecto de datos es trabajar en el almacenamiento de datos, el desarrollo de la arquitectura de datos o el centro / almacén de datos empresariales.
Mientras que un ingeniero de datos ayuda con la instalación de soluciones de almacenamiento de datos, modelado de datos, desarrollo y prueba de arquitectura de base de datos.

9. Describa un momento en que encontró un nuevo caso de uso para la base de datos existente que tuvo un impacto positivo en el negocio.

Responder:
Mientras que en la era de Big Data tener SQL carecería de las siguientes características:
a. Los RDBMS son bases de datos orientadas a esquemas, por lo que es mejor para datos estructurados que para datos semiestructurados o no estructurados.
si. No es capaz de procesar datos impredecibles y no estructurados.
C. No es escalable horizontalmente, es decir, la ejecución paralela y el almacenamiento no son posibles en SQL.
re. Sufre problemas de rendimiento una vez que aumenta el número de usuarios.
mi. Se utiliza principalmente para el procesamiento transaccional en línea.

Para superar estos inconvenientes, podemos usar NoSQL DB, es decir, no solo SQL.
Entonces, en el proyecto, uno puede usar diferentes tipos de NoSQL DB como Cassandra, Mongo DB, Graph DB, HBase, etc.

10. ¿Tiene experiencia trabajando en un entorno de computación en la nube? ¿Qué beneficios ves trabajando en uno?

Responder:
Se puede decir que sí. Cloud Computing Environment está listo para mover el entorno de producción, desarrollo y pruebas sin pensar en integrar muchas instancias / Linux / servidores de ventana. Hay varios servicios de computación en la nube en un mercado como AWS (servicios web de Amazon), Azure (Microsoft), GCP (Google Cloud Platform). El servicio de computación en la nube proporciona las siguientes funciones, como flexibilidad, es decir, el entorno se ampliará según los requisitos, recuperación ante desastres mediante copias de seguridad e instantáneas, trabajo desde cualquier lugar con VPN, entorno seguro y respetuoso con el medio ambiente, ya que funciona en hardware básico, es decir, computadoras de uso general que son de bajo costo

Conclusión

En el blog anterior, hemos mantenido las preguntas más frecuentes de la entrevista sobre Data Engineer y cómo se puede responder a esto dando puntos de características.

Artículo recomendado:

Esta ha sido una guía completa de las preguntas y respuestas de la entrevista del ingeniero de datos para que el candidato pueda tomar medidas enérgicas contra estas preguntas de la entrevista del ingeniero de datos fácilmente. Este artículo consta de todas las preguntas y respuestas principales de la entrevista del ingeniero de datos. También puede consultar los siguientes artículos para obtener más información:

  1. Más importantes Azure Paas vs Iaas
  2. Preguntas de la entrevista de Big Data
  3. Las 5 preguntas más importantes de la entrevista de Elasticsearch
  4. PIG Entrevista Preguntas y respuestas
  5. Las 5 preguntas más importantes de la entrevista de ciencia de datos