Integración de datos de Talend - Beneficios - Aplicaciones y componentes

Tabla de contenido:

Anonim

Introducción a la integración de datos de Talend

La integración de Talend Data significa combinar datos de diferentes fuentes y combinarlos en una sola vista para obtener algunos datos significativos de lo que puede ayudar a la empresa u organización a mejorar su negocio mediante el análisis de esos datos. La integración ayuda a obtener datos, limpiar los datos, realizar algunas transformaciones necesarias, etc., y luego cargarlos en un almacén de datos.

¿Qué es la integración de datos de Talend?

  • Talend es una herramienta ETL que se utiliza para la integración de datos. Talend proporciona una solución para la preparación de datos, calidad de datos, integración de datos y big data.
  • Talend ofrece Open Studio, que es un código abierto para la integración de datos y big data.
  • Talend open studio ayuda a manejar grandes cantidades de datos con componentes de grandes cantidades de datos. Tiene más de 800 componentes para varios propósitos de integración. Aquí discutiremos algunos de los componentes. Para hacerlo más fácil, vea el siguiente ejemplo
  • Un operador de sim tiene grandes datos sobre planes, clientes, detalles de sim, etc. Estos datos son enormes, por lo que también se utilizan grandes datos en la integración.

Cliente A que compra un sim usando una identificación del gobierno.
Dando su nombre: AB C
Dirección como: Chennai, Chennai
Número de teléfono: 1234567890

Después de la integración de datos

Nombre: AB
Apellido: C
Dirección: Chennai, India
Número de teléfono: +911234567890

Aquí los datos se limpian y se transforman en algo más significativo.

Beneficios de la integración de datos

Aquí discutiremos los beneficios de la integración de datos.

  1. Análisis de tendencias empresariales mediante la integración de datos.
  2. Combinando datos en un solo sistema
  3. Ahorro de tiempo y más eficiente y menos retrabajo
  4. Fácil generación de informes: utilizada por las herramientas de BI
  5. Mantener e insertar datos en data warehouse y data marts

Aplicación de la integración de datos de Talend

Aquí discutiremos la aplicación de la integración de datos de Talend.

1. Trabajando con Talend

  • Asegúrese de tener Java instalado y las variables de entorno establecidas.
  • Descargue el código abierto del sitio web de Talend e instale el software.
  • Crea un nuevo proyecto y termina la configuración
  • Talend se abrirá con la pestaña del diseñador.
  • Talend es una herramienta basada en eclipse y los componentes se pueden arrastrar desde la paleta o puede hacer clic y escribir el nombre de los componentes.

2. Primer trabajo leyendo un archivo

  • Busque el componente tFileinputdelimited. Este componente se usa para leer cualquier archivo delimitado.
  • Coloque el componente tFileinputdelimited. Busque tLogRow y colóquelo en el diseñador de trabajos.
  • Haga clic derecho en tFileinputdelimited y seleccione row-> main y dibuje una línea en tLogRow.
  • En el componente, la pestaña selecciona la ruta del archivo que desea leer y le da al separador de fila como \ n. Si el archivo tiene delimitador, puede mencionar el delimitador.
  • Haga clic en el esquema y proporcione los detalles del tipo de columna o puede leer la fila completa como una cadena con una columna y el valor del delimitador debe estar vacío.
  • Puede omitir el encabezado y el pie de página también.
  • En el componente tLogRow, seleccione la forma en que desea ver los datos. Formato de tabla o formato de una sola línea.
  • tLogRow muestra la salida en la consola de ejecución.
  • Después de conectar tFileinputdelimited y tLogRow, ejecute el trabajo desde la pestaña Ejecutar.
  • Puede ver el contenido del archivo impreso en la consola.

3. Segundo trabajo usando Tmap

  • Leer un archivo y filtrarlo en diferentes archivos de salida.
  • Lea un archivo en el componente tFileinputdelimited con un esquema de columna como registro.
  • Componente Tmap: este componente ayuda a transformar los datos con algunas funciones incorporadas como búsquedas, uniones, etc.
  • En tmap crea dos salidas out1 y out2.
  • En out1 filter agregue record.contains ("talend") y dibuje el registro en out1.
  • Dibuja la línea de registro a otro out2.
  • Desde el tmap, tome las filas principales y conéctese a dos tFileoutputdelimited.
  • out1 enlaza a un tfileoutputdelimited1 como file1.txt y out2 a otro tfileoutputdelimited2 como file2.txt.
  • txt tendrá registros que contienen talend.
  • txt tendrá registros que tienen otros nombres.

4. Incorporado y repositorio

  • Incorporado significa que debe establecer un esquema o detalles para conectarse a una base de datos cada vez.
  • El repositorio es útil para guardar los detalles en los metadatos para que pueda reutilizar los mismos detalles cada vez sin ingresar manualmente los detalles cada vez. En los metadatos, puede guardar el esquema del archivo, las conexiones de la base de datos, la conexión de Hadoop, la conexión de la colmena, la conexión s3 y muchas más.

Componentes de la integración de datos de Talend

Aquí discutiremos los componentes de Talend Data Integration.

1. tFileList: este componente enumera los archivos en un directorio o carpeta con un patrón de máscara de archivo determinado.

2. tMysqlConnection: este componente se utiliza para conectarse con la base de datos MySQL. Los componentes de Mysql pueden usar esta conexión para configurar fácilmente la conexión a la base de datos.

3. tMysqlInput: este componente ayuda a ejecutar una consulta de base de datos mysql y obtener la tabla o columnas. Este componente se utiliza para seleccionar consultas y obtener los detalles.

4. tMysqlOutput: este componente se utiliza para insertar o actualizar datos en la base de datos Mysql.

5. tPrejob: este componente es el primero en ejecutarse en el trabajo y se puede conectar con otros componentes con Subjob ok.

6. tPostjob: este componente es el último en ejecutarse en el trabajo. Puede conectar esto con componentes cercanos de conexión.

7. tLogcatcher: este componente detecta las advertencias y los errores en el trabajo. Este es el componente más importante utilizado en la técnica de manejo de errores. Los registros de errores se pueden escribir utilizando este componente junto con tfileoutputdelimited. Hay más de 800+ componentes.

8. Variable de contexto: las variables de contexto son variables que se pueden usar en el trabajo en cualquier lugar. Contiene valores y se puede pasar a otro trabajo también utilizando componentes tRun. Los usos de las variables de contexto son que podemos cambiar el valor para diferentes propósitos. Por ejemplo, podemos tener un conjunto de valores para el grupo de contexto de desarrollo y un conjunto diferente de valores de contexto para la producción. De esta manera, no tenemos que cambiar el trabajo, solo cambiar los parámetros de contexto es suficiente.

9. Creación de un trabajo: para crear un trabajo, haga clic con el botón derecho en el trabajo y seleccione un trabajo de construcción. Puede importar el trabajo de compilación en TAC. En Talend Administration Console, también programa un trabajo para activar la dependencia del conjunto de trabajos. También puede importar el trabajo desde el repositorio de Nexus utilizando un trabajo de artefacto.

10. Cree una tarea en TAC: Abra el conductor de trabajo en TAC. Haga clic en nuevas tareas y seleccione tareas normales o de artefactos. Importe el trabajo de compilación o seleccione de nexus. Seleccione el servidor de trabajo en el que se ejecutará el talento. Guarda la tarea. Ahora puede implementar y ejecutar el trabajo.

Conclusión

  • "Simplifique ETL y ELT con la herramienta ETL de código abierto y gratuita para big data". Es el lema para el estudio abierto.
  • Talend Bigdata tiene muchos componentes para manejar grandes datos.
  • Trabajo estándar, trabajo Bigdata, trabajos de transmisión Bigdata son los diferentes tipos de trabajos disponibles en Talend.
  • Los trabajos de Bigdata se pueden crear en un marco de chispa o MapReduce.

Artículo recomendado

Esta es una guía para la integración de datos de Talend. Aquí discutimos la introducción a Talend Data Integration y los beneficios junto con las aplicaciones y componentes. También puede consultar nuestros otros artículos sugeridos para obtener más información.

  1. Herramienta de integración de datos | Las mejores 12 herramientas
  2. Talend entrevista preguntas y respuestas
  3. Las mejores herramientas de visualización de datos con sus tipos
  4. Talend vs Mulesoft - Diferencias
  5. ¿Qué es Data Mart?