Introducción a Talend Open Studio

Talend ofrece Open Studio, que es un código abierto para la integración de datos. Tiene más de 800 componentes para varios propósitos de integración. Descargue Talend Open Studio desde https://www.talend.com/download/

La integración de datos significa combinar datos de diferentes fuentes y combinarlos en una sola vista para obtener algunos datos significativos de lo que puede ayudar a la empresa u organización a mejorar su negocio mediante el análisis de esos datos. La integración ayuda a obtener datos, limpiar los datos, realizar algunas transformaciones necesarias, etc., y luego cargarlos en un almacén de datos.

¿Qué es Talend?

Talend es una herramienta ETL que se utiliza para la integración de datos. Talend proporciona una solución para la preparación de datos, calidad de datos, integración de datos y big data. Aquí discutiremos algunos de los componentes. Para que sea más fácil ver el siguiente ejemplo, un operador de sim tiene grandes datos sobre planes, clientes, detalles de sim, etc. Estos datos son enormes, por lo que también se utilizan grandes datos en la integración.

Cliente A que compra un sim usando una identificación del gobierno

Dando su nombre como AB C

dirección como Chennai, Chennai

número de teléfono como 1234567890

Después de la integración de datos

Nombre: AB

Apellido: C

Dirección: Chennai, India

Número de teléfono: +911234567890

Aquí los datos se limpian y se transforman en algo más significativo.

Beneficios

  • Análisis de tendencias empresariales mediante la integración de datos.
  • Combinando datos en un solo sistema
  • Ahorro de tiempo y más eficiente y menos retrabajo
  • Fácil generación de informes: utilizada por las herramientas de BI
  • Mantener e insertar datos en el data warehouse y data marts

Solicitud

Aquí están las siguientes aplicaciones mencionadas a continuación

1. Trabajando con Talend

  • Asegúrese de tener Java instalado y las variables de entorno establecidas.
  • Descargue el código abierto del sitio web de Talend e instale el software.
  • Crea un nuevo proyecto y termina la configuración
  • Talend se abrirá con la pestaña del diseñador.
  • Talend es una herramienta basada en eclipse y los componentes se pueden arrastrar desde la paleta o puede hacer clic y escribir el nombre de los componentes.

2. El primer trabajo Leyendo un archivo

  • Busque el componente tFileinputdelimited. Este componente se usa para leer cualquier archivo delimitado.
  • Coloque el componente tfileinputdelimited. Busque tlogrow y colóquelo en el diseñador de trabajo.
  • Haga clic derecho en tfileinputdelimited y seleccione row-> main y dibuje una línea para tlogrow.
  • En el componente, la pestaña selecciona la ruta del archivo que desea leer y le da al separador de fila como \ n. Si el archivo tiene delimitador, puede mencionar el delimitador.
  • Haga clic en el esquema y proporcione los detalles del tipo de columna o puede leer la fila completa como una cadena con una columna y el valor del delimitador debe estar vacío.
  • Puede omitir el encabezado y el pie de página también.
  • En el componente tlogrow, seleccione la forma en que desea ver los datos. Formato de tabla o formato de una sola línea.
  • tlogrow muestra la salida en la consola de ejecución.
  • Después de conectar tfileinputdelimited y tlogrow, ejecute el trabajo desde la pestaña Ejecutar.
  • Puede ver el contenido del archivo impreso en la consola.

3. Un segundo trabajo usando Tmap

  • Leer un archivo y filtrarlo en diferentes archivos de salida.
  • Lea un archivo en el componente tfileinputdelimited con un esquema de columna como registro.
  • Componente Tmap: este componente ayuda a transformar los datos con algunas funciones incorporadas como búsquedas, uniones, etc.
  • En tmap crea dos salidas out1 y out2.
  • En out1 filter agregue row3.record.contains ("talend") y dibuje el registro en out1.
  • Dibuja la línea de registro a otro out2.

  • Desde el tmap, tome las filas principales y conéctese a dos tfileoutputdelimited.
  • out1 enlaza a un tfileoutputdelimited1 como file1.txt y out2 a otro tfileoutputdelimited2 como file2.txt.
  • txt tendrá registros que contienen talend.
  • txt tendrá registros que tienen otros nombres.

4. Incorporado y repositorio

  • Incorporado significa que debe establecer un esquema o detalles para conectarse a una base de datos cada vez.
  • El repositorio es útil para guardar los detalles en los metadatos para que pueda reutilizar los mismos detalles cada vez sin ingresar manualmente los detalles cada vez. En los metadatos, puede guardar el esquema del archivo, las conexiones de la base de datos, la conexión de Hadoop, la conexión de la colmena, la conexión s3 y muchas más.

Componentes de Talend Open Studio

Estos son los siguientes componentes de Talend Open Studio que se mencionan a continuación

1. tFileList

  • Este componente enumera los archivos en un directorio o carpeta con un patrón de máscara de archivo determinado.

2. tMysqlConnection

  • Este componente se utiliza para conectarse con la base de datos mysql.
  • Los componentes de Mysql pueden usar esta conexión para configurar fácilmente la conexión a la base de datos.

3. tMysqlinput

  • Este componente ayuda a ejecutar una consulta de base de datos mysql y obtener la tabla o columnas. Este componente se utiliza para seleccionar consultas y obtener los detalles.

4. tMysqlOutput

  • Este componente se utiliza para insertar o actualizar datos en la base de datos Mysql.

5. tprejob

  • Este componente es el primero en ejecutarse en el trabajo y se puede conectar con otros componentes con el subtrabajo bien.

6. tpostjob

  • Este componente es el último en ejecutarse en el trabajo. Puede conectar esto con componentes cercanos de conexión.

7. tlogcatcher

  • Este componente detecta las advertencias y los errores en el trabajo.
  • Componente más importante utilizado en la técnica de manejo de errores.
  • Los registros de errores se pueden escribir utilizando este componente junto con tfileoutputdelimited.
  • Hay más de 800+ componentes.

Variable de contexto

  • Las variables de contexto son variables que se pueden usar en el trabajo en cualquier lugar.
  • Contiene valores y se puede pasar a otro trabajo también usando el componente trun.
  • El uso de las variables de contexto es que podemos cambiar el valor para diferentes propósitos.
  • Por ejemplo, podemos tener un conjunto de valores para el grupo de contexto de desarrollo y un conjunto diferente de valores de contexto para la producción.
  • De esta manera, no tenemos que cambiar el trabajo, solo cambiando los parámetros de contexto es suficiente.

Construyendo un trabajo

  • Para crear un trabajo, haga clic derecho en el trabajo y seleccione crear trabajo.
  • Puede importar el trabajo de compilación en TAC.
  • En Talend Administration Console, también programa un trabajo para activar la dependencia del conjunto de trabajos.
  • También puede importar el trabajo desde el repositorio de Nexus utilizando un trabajo de artefacto.

Crear una tarea en TAC

  • Conductor de trabajo abierto en TAC
  • Haga clic en nuevas tareas y seleccione tareas normales o de artefactos.
  • Importe el trabajo incorporado o seleccione de nexus.
  • Seleccione el servidor de trabajo en el que se ejecutará el talento.
  • Guarda la tarea.
  • Ahora puede implementar y ejecutar el trabajo.

Conclusión - Talend Open Studio

"Simplifique ETL y ELT con la herramienta ETL de código abierto y gratuita para big data". Es el lema para el estudio abierto. Talend Bigdata tiene muchos componentes para manejar grandes datos. Trabajo estándar, trabajo Bigdata, trabajos de transmisión Bigdata son los diferentes tipos de trabajos disponibles en Talend. Los trabajos de Bigdata se pueden crear en un marco de spark o mapreduce.

Artículos recomendados

Esta es una guía para Talend Open Studio. Aquí discutimos los beneficios, aplicaciones y componentes de Talend Open Studio. También puede echar un vistazo a los siguientes artículos para obtener más información:

  1. Guía para la integración de datos de Talend
  2. Preguntas importantes de la entrevista de Talend
  3. Talend vs Mulesoft: diferencias
  4. Talend vs Pentaho: 8 comparaciones útiles para aprender

Categoría: