Algunas de las capacidades de Matillion ETL en Google Cloud

Duvan Duque

Data Engineer | Google Cloud Associate Cloud Engineer

Matilion ETL es un producto que nos permite recopilar datos de distintas fuentes y estructurarlos actualmente cuenta con versiones para Snowflake, Delta Lake en Databricks, Amazon Redshift, Azure Synapse, Google BigQuery siendo esta última en la que vamos a profundizar.

En Google cloud se cuenta con 4 opciones para implementar Matillion las cuales son:

Matillion ETL for BigQuery – Cluster:

Matillion ETL for BigQuery – Extra Large:

Matillion ETL for BigQuery – Large:

Matillion ETL for BigQuery – Medium:

Matillion ETL for Snowflake:

El servicio se encuentra ubicado en el Marketplace de Google De ahora en adelante se hablará de la versión médium ya en ese momento las necesidades del proyecto no se necesitaban más recursos.

Cada una de las versiones tiene un costo diferente la versión médium tiene un precio estimado sin descuentos de 1437.05 USD al mes teniendo en cuenta que la instancia se encuentre encendida durante 30 días 24 horas y la facturación mínima es por 1 minuto.

Una vez lanzado el servicio desde Marketplace se creará una instancia en compute engine la cual cuenta con una dirección IP estática mediante la cual se puede acceder al servicio

Una vez dentro se debe establecer estructura de proyectos los cuales pueden contener carpetas para organizar el flujo de trabajo los cuales van a contener dos tipos de Jobs orquestación y transformación. los cuales se pueden crear realizando un clic derecho sobre las carpetas.

Cada de los jobs cuenta con distintos componentes y capacidades para el caso del job de orquestación son los siguientes:


Componentes de carga

Estos componentes son los que extraen información de las diversas fuentes para llevarla a Bigquery entre ellos tuve la oportunidad de usar integraciones con Hubspot, APIs, Cloud storage y Facebook. siendo estos solo una pequeña porción de la lista de integraciones disponibles

Componentes de descarga

Los cuales principalmente tienen como fuente una tabla de Bigquery y la llevan a otro destino como Cloud Storage

Componentes DDL

Los cuales permiten manipular las tablas de Bigquery

Componentes de flujo

Los cuales permiten realizar operaciones con los otros componentes

Componentes de iteración

Los cuales permiten crear ciclos de un componente

Componentes de código

Los cuales permiten ejecutar códigos como Bash, Jython, Python 2 y Python 3

Componentes de transformación

Los cuales permiten ejecutar otros Jobs de orquestación y transformación

los nombrados anteriormente solo son algunos de los que tuve la oportunidad de trabajar ya que eran los requeridos para alcanzar las necesidades del proyecto y cabe mencionar que la herramienta cuenta con más.
Los jobs tienen la capacidad de encadenar y ejecutar distintos componentes.

Es posible encadenar y establecer condiciones en un Job o múltiples para su ejecución dentro de otro Job

se cuenta con la capacidad agendar la ejecución de los Jobs dentro del propio Matillion

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?

Duvan Duque

Data Engineer | Google Cloud Associate Cloud Engineer