Algunas de las capacidades de Matillion ETL en Google Cloud
Duvan Duque
Data Engineer | Google Cloud Associate Cloud Engineer
Matilion ETL es un producto que nos permite recopilar datos de distintas fuentes y estructurarlos actualmente cuenta con versiones para Snowflake, Delta Lake en Databricks, Amazon Redshift, Azure Synapse, Google BigQuery siendo esta última en la que vamos a profundizar.
En Google cloud se cuenta con 4 opciones para implementar Matillion las cuales son:
Matillion ETL for BigQuery – Cluster:
- 12 usuarios concurrentes , 36 entornos y autobalanceo zonal para satisfacer la demanda de forma constante
Matillion ETL for BigQuery – Extra Large:
- 12 usuarios concurrentes y 36 entornos
Matillion ETL for BigQuery – Large:
- 5 usuarios concurrentes y 15 entornos
Matillion ETL for BigQuery – Medium:
- 2 usuarios concurrentes y 6 entornos
Matillion ETL for Snowflake:
- Esta opción está dirigida a Snowflake
El servicio se encuentra ubicado en el Marketplace de Google De ahora en adelante se hablará de la versión médium ya en ese momento las necesidades del proyecto no se necesitaban más recursos.
Cada una de las versiones tiene un costo diferente la versión médium tiene un precio estimado sin descuentos de 1437.05 USD al mes teniendo en cuenta que la instancia se encuentre encendida durante 30 días 24 horas y la facturación mínima es por 1 minuto.
Una vez lanzado el servicio desde Marketplace se creará una instancia en compute engine la cual cuenta con una dirección IP estática mediante la cual se puede acceder al servicio
Una vez dentro se debe establecer estructura de proyectos los cuales pueden contener carpetas para organizar el flujo de trabajo los cuales van a contener dos tipos de Jobs orquestación y transformación. los cuales se pueden crear realizando un clic derecho sobre las carpetas.
Cada de los jobs cuenta con distintos componentes y capacidades para el caso del job de orquestación son los siguientes:
Componentes de carga
Estos componentes son los que extraen información de las diversas fuentes para llevarla a Bigquery entre ellos tuve la oportunidad de usar integraciones con Hubspot, APIs, Cloud storage y Facebook. siendo estos solo una pequeña porción de la lista de integraciones disponibles
Componentes de descarga
Los cuales principalmente tienen como fuente una tabla de Bigquery y la llevan a otro destino como Cloud Storage
Componentes DDL
Los cuales permiten manipular las tablas de Bigquery
Componentes de flujo
Los cuales permiten realizar operaciones con los otros componentes
Componentes de iteración
Los cuales permiten crear ciclos de un componente
Componentes de código
Los cuales permiten ejecutar códigos como Bash, Jython, Python 2 y Python 3
Componentes de transformación
Los cuales permiten ejecutar otros Jobs de orquestación y transformación
los nombrados anteriormente solo son algunos de los que tuve la oportunidad de trabajar ya que eran los requeridos para alcanzar las necesidades del proyecto y cabe mencionar que la herramienta cuenta con más.
Los jobs tienen la capacidad de encadenar y ejecutar distintos componentes.
Es posible encadenar y establecer condiciones en un Job o múltiples para su ejecución dentro de otro Job
se cuenta con la capacidad agendar la ejecución de los Jobs dentro del propio Matillion
¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
Duvan Duque
Data Engineer | Google Cloud Associate Cloud Engineer