• Saltar a la navegación principal
  • Saltar al contenido principal
  • Saltar al pie de página
Bluetab

Bluetab

an IBM Company

  • Soluciones
    • DATA STRATEGY
    • DATA READINESS
    • DATA PRODUCTS AI
  • Assets
    • TRUEDAT
    • FASTCAPTURE
    • Spark Tune
  • Conócenos
  • Oficinas
    • España
    • Mexico
    • Perú
    • Colombia
  • talento
    • España
    • TALENT HUB BARCELONA
    • TALENT HUB BIZKAIA
    • TALENT HUB ALICANTE
    • TALENT HUB MÁLAGA
  • Blog
  • English

Bluetab

Entrena y Despliega tu Modelo de Machine Learning en 15 Minutos con Databricks

junio 10, 2025 by Bluetab

Entrena y Despliega tu Modelo de Machine Learning en 15 Minutos con Databricks

Jhon Rojas

Technical Specialist

Introducción

El mundo del machine learning (ML) está evolucionando rápidamente, y herramientas como Databricks están revolucionando cómo los equipos de datos y científicos de datos entrenan y despliegan modelos de ML de manera eficiente. Con su potente infraestructura y capacidades, Databricks hace que todo el proceso de desarrollo de modelos, desde la preparación de los datos hasta el despliegue para la inferencia en tiempo real, sea rápido y escalable. En este blog, se mostrará cómo entrenar y desplegar un modelo de clasificación en Databricks en tan solo 15 minutos.


Entorno Databricks

Se utilizará el entorno de Azure Databricks para realizar una ejecución práctica en la que se creará y desplegará un modelo de Machine Learning. Se ha creado un Workspace de Databricks en la región Central US, de Pricing Tier Standard, dentro del cual se ha creado un Cluster con Databricks Runtime Version 12.2 LTS ML (includes Apache Spark 3.3.2, Scala 2.12) y con 1 Node de Tipo Standard_D4ds_v5.


Dataset

Se utilizará un dataset que proviene de un análisis químico de vinos cultivados en la misma región de Italia, pero derivados de tres cultivares diferentes. El dataset está disponible públicamente en el repositorio de la UCI Machine Learning Repository (https://archive.ics.uci.edu/dataset/109/wine). El conjunto de datos incluye la cantidad de 13 componentes químicos presentes en cada uno de los tres tipos de vino analizados. Estos datos fueron obtenidos para estudiar la relación entre las características químicas del vino y su calidad. El objetivo será generar un modelo de ML para predecir el color de un vino (puede ser rojo o blanco) a partir de sus características químicas.


Repositorio

Los notebooks del ejercicio práctico y los datos usados se encuentran en el siguiente repositorio: https://github.com/jhonrojasbluetab/databricks_ml

Parte 1: Entrena un Modelo de ML Usando Experiments y AutoML

El proceso de entrenar un modelo de machine learning (ML) puede ser complejo y requiere varias etapas, desde la preparación de los datos hasta la selección y ajuste del modelo. Con Databricks, este proceso se simplifica significativamente mediante el uso de AutoML y el módulo Experiments, lo que permite a los usuarios centrarse en tareas de alto nivel, mientras que la plataforma se encarga de las tareas tediosas y técnicas.


1.1 Preparación del Dataset: El Proceso ETL

Antes de empezar a entrenar un modelo, es necesario asegurarse de que los datos estén bien preparados. Esto implica un proceso de ETL (Extracción, Transformación y Carga). Databricks facilita este proceso mediante su integración con Apache Spark. Spark permite procesar datos de manera distribuida y rápida, lo que es ideal para trabajar con grandes volúmenes de información.

El proceso de ETL comienza con la extracción de los datos desde diferentes fuentes, como bases de datos, archivos CSV, archivos Parquet, o incluso desde la web. Gracias a la integración de Databricks con plataformas en la nube como Azure, AWS o GCP, puedes acceder fácilmente a datos almacenados en Azure Blob Storage, Amazon S3 o Google Cloud Storage, entre otros. Una vez que se tienen los datos, es hora de realizar las transformaciones. Esto incluye limpiar los datos, tratar valores faltantes, crear nuevas características (feature engineering), y asegurar que las características estén en el formato adecuado para el modelo. Finalmente, se cargan los datos transformados en una estructura que el modelo puede usar, como un DataFrame de Spark.

Para este caso de uso, se ejecutó el procesó de ETL (el cual no se detallará en este blog porque no es el enfoque de este blog) y se cargaron los datos dentro del Catalog de Databricks. El dataset a utilizar se llama wine_data_df.

Imagen: Datos para el modelo, almacenados en el Catalog de Databricks.

1.2 El Módulo Machine Learning de Databricks

Una vez que los datos están listos, podemos pasar al entrenamiento del modelo. Databricks tiene un potente módulo de Machine Learning que te permite llevar a cabo todo el ciclo de vida de un modelo. Uno de los aspectos más útiles es el uso de MLflow, la plataforma de código abierto para la gestión del ciclo de vida completo de los modelos de machine learning (Databricks, 2025a).

MLflow permite entrenar, registrar, desplegar y gestionar modelos de manera sencilla. Uno de los puntos clave aquí es el uso de Experiments en Databricks. Los Experiments permiten organizar y hacer un seguimiento de diferentes ejecuciones de un modelo, lo que te ayuda a comparar los resultados de varias configuraciones y versiones del modelo .

AutoML es otra característica destacada de Databricks, este módulo automatiza muchas de las decisiones que un científico de datos tomaría durante el proceso de entrenamiento de un modelo, como la selección de algoritmos, la optimización de hiperparámetros, y el preprocesamiento de los datos (Databricks, 2025b). AutoML también ofrece una interfaz sencilla para ejecutar modelos de manera eficiente, sin tener que escribir mucho código.

Para este caso de uso, se usó el Módulo de Machine Learning de Databricks para crear un experimento de Clasificación usando el dataset wine_data_df previamente preparado. La variable que se estimará es el color del vino, 1 si es rojo, 0 si es blanco.

Se ha definido que el experimento tiene un tiempo límite de 10 minutos para evaluar diferentes modelos y elegir el mejor con base en la métrica de desempeño F1 (se puede seleccionar la métrica que se desee).

Imagen: Ejecución de Experimento para Modelo de Clasificación usando AutoML.

1.3 Exploración Automática de Datos: Estadísticas Descriptivas y Visualización

Antes de entrenar el modelo, es esencial realizar un análisis exploratorio de los datos, EDA (Behrens, J. T., 2003), para entender su distribución, detectar posibles outliers (valores atípicos) y descubrir patrones que podrían ser importantes para el modelo. En Databricks, esta exploración se automatiza mediante AutoML, que genera automáticamente estadísticas descriptivas como la media, desviación estándar, mínimos y máximos, valores nulos para cada variable en el conjunto de datos. Además, la plataforma crea visualizaciones interactivas, como histogramas, boxplots y gráficos de dispersión, que permiten detectar de manera visual las distribuciones y las relaciones entre variables. Estas herramientas automáticas de exploración de datos ahorran mucho tiempo y esfuerzo, ya que permiten que los usuarios tengan una visión clara de los datos sin escribir código adicional.

Para este caso de uso, la ejecución del experimento genera inicialmente, y de manera automática, un Notebook con la exploración de datos.

Imagen: Notebook con la Exploración de Datos Automática

A continuación, se muestran algunos resultados que arroja el notebook, como estadísticas del dataset, detalle exploratorio e histograma de las variables, matriz de correlaciones entre variables.

Imagen: Resultado del Notebook de la EDA. Estadísticas del Dataset: número de variables, registros, información de faltantes, duplicados, etc.
Imagen: Resultado del Notebook de la EDA. Detalle exploratorio de la variable explicativa fixed_acidity: algunas estadísticas descriptivas como mínimo, máximo, promedio, faltantes, etc.
Imagen: Resultado del Notebook de la EDA. Mapa de calor con las correlaciones entre las variables del Dataset.

1.4 Modelos Estadísticos y Selección del Mejor Modelo

Una de las grandes ventajas de usar Databricks es su capacidad para probar y evaluar múltiples modelos estadísticos con un mínimo esfuerzo. Cuando entrenas un modelo utilizando AutoML o Experiments, Databricks prueba automáticamente diferentes algoritmos para encontrar el que mejor se adapte a tus datos, para lo cual calcula métricas como precisión, recall, F1-score y AUC-ROC, las cuales sirven para evaluar el desempeño del modelo al medir su capacidad para hacer predicciones correctas y equilibrar entre falsos positivos y falsos negativos  (Powers, 2011).

Algunos de los algoritmos más comunes que Databricks puede probar incluyen:

  • Regresión logística
  • Árboles de decisión
  • Máquinas de soporte vectorial (SVM)
  • Redes neuronales
  • XGBoost

Con el uso de AutoML, Databricks también puede ajustar de forma automática los hiperparámetros de estos modelos, lo que mejora aún más su rendimiento.

Una vez que todos los modelos han sido entrenados, Databricks muestra cuál tiene el mejor rendimiento según las métricas de desempeño, lo que permite seleccionar fácilmente el modelo más adecuado para la tarea. De esta forma, los usuarios no necesitan preocuparse por la implementación de cada modelo, ya que Databricks se encarga de todo el proceso

Para este caso de uso, el experimento evaluó 78 modelos, dentro de los cuales hay xgboost, logistic, random forest, classification tree. El mejor modelo fue un xgboost, que obtuvo el valor más alto de F1 (0.993506), este será el modelo elegido porque proporciona la menor cantidad de predicciones incorrectas, tanto en términos de falsos positivos como falsos negativos.

Imagen: Ejecución del experimento con los modelos de ML obtenidos, ordenados del mejor al peor según la métrica F1.

Para el mejor modelo, se genera automáticamente un Notebook que documenta el proceso completo de obtención del modelo, que incluye pasos como la carga de datos, la creación de los conjuntos de entrenamiento, validación y prueba, el entrenamiento del modelo, la configuración de los hiperparámetros, el análisis de la importancia de las características (mediante SHAP), la matriz de confusión, y las gráficas de las curvas ROC y Precision-Recall. Estos pasos son fundamentales en el entrenamiento de modelos de Machine Learning, ya que permiten evaluar el rendimiento y la capacidad de generalización del modelo (Chien & Tsai, 2020).

Imagen: Notebook con el entrenamiento del Modelo XGBoost seleccionado como el mejor.
Imagen: Resultado del Notebook del Modelo Entrenado. Feature Importance, variables más influyentes en el modelo.
Imagen: Resultado del Notebook del Modelo Entrenado. Matriz de confusión, proporción de predicciones correctas e incorrectas.
Imagen: Resultado del Notebook del Modelo Entrenado. Gráfica de la curva ROC, un AUC cercano a 1 indica un modelo altamente preciso.

Parte 2: Despliega el Modelo con Models y Serving

Una vez que el modelo ha sido entrenado y evaluado, es hora de desplegarlo para que pueda ser utilizado para realizar predicciones en tiempo real o por lotes. Databricks facilita este proceso mediante el uso de Models y Serving.


2.1 Registro del Modelo

El primer paso para el despliegue es el registro del modelo. En Databricks se puede guardar el modelo en el registro de modelos de MLflow. Este registro permite almacenar las versiones del modelo junto con los metadatos relevantes, como las métricas de evaluación, el tipo de modelo y los hiperparámetros utilizados.

El registro es un paso clave porque te permite gestionar y versionar tus modelos, lo que es esencial cuando se trabaja con modelos en producción. Puedes guardar varias versiones del modelo y actualizarlo conforme a nuevas iteraciones y mejoras.

Para este caso de uso, se ha registrado el modelo XGBoost obtenido en el experimento.

Imagen: Registro del modelo XGBoost en Databricks Models.

2.2 Predicciones por Lotes

Una vez que el modelo ha sido registrado, puede ser utilizado para realizar predicciones por lotes (batch). Esto significa que es posible pasar grandes cantidades de datos al modelo de una sola vez para obtener predicciones en masa. Databricks facilita la ejecución de inferencias por lotes mediante la integración con Spark, lo que permite procesar grandes volúmenes de datos de manera eficiente.

Este enfoque es adecuado cuando se tienen grandes conjuntos de datos y no es necesario hacer predicciones en tiempo real, pero aún así se necesita una forma eficiente de procesar los datos y obtener resultados rápidos.

Para este caso de uso, dentro del Módulo de Models de Databricks, se selecciona el modelo registrado y se selecciona la opción User Model For Inference. Luego se selecciona la pestaña Batch Inference, la versión del modelo y el dataset sobre el cual se harán las predicciones.

Imagen: Configuración de ejecución para Predicción por Lotes.

Automáticamente se generará un Notebook que obtendrá la predicción usando el modelo y los datos proporcionados

Imagen: Notebook con la Predicción obtenido usando el Modelo para datos por lotes.

2.3 Predicciones en Tiempo Real

Si se necesita hacer predicciones en tiempo real, Databricks también permite servir el modelo a través de una API REST. Databricks facilita este proceso mediante la función de Model Serving, que expone el modelo como una API REST. Esto significa que se pueden enviar solicitudes HTTP al modelo, que devolverá predicciones basadas en los datos que se envíen.

Model Serving en Databricks es altamente escalable y puede manejar múltiples solicitudes simultáneas. Es ideal para aplicaciones de producción donde es necesario realizar inferencias rápidas y continuas, como sistemas de recomendación en tiempo real, detección de fraude o personalización de contenido.

Para este caso de uso, dentro del Módulo de Models de Databricks, se selecciona el modelo registrado y se selecciona la opción User Model For Inference. Luego se selecciona la pestaña Real-time, la versión del modelo y el nombre del tamaño de la máquina que se usará para alojar el modelo. Esta parte solo está disponible para workspaces de Databricks Premium, por lo cual no logró completarse.

Imagen: Configuración de ejecución para Predicción en tiempo real.

Conclusión

Databricks es una plataforma poderosa y versátil para entrenar y desplegar modelos de machine learning. En este blog, hemos cubierto el proceso desde el entrenamiento de un modelo de clasificación utilizando AutoML y Experiments, hasta su despliegue con Model Serving para hacer predicciones en tiempo real y por lotes. Con herramientas como MLflow, AutoML y Spark, Databricks hace que este flujo de trabajo sea rápido, eficiente y fácil de gestionar. Ya sea que estés trabajando con pequeños conjuntos de datos o grandes volúmenes de información, Databricks tiene las capacidades necesarias para hacer que el modelo esté listo para producción en minutos.

 

Referencias

Behrens, J. T. (2003). Exploratory Data Analysis. In Major Reference Works. Wiley Online Library.

Chien, S., & Tsai, M. (2020). Machine learning: Concepts, algorithms, and applications. Springer. https://doi.org/10.1007/978-3-030-38867-6

Databricks. (2025a). MLflow: Gestiona el ciclo de vida completo de modelos de machine learning. Recuperado el 15 de mayo de 2025, de https://www.databricks.com/product/mlflow

Databricks. (2025b). AutoML: Automatización del entrenamiento de modelos de machine learning. Recuperado el 15 de mayo de 2025, de https://www.databricks.com/product/automl

Powers, D. M. W. (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies, 2(1), 37–63.

Julián Felipe Parra

Technical Specialist

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
DESCUBRE BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY

+

DATA Engineering

+

GEN IA

+

Te puede interesar

Databricks on Azure – An architecture perspective (part 2)

marzo 24, 2022
LEER MÁS

Guía avanzada sobre almacenamiento en Snowflake

octubre 3, 2022
LEER MÁS

Big Data e IoT

febrero 10, 2021
LEER MÁS

La gestión del cambio: El puente entre las ideas y el éxito

febrero 5, 2025
LEER MÁS

MDM como ventaja competitiva en las organizaciones

junio 18, 2024
LEER MÁS

FinOps

mayo 20, 2024
LEER MÁS

Publicado en: Blog, Tech

Domina los Costos en la Nube: Optimización de GCS y BigQuery en Google Cloud

marzo 17, 2025 by Bluetab

Domina los Costos en la Nube: Optimización de GCS y BigQuery en Google Cloud

Julián Felipe Parra

Technical Specialist

Introducción

En muchas ocasiones, los costos en la nube pueden dispararse debido a una configuración inadecuada o a la falta de conocimiento sobre cómo aprovechar al máximo los servicios disponibles. En el caso de Google Cloud Platform (GCP), los servicios más utilizados para almacenamiento son Google Cloud Storage (GCS) y BigQuery. Sin embargo, sin un enfoque adecuado en su configuración y administración, pueden generar gastos innecesarios.

El objetivo de este artículo es proporcionar un conjunto de recomendaciones para optimizar el uso de estos servicios, enfocándonos en cómo configurar correctamente los buckets de GCS y las tablas de BigQuery, asegurándonos de que cada servicio esté alineado con las necesidades específicas de nuestra implementación. A lo largo del artículo, exploraremos las mejores estrategias para gestionar el ciclo de vida de los datos, decidir cuándo activar el versionado, cómo organizar la estructura de almacenamiento en función del uso o tipología de los datos y qué aspectos técnicos deben considerarse para mantener un control eficiente de los costos.

Además, vamos a abordar un conjunto de preguntas clave que debemos plantearnos al configurar estos servicios. Responder estas preguntas nos ayudará a tomar decisiones más informadas y evitar sobrecostos innecesarios.

También veremos cómo, utilizando las APIs de Google, podremos revisar los metadatos actuales de nuestros recursos, permitiéndonos auditar y mejorar la configuración de nuestros entornos de almacenamiento de forma sencilla y efectiva.


Recomendaciones

Clase de almacenamiento GCS

Utiliza clases de almacenamiento como Standard, Nearline, Coldline, y Archive según la frecuencia de acceso a los datos. Por ejemplo, si los datos no serán accedidos en los próximos 30 días, podrías moverlos a Nearline o Coldline para optimizar los costos.

Ciclo de vida de los objetos en GCS

Configura políticas de ciclo de vida para mover, eliminar o archivar objetos automáticamente basándote en la antiguedad de los mismos. Esto ayuda a reducir el costo de almacenamiento sin intervención manual.

Versionado en GCS

Habilita el versionado solo cuando sea necesario. Si los datos cambian frecuentemente o si necesitas poder recuperar versiones anteriores de un archivo, el versionado es útil. Sin embargo, asegúrate de gestionar las versiones antiguas para no generar costos innecesarios por almacenamiento duplicado.

Buenas prácticas BigQuery

Particionamiento

El particionamiento es una técnica que divide las tablas en segmentos más pequeños y manejables según una columna específica, como la fecha. En BigQuery, el particionamiento por fecha es común, ya que permite reducir la cantidad de datos escaneados durante las consultas. Al particionar las tablas, se optimizan las consultas al enfocarse solo en los segmentos de datos relevantes, lo que mejora el rendimiento y reduce los costos asociados con el procesamiento de grandes volúmenes de datos.


Clustering

El clustering organiza los datos dentro de una tabla según una o más columnas de forma que los registros con valores similares se almacenan cerca unos de otros. Esta técnica es útil para mejorar la eficiencia de las consultas que filtran o agrupan por las columnas seleccionadas para el clustering. Al usar clustering junto con particionamiento, se puede mejorar aún más el rendimiento y reducir los costos de las consultas, ya que BigQuery puede leer menos datos y realizar búsquedas más rápidas sobre grandes conjuntos de datos.


Antipatrones

Aunque el particionamiento y el clustering son poderosas herramientas para optimizar el rendimiento y reducir costos, también existen varios antipatrones que debes evitar en BigQuery. Un antipatrón común es no diseñar el esquema de particionamiento y clustering en función de cómo se realizan las consultas. Por ejemplo, particionar por una columna que no se usa frecuentemente en los filtros de las consultas puede resultar en un uso ineficiente del espacio y aumentar los costos de procesamiento. Otro antipatrón es tener un número excesivo de columnas con clustering, lo que puede llevar a una sobrecarga de administración y a tiempos de consulta más lentos.

Además, un error frecuente es realizar consultas sin un uso adecuado de las funciones de agregación o sin aplicar filtros eficientes, lo que puede provocar que se escaneen grandes volúmenes de datos innecesarios, aumentando los costos. Un antipatrón muy importante es el uso de SELECT *, que es común en algunas consultas pero puede ser extremadamente costoso en BigQuery. Esto se debe a que BigQuery es un sistema de bases de datos columnar, lo que significa que almacena los datos por columnas, no por filas. Al usar SELECT *, estás solicitando todos los datos de todas las columnas, lo que puede resultar en una gran cantidad de datos escaneados innecesariamente, aumentando los costos de la consulta y afectando el rendimiento. En su lugar, se recomienda seleccionar solo las columnas necesarias para la consulta, optimizando tanto el rendimiento como los costos.

Otro antipatrón es la sobrecarga de las consultas con un número elevado de uniones o subconsultas complejas, lo que puede impactar negativamente el rendimiento.


Multirregión en GCS y BigQuery

Google Cloud Storage (GCS) y BigQuery ofrecen configuraciones multirregión que permiten distribuir datos y consultas a través de múltiples ubicaciones geográficas, lo que puede proporcionar ventajas significativas en términos de disponibilidad y desempeño. Sin embargo, es fundamental comprender las ventajas y desventajas que tienen estas configuraciones para tomar decisiones informadas al diseñar arquitecturas.


Google Cloud Storage (GCS)

Ventajas:

  • Alta disponibilidad y durabilidad: Los datos se replican automáticamente entre diferentes regiones dentro del continente seleccionado. Esto asegura que, en caso de un fallo en una región específica, el acceso a los datos no se vea afectado.
  • Optimización del acceso global: Los usuarios y servicios distribuidos en diferentes partes del mundo pueden acceder a los datos de manera más eficiente, aprovechando la proximidad geográfica.
  • Facilidad de gestión: Al elegir una configuración multirregión, no es necesario gestionar manualmente la replicación entre regiones. Google Cloud maneja automáticamente este proceso.

Desventajas:

  • Costo más elevado: Al elegir una ubicación multirregión, los costos de almacenamiento pueden aumentar, ya que los datos se replican en varias ubicaciones. Este costo adicional debe ser evaluado en función de los requisitos de disponibilidad.
  • Latencia adicional: Si bien el acceso global puede beneficiarse de la proximidad, también se debe considerar que el tráfico interregional puede generar latencias, especialmente si se usan servicios fuera de la región multirregión.

Utiliza ubicaciones multirregión cuando la alta disponibilidad y la resiliencia sean esenciales para tu aplicación. Por ejemplo, aplicaciones críticas que deben estar siempre disponibles, incluso durante desastres regionales.

Si los costos son una preocupación, evalúa si realmente necesitas una configuración multirregión o si una ubicación única o una configuración regional puede ser suficiente para tus necesidades.


BigQuery

Ventajas:

  • Desempeño optimizado para consultas globales: Cuando se ejecutan consultas en conjuntos de datos almacenados en una configuración multirregión, BigQuery puede optimizar la distribución de la carga de trabajo, ejecutando partes de las consultas cerca de los datos para reducir la latencia.
  • Alta disponibilidad de datos: Al igual que con GCS, los datos almacenados en BigQuery en una ubicación multirregión se replican automáticamente entre varias regiones, garantizando la durabilidad y disponibilidad incluso en situaciones de fallos regionales.
  • Reducción de la latencia para usuarios globales: Las consultas pueden ejecutarse más rápidamente si los datos están cerca de la ubicación de los usuarios finales, mejorando el tiempo de respuesta en escenarios globales.

Desventajas:

  • Costo por consultas interregionales: Aunque BigQuery maneja el procesamiento de manera eficiente, las consultas que abarcan múltiples regiones pueden generar costos adicionales, ya que se incurre en tarifas de transferencia de datos entre regiones.
  • Posible complejidad en la gestión de datos: Al almacenar datos en una configuración multirregión, debes estar al tanto de las políticas de acceso y las implicaciones de rendimiento para asegurarte de que las consultas no se vean innecesariamente afectadas por la latencia interregional.

Si tu aplicación requiere análisis en tiempo real o consultas que involucren grandes volúmenes de datos distribuidos globalmente, usar una configuración multirregión en BigQuery puede mejorar significativamente el rendimiento.

Considera el costo de las transferencias interregionales si tu flujo de trabajo involucra consultas entre datos almacenados en diferentes regiones. Para evitar costos innecesarios, puede ser útil limitar las consultas a una región específica o consolidar los datos en una región centralizada.

Ten en cuenta la ubicación de tus usuarios y servicios, ya que elegir la región correcta puede impactar tanto el costo como el desempeño de las consultas.


Herramientas para monitorear y controlar costos y rendimiento

En el entorno de la nube, controlar los costos y mantener el rendimiento óptimo de los servicios es esencial para una gestión eficiente de los recursos. Google Cloud ofrece varias herramientas que facilitan el monitoreo, la optimización de costos y el análisis del rendimiento de servicios como Google Cloud Storage (GCS) y BigQuery. A continuación, revisamos algunas de las herramientas más útiles disponibles en Google Cloud para gestionar ambos servicios.

Google Cloud Billing(Monitoreo de Costos y Estimaciones)

Es una de las herramientas principales para gestionar y monitorear los costos asociados con todos los servicios de Google Cloud, incluyendo GCS y BigQuery. Proporciona visibilidad detallada sobre el uso de los servicios y las tarifas que se están generando.

Funcionalidades clave:

  • Estadísticas de uso y costos: Permite obtener informes detallados sobre el uso de GCS y BigQuery, segmentados por proyectos, servicios o incluso usuarios. Puedes analizar los costos históricos, estimar los gastos futuros y crear alertas para evitar sorpresas.
  • Presupuestos y alertas: Puedes configurar presupuestos para cada servicio o proyecto y recibir alertas si los costos superan ciertos umbrales. Esto es especialmente útil para evitar gastos imprevistos en BigQuery, donde las consultas interregionales o el almacenamiento de grandes volúmenes de datos pueden generar costos adicionales.
  • Informes de costos detallados: Accede a informes granulares sobre las tarifas de almacenamiento, transferencia de datos, ejecución de consultas y otros servicios relacionados. Esta información es útil para identificar áreas donde se puede optimizar el uso y reducir costos.
  • Cost Breakdown: Puedes segmentar los costos por servicio, región, etiquetas o proyectos. Esto es útil para desglosar específicamente cuánto estás gastando en GCS y BigQuery, permitiéndote identificar áreas donde podrías reducir el gasto.
  • Recomendaciones de optimización: Google Cloud Billing ofrece recomendaciones personalizadas para optimizar los costos, por ejemplo, sugiriendo la transición de almacenamiento a clases más económicas en GCS o la revisión de patrones de consultas costosas en BigQuery.
  • Forecasting y Análisis Predictivo: La herramienta también ofrece funcionalidades para predecir los costos futuros basándose en el uso histórico y la tendencia actual, lo que te ayuda a planificar los recursos de manera más eficiente.

Usa Google Cloud Billing para establecer un control regular de los costos de GCS y BigQuery, y configura alertas para mantenerte dentro de los límites presupuestarios. Además, puedes crear informes personalizados para realizar un seguimiento más efectivo.

Utiliza las recomendaciones de optimización de Google Cloud Cost Management para ajustar la infraestructura de GCS y BigQuery a tus necesidades reales, asegurando una gestión de costos más eficaz.


Google Cloud Monitoring(Monitoreo de los servicios)

Para gestionar el rendimiento de GCS y BigQuery, Google Cloud Monitoring es la herramienta recomendada. Esta herramienta permite visualizar el estado de los recursos de Google Cloud, incluidas las métricas de rendimiento de almacenamiento y consultas.

Funcionalidades clave:

  • Métricas de rendimiento de GCS: Puedes monitorear tanto el tiempo de respuesta como la tasa de transferencia de los objetos almacenados en Google Cloud Storage (GCS), lo que te ayudará a detectar problemas de rendimiento que puedan afectar la eficiencia en el acceso a los datos. Además, es posible monitorear el uso del almacenamiento y obtener una visión clara de la cantidad de espacio que cada bucket está utilizando. Esto es clave para identificar rápidamente qué buckets están generando costos elevados, permitiéndote tomar decisiones informadas sobre la gestión del almacenamiento. También es importante monitorear el uso de la API de GCS, ya que una alta cantidad de solicitudes o un uso ineficiente de la API puede generar costos adicionales y afectar el rendimiento.
  • Métricas de rendimiento de BigQuery: Google Cloud Monitoring ofrece métricas detalladas sobre el rendimiento de las consultas en BigQuery, tales como el tiempo de ejecución, la cantidad de datos procesados y los recursos consumidos. Estas métricas son fundamentales para identificar consultas que podrían estar generando cuellos de botella o costos elevados. Además, es posible monitorear el uso de la API de BigQuery, lo que te permitirá detectar patrones anómalos en el consumo de la API, evitando posibles sobrecargos y asegurando un rendimiento óptimo de tus consultas. Monitorear tanto el uso de la API como el almacenamiento te permite optimizar tanto la infraestructura como los costos asociados con el procesamiento de datos.
  • Alertas de rendimiento: Al igual que con los costos, puedes establecer alertas para el rendimiento, como el tiempo de respuesta de GCS o la duración de las consultas en BigQuery, para tomar medidas preventivas si los indicadores de rendimiento superan ciertos umbrales.

Usa Google Cloud Monitoring para realizar un seguimiento constante de las métricas clave relacionadas con GCS y BigQuery, asegurando que ambas plataformas funcionen de manera eficiente y sin cuellos de botella que puedan afectar la experiencia del usuario o generar costos innecesarios.


BigQuery Query Plan Explanation(Optimización de Consultas)

Una de las principales preocupaciones en BigQuery es el rendimiento de las consultas. BigQuery Query Plan Explanation es una herramienta avanzada que permite examinar los planes de ejecución de las consultas y entender cómo BigQuery procesa los datos.

Funcionalidades clave:

  • Plan de ejecución: Analiza el plan de ejecución de las consultas, lo que te permite identificar posibles optimizaciones, como el uso de índices, particiones o la reorganización de las tablas.
  • Recomendaciones de optimización: En el plan de ejecución, BigQuery proporciona recomendaciones sobre cómo mejorar la consulta para reducir los costos y mejorar el tiempo de ejecución, como evitar la lectura de datos innecesarios o mejorar el uso de recursos.
  • Optimización de costos: Al mejorar las consultas, puedes reducir significativamente los costos asociados con la ejecución de las mismas, especialmente en escenarios donde se procesan grandes volúmenes de datos.

Utiliza BigQuery Query Plan Explanation para revisar y optimizar las consultas que realizan un uso intensivo de recursos, asegurando que el procesamiento de datos se haga de la manera más eficiente posible.

Preguntas claves

Para poder tomar la mejor decisión te puedes basar en la siguiente serie de preguntas y escenarios planteados:

  1. ¿Cuál es el volumen de datos que manejarás?
    • Escenario 1: Datos a gran escala
      Si estás gestionando un sistema de análisis de logs de aplicaciones distribuidas, el volumen de datos podría ser muy alto, con millones de registros generados cada hora. En este caso, podrías optar por usar GCS con la clase de almacenamiento Nearline o Coldline para los logs que no se consultan frecuentemente, pero que deben conservarse por un periodo largo.
    • Escenario 2: Datos pequeños y estáticos
      Si manejas un sitio web con archivos estáticos (por ejemplo, imágenes, CSS, etc.), el volumen de datos puede ser pequeño y relativamente estable. En este caso, podrías almacenar los archivos en un bucket con la clase Standard, ya que el acceso será frecuente y rápido.
  1. ¿Cuál es el ciclo de vida de tus datos?
    • Escenario 1: Datos temporales
      Imagina que gestionas un sistema de análisis de datos en tiempo real, donde los datos sólo tienen valor durante unas horas o días (por ejemplo, registros de métricas de uso de una aplicación móvil). Después de cierto tiempo, estos datos ya no son útiles. En este caso, puedes configurar un ciclo de vida en GCS para mover los archivos a Coldline después de 30 días y, después de 90 días, eliminarlos.
    • Escenario 2: Datos históricos y de cumplimiento
      Si tienes datos que deben ser almacenados durante años por razones de cumplimiento o auditoría (como registros financieros o médicos), debes asegurarte de que estos se conserven en almacenamiento de largo plazo y estén protegidos. En este caso, Coldline o Archive en GCS serían las mejores opciones, y podrías aplicar políticas de retención para garantizar que los datos se mantengan durante el tiempo requerido.
  1. ¿Necesitas versionar tus datos?
    • Escenario 1: Versionado de datos críticos
      Supongamos que estás manejando datos sensibles, como documentos legales o informes financieros, y necesitas poder recuperar versiones anteriores en caso de errores o cambios no deseados. Habilitar el versionado en GCS sería útil, ya que te permite mantener un historial de las versiones de cada archivo. Sin embargo, es importante configurar una política para eliminar versiones antiguas después de un tiempo para evitar el uso excesivo de almacenamiento.
    • Escenario 2: Datos no modificables
      Si trabajas con archivos que no cambian con frecuencia, como archivos multimedia o datos de respaldos que se actualizan solo una vez cada cierto tiempo, el versionado podría no ser necesario. En este caso, puedes evitar habilitar el versionado y ahorrar en costos de almacenamiento innecesarios.
  1. ¿Cómo organizar tus datos en GCS?
    • Escenario 1: Múltiples tipos de datos y permisos diferenciados
      Si trabajas con una organización que maneja diferentes tipos de datos (por ejemplo, datos de clientes, logs de servidores, imágenes de productos, etc.), lo ideal sería crear diferentes buckets para cada tipo de datos. Esto no solo organiza mejor los recursos, sino que también permite aplicar políticas de seguridad y ciclo de vida diferenciadas.
      • Bucket 1: Logs de servidores (logs)
      • Bucket 2: Archivos de usuarios (user-data)
      • Bucket 3: Imágenes de productos (product-images)
      • Además, puedes aplicar políticas de ciclo de vida distintas en cada bucket. Por ejemplo, los logs de servidores pueden tener una retención corta (mover a Coldline después de 30 días), mientras que las imágenes de productos pueden estar almacenadas a largo plazo en Nearline o Archive.
    • Escenario 2: Múltiples proyectos y entornos
      En un entorno con varios proyectos, podrías crear un bucket por proyecto o incluso por entorno (producción, desarrollo, pruebas) para mantener el aislamiento y la gestión controlada.
  1. ¿BigQuery será utilizado para análisis en tiempo real o consultas históricas?
    • Escenario 1: Análisis en tiempo real
      Supón que estás trabajando con un sistema de monitoreo de eventos en tiempo real, donde los datos se generan y se consultan de inmediato (por ejemplo, análisis de comportamiento de usuarios en una plataforma web). En este caso, deberías configurar tablas particionadas en BigQuery por fecha para asegurarte de que las consultas solo analicen los datos más recientes y no incurras en costos innecesarios por escanear grandes volúmenes de datos históricos.

      Partición por fecha: Crea tablas particionadas por fecha para consultas diarias de los datos más recientes.
    • Escenario 2: Consultas históricas
      Si trabajas con un sistema donde las consultas se hacen sobre grandes volúmenes de datos históricos (por ejemplo, análisis de tendencias de ventas a lo largo de varios años), entonces deberías usar clustering en BigQuery para organizar los datos y optimizar las consultas por las columnas más consultadas (como ID de producto, categoría, etc.).

      Clustering: Crear un clustering por producto_id y categoria_id para optimizar las consultas sobre estos campos.
  1. ¿Tienes políticas de seguridad y acceso claras para cada servicio?
    • Escenario 1: Acceso diferenciado para equipos
      Si tienes diferentes equipos (por ejemplo, equipo de desarrollo, operaciones, y análisis de datos), es fundamental definir roles y permisos para cada bucket en GCS y las tablas en BigQuery. Asegúrate de que solo los usuarios autorizados puedan modificar o acceder a datos sensibles.

      GCS: Usa IAM para otorgar permisos específicos a los diferentes buckets. Por ejemplo, solo el equipo de operaciones debe tener acceso de lectura/escritura al bucket de logs (logs).

      BigQuery: Asigna permisos de lectura a los analistas de datos para las tablas de BigQuery, pero solo permite escritura al equipo de desarrollo.
    • Escenario 2: Acceso por ubicación geográfica
      Si estás trabajando en una región con regulaciones de protección de datos (por ejemplo, en la UE), puedes configurar ubicaciones regionales en GCS para asegurar que los datos se almacenan en una región específica y controlar el acceso a ellos de acuerdo con las normativas locales.
      Con estos escenarios, tienes un marco claro de cómo abordar las decisiones de almacenamiento, ciclo de vida, versionado y seguridad, según las necesidades de tu proyecto.

Optimización

Para que puedas optimizar los costos aplicando las recomendaciones que se vieron anteriormente, es necesario que conozcas cómo están configurados los servicios, para esto puedes revisar varios ejemplos de código para obtener los metadatos de tus recursos en Google Cloud Storage (GCS) y BigQuery, utilizando las APIs de Google Cloud (en Python). Esto te permitirá obtener información sobre la configuración actual y ayudarte a identificar posibles mejoras o cambios.

  1. Revisar los metadatos de un bucket en GCS
    • Este código obtiene información sobre un bucket en Google Cloud Storage, incluyendo la clase de almacenamiento, las políticas de ciclo de vida, y más.
    • Instalar dependencias: Si no lo has hecho aún,  instala la biblioteca cliente de Google Cloud Storage en Python:

pip install google-cloud-storage
 

Código para obtener metadatos del bucket:


import csv
import concurrent.futures
from google.cloud import storage

#cambiar nombre del project-id
client = storage.Client(project="project-id")

def obtener_metadatos_bucket(bucket):
    metadatos = {
        "nombre_bucket": bucket.name,
        "ubicacion_bucket": bucket.location,
        "clase_almacenamiento": bucket.storage_class,
        "versionamiento_habilitado": bucket.versioning_enabled,
        "reglas_ciclo_vida": str(bucket.lifecycle_rules) if bucket.lifecycle_rules else "No hay reglas",
    }

    objetos = []
    blobs = client.list_blobs(bucket.name)
    for blob in blobs:
        objetos.append({
            "nombre_objeto": blob.name,
            "tamano_objeto": f"{blob.size} bytes"
        })

    return metadatos, objetos

def guardar_metadatos_csv(nombre_archivo, metadatos_buckets):
    with open(nombre_archivo, mode='w', newline='') as file:
        writer = csv.writer(file)

        # Encabezados
        writer.writerow(["Nombre del Bucket", "Ubicación", "Clase de Almacenamiento", "Versionamiento", "Reglas Ciclo de Vida", "Nombre del Objeto", "Tamaño del Objeto"])

        # Escribir los metadatos de cada bucket
        for metadatos, objetos in metadatos_buckets:
            for objeto in objetos:
                writer.writerow([
                    metadatos["nombre_bucket"],
                    metadatos["ubicacion_bucket"],
                    metadatos["clase_almacenamiento"],
                    metadatos["versionamiento_habilitado"],
                    metadatos["reglas_ciclo_vida"],
                    objeto["nombre_objeto"],
                    objeto["tamano_objeto"]
                ])

def procesar_bucket(bucket):
    try:
        metadatos, objetos = obtener_metadatos_bucket(bucket)
        return metadatos, objetos
    except Exception as e:
        print(f"Error al procesar el bucket {bucket.name}: {e}")
        return None

def obtener_y_guardar_metadatos():
    metadatos_buckets = []

    buckets = client.list_buckets()

    # Usar ThreadPoolExecutor para paralelizar la carga de metadatos
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
        futures = {executor.submit(procesar_bucket, bucket): bucket for bucket in buckets}

        for future in concurrent.futures.as_completed(futures):
            resultado = future.result()
            if resultado:
                metadatos_buckets.append(resultado)

    guardar_metadatos_csv('metadatos_buckets.csv', metadatos_buckets)

    print("Metadatos guardados en el archivo 'metadatos_buckets.csv'")

if __name__ == "__main__":
    obtener_y_guardar_metadatos()


 

Este script te permitirá ver información sobre:

  • La ubicación del bucket (para asegurarte de que cumple con las normativas de regulación de datos, si es necesario).
  • La clase de almacenamiento (Standard, Nearline, Coldline, Archive).
  • Si el versionado está habilitado.
  • Las políticas de ciclo de vida configuradas para el bucket.
  • Un listado de objetos dentro del bucket y su tamaño.
  1. Revisar los metadatos de una tabla en BigQuery

 

Este código obtiene metadatos sobre una tabla de BigQuery, como su esquema, particiones, y detalles de almacenamiento.

 

Instalar dependencias: Si aún no lo has hecho, instala el SDK de Google Cloud para BigQuery:

pip install google-cloud-bigquery 

Código para obtener metadatos de una tabla en BigQuery:

import csv
import concurrent.futures
from google.cloud import bigquery
from google.api_core.exceptions import NotFound

#cambiar nombre del project-id
client = bigquery.Client(project="project-id")

def obtener_metadatos_tabla(dataset_id, table_id):
    try:
        table_ref = client.dataset(dataset_id).table(table_id)
        
        table = client.get_table(table_ref)
        
        partition_field = "N/A"
        if table.time_partitioning and table.time_partitioning.field:
            partition_field = table.time_partitioning.field
        
        metadatos = {
            "dataset_id": dataset_id,
            "table_id": table.table_id,
            "descripcion": table.description,
            "esquema": ', '.join([f"{field.name} ({field.field_type})" for field in table.schema]),
            "partitioning_type": table.partitioning_type if table.partitioning_type else "No particionada",
            "partition_field": partition_field,  # Usamos la variable con la partición
            "clustering_fields": ', '.join(table.clustering_fields) if table.clustering_fields else "No clustering",
            "tamaño_bytes": table.num_bytes,
            "numero_filas": table.num_rows
        }
        return metadatos
    except NotFound:
        print(f"Tabla no encontrada: {dataset_id}.{table_id}")
        return None

def obtener_tablas_datasets():
    metadatos_tablas = []

    datasets = client.list_datasets()

    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
        futures = []
        
        for dataset in datasets:
            tablas = client.list_tables(dataset.dataset_id)
            for tabla in tablas:
                futures.append(executor.submit(obtener_metadatos_tabla, dataset.dataset_id, tabla.table_id))
        
        for future in concurrent.futures.as_completed(futures):
            metadatos = future.result()
            if metadatos:
                metadatos_tablas.append(metadatos)

    return metadatos_tablas

def guardar_metadatos_csv(nombre_archivo, metadatos_tablas):
    with open(nombre_archivo, mode='w', newline='') as file:
        writer = csv.DictWriter(file, fieldnames=metadatos_tablas[0].keys())
        writer.writeheader()
        writer.writerows(metadatos_tablas)

def procesar_metadatos():
    metadatos_tablas = obtener_tablas_datasets()

    guardar_metadatos_csv('metadatos_tablas.csv', metadatos_tablas)
    print("Metadatos guardados en el archivo 'metadatos_tablas.csv'")

if __name__ == "__main__":
    procesar_metadatos()


 

Este script te permitirá obtener información clave sobre:

  • El esquema de la tabla (nombres y tipos de los campos).
  • Particionamiento: Si la tabla está particionada por fecha u otra columna y cómo se está gestionando.
  • Clustering: Si la tabla usa clustering para optimizar las consultas.
  • Tamaño de la tabla y el número de filas.
  1. Obtener detalles sobre el uso de GCS y BigQuery

 

Para obtener más detalles acerca del uso y las métricas de tus servicios de GCS y BigQuery, puedes utilizar el servicio de Cloud Monitoring o la API de Stackdriver para obtener métricas sobre almacenamiento y consultas, pero esto va más allá de revisar metadatos y entra en el análisis de rendimiento.

 

Conclusión

 

En resumen, la optimización de los costos en Google Cloud Platform, especialmente en servicios clave como GCS y BigQuery, es fundamental para mantener un control eficiente sobre el gasto y maximizar el rendimiento de tus recursos. Siguiendo las recomendaciones sobre almacenamiento, ciclo de vida de los datos, versionado y seguridad, podrás tomar decisiones más informadas y alineadas con las necesidades específicas de tu proyecto. Además, con las herramientas y APIs disponibles, puedes auditar y ajustar continuamente tu infraestructura para asegurar que siempre estés aprovechando al máximo cada recurso. Con una gestión adecuada, los costos no tienen por qué ser un obstáculo, sino una oportunidad para mejorar la eficiencia y la escalabilidad de tu plataforma en la nube.

Julián Felipe Parra

Technical Specialist

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
DESCUBRE BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY

+

DATA Engineering

+

GEN IA

+

Te puede interesar

Conceptos básicos de AWS Glue

julio 22, 2020
LEER MÁS

PERSONAL MAPS: conociéndonos más

octubre 24, 2023
LEER MÁS

¿Cuánto vale tu cliente?

octubre 1, 2020
LEER MÁS

Data Mesh

julio 27, 2022
LEER MÁS

Detección de Fraude Bancario con aprendizaje automático II

septiembre 17, 2020
LEER MÁS

Tenemos Plan B

septiembre 17, 2020
LEER MÁS

Publicado en: Blog, Tech

La gestión del cambio: El puente entre las ideas y el éxito

febrero 5, 2025 by Bluetab

La gestión del cambio: El puente entre las ideas y el éxito

Natalia Segovia Rueda

Data Governance Specialist | Project Manager

En el gran universo de los proyectos, ya sea en el ámbito del gobierno del dato o en cualquier otra disciplina, hay una constante que a menudo se subestima: la gestión del cambio.

Puedes tener el proyecto más revolucionario, con un diseño impecable y tecnología de vanguardia, pero si no consigues que las personas lo adopten y lo integren en su día a día, el proyecto corre un alto riesgo de fracasar.

La importancia de la transición

Un estudio de McKinsey señala que solo el 30% de las transformaciones empresariales logran cumplir con sus objetivos completos. (McKinsey & Company, 2021). Esta cifra pone de manifiesto una realidad alarmante: el éxito técnico y estratégico no garantiza el éxito organizacional.

La gestión del cambio actúa como un puente entre la solución y su implementación efectiva. Sin este puente, las iniciativas quedan en ideas que no logran materializarse en resultados tangibles.

¿Por qué fallan los proyectos?

En el contexto de proyectos de gobierno del dato, la gestión del cambio cobra una importancia aún mayor. Estas iniciativas no solo implican la implementación de nuevas herramientas o la definición de procesos, sino que también exigen una transformación cultural dentro de la organización.

Crear una cultura de datos, donde cada miembro de la empresa valore y utilice los datos como un activo estratégico, requiere tiempo, esfuerzo y, sobre todo, una estrategia sólida de cambio organizacional.

Muchos líderes se centran exclusivamente en los aspectos técnicos del proyecto, olvidando que el verdadero reto radica en cambiar comportamientos, hábitos y formas de trabajo consolidadas.

Claves para una gestión del cambio efectiva

  1. Comunicación constante: Las personas necesitan entender el «por qué» detrás del cambio. Una comunicación clara y consistente es crucial para reducir incertidumbres y ganar aceptación.
  2. Liderazgo visible: Los líderes deben ser los primeros en adoptar y promover el cambio. Su compromiso es un factor motivador para el resto de la organización.
  3. Formación y soporte: Implementar cambios sin capacitar a las personas genera frustración. Proveer las herramientas y el conocimiento necesario es clave.
  4. Medición y ajustes: Evaluar constantemente cómo se está desarrollando la transición permite corregir errores y ajustar la estrategia según sea necesario.

El éxito de un proyecto no radica solo en la calidad de su planificación o en el presupuesto invertido, sino en su capacidad para transformar a las personas y las organizaciones.

La gestión del cambio no es un complemento, es el núcleo que conecta la innovación con el impacto real.

Por ello, debemos abordarla con la misma rigurosidad y atención que cualquier otra fase del proyecto.

Como profesionales, tenemos la responsabilidad de no solo diseñar grandes soluciones, sino también de asegurarnos de que estas soluciones encuentren un lugar en las dinámicas diarias de las personas.

Solo así lograremos que nuestras ideas no se queden en el papel, sino que se conviertan en auténticos motores de cambio.

  • Comunicación constante: Las personas necesitan entender el "por qué" detrás del cambio. Una comunicación clara y consistente es crucial para reducir incertidumbres y ganar aceptación.
  • Liderazgo visible: Los líderes deben ser los primeros en adoptar y promover el cambio. Su compromiso es un factor motivador para el resto de la organización.
  • Formación y soporte: Implementar cambios sin capacitar a las personas genera frustración. Proveer las herramientas y el conocimiento necesario es clave.
  • Medición y ajustes: Evaluar constantemente cómo se está desarrollando la transición permite corregir errores y ajustar la estrategia según sea necesario.

El éxito de un proyecto no radica solo en la calidad de su planificación o en el presupuesto invertido, sino en su capacidad para transformar a las personas y las organizaciones.
La gestión del cambio no es un complemento, es el núcleo que conecta la innovación con el impacto real.
Por ello, debemos abordarla con la misma rigurosidad y atención que cualquier otra fase del proyecto.
Como profesionales, tenemos la responsabilidad de no solo diseñar grandes soluciones, sino también de asegurarnos de que estas soluciones encuentren un lugar en las dinámicas diarias de las personas.
Solo así lograremos que nuestras ideas no se queden en el papel, sino que se conviertan en auténticos motores de cambio.

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
DESCUBRE BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY
DATA FABRIC
AUGMENTED ANALYTICS

Te puede interesar

Gobierno de Datos: ¿tendencia o necesidad?

octubre 13, 2022
LEER MÁS

KubeCon 2023: Una mirada hacia el futuro de Kubernetes

abril 26, 2023
LEER MÁS

Mi experiencia en el mundo de Big Data – Parte II

febrero 4, 2022
LEER MÁS

Bluetab se incorporará a IBM

julio 9, 2021
LEER MÁS

MODELOS DE ENTREGA DE SERVICIOS EN LA NUBE

junio 27, 2022
LEER MÁS

LA BANCA Y LA ERA DEL OPEN DATA

abril 19, 2023
LEER MÁS

Publicado en: Blog, tendencias

¿Cómo pueden las empresas asegurarse de que sus datos estén estructurados, escalables y disponibles cuando se necesiten?

septiembre 13, 2024 by Bluetab

¿Cómo pueden las empresas asegurarse de que sus datos estén estructurados, escalables y disponibles cuando se necesiten?

Rodrigo (SACDOR) Casiano

Data Architect | Data Tech Lead | Data Management | IA Engineer

Actualmente para las empresas impulsadas por los datos, la gestión efectiva e inteligencia artificial se han vuelto primordiales; cada clic, compra, contenido en redes sociales, telemetría de autos, maquinas  e interacción genera información que, cuando se aprovecha correctamente, puede desbloquear nuevas ideas que aportan valor impulsando el crecimiento y la innovación, permitiendo diferenciarlas de otras empresas del mismo sector convirtiendo a la información generada en su ADN, pero ¿Cómo pueden las empresas asegurarse de que sus datos estén bien estructurados, sean escalables y estén disponibles cuando se necesiten? La respuesta radica en una sólida Arquitectura de Datos.

La Arquitectura de Datos es el plano que guía el diseño, la organización y la integración de los sistemas dentro y fuera de una organización, es el fundamento principal sobre el cual se construyen los productos de datos que permiten diferenciar a las empresas. A continuación, exploraremos los pilares clave una Arquitectura de Datos, tomando inspiración del libro «Diseñando Aplicaciones Intensivas en Datos» de Martin Kleppmann.

Pilar 1: Confiabilidad

La confiabilidad es la base de cualquier arquitectura de datos, esto lo hace el pilar más importante entre todos. Hoy más que nunca, las empresas confían en sus datos para tomar decisiones críticas, y datos poco confiables pueden llevar a costosos errores, por ejemplo, en las industrias reguladas como lo es la Banca, los reportes generados para las entidades reguladoras deben ser confiables, de lo contrario podrían ser multados, impactando fuertemente al negocio, no solo en lo económico, en ocasiones también en su reputación, lograr la confiabilidad de los datos implica varias consideraciones:

  • 1.1 Calidad de los Datos: Asegúrese de que los datos sean precisos, consistentes y estén libres de errores. Implemente procesos de homologación, validación y limpieza de datos para mantener una alta calidad de datos, normalmente esto es controlado por un Gobierno de Datos dentro de la empresa.
  • 1.2 Tolerancia a Fallos: Diseñe sistemas que puedan resistir fallos de manera elegante, esto implica redundancia, respaldo y estrategias de conmutación por error, a fin de garantizar la disponibilidad de los datos, para esto se debe considerar un equipo multidiciplinario para diseñar los componetes fisicos o lógicos de la arquitectura.
  • 1.3 Monitoreo y Alertas: Implemente un monitoreo sólido para detectar problemas en tiempo real y configure alertas automatizadas para abordar los problemas de manera expedita, es muy importante no solo contar con el monitoreo de la infraestructura, si no también contar con el monitoreo de los procesos, asegurándose que terminan de forma exitosa, automatizando de preferencia el rollback correspondiente en caso de fallo a fin de evitar errores al dejar procesos incompletos.

Pilar 2: Escalabilidad

A medida que las empresas crecen, también lo hace el volumen de información que manejan, la escalabilidad garantiza que los sistemas de datos puedan manejar cargas crecientes sin degradación del rendimiento. Las consideraciones clave para la escalabilidad incluyen:

  • 2.1 Escalabilidad Horizontal: Diseñe sistemas que puedan expandirse mediante la adición de más máquinas al clúster. Este enfoque, a menudo denominado "escalabilidad horizontal", permite un crecimiento sin problemas, además, hoy en día existen plataformas Cloud como Azure, AWS, GCP, Snowlfake, Databricks entre otras que ayudan a gestionar la escalabilidad de una forma "sencilla", pagando por uso, permitiendo a las empresas ahorrar costos.
  • 2.2 Particionamiento y Fragmentación: Divida los datos en fragmentos más pequeños y manejables a través de técnicas como el particionamiento y la fragmentación, esto permite una distribución y recuperación eficientes de los datos, siendo esto un punto muy importante en soluciones cloud ya que si la eficiencia es proporcional a menores costos y soluciones más rápidas.
  • 2.3 Balanceo de Carga: Implemente el balanceo de carga para distribuir equitativamente las solicitudes de datos entrantes en varios servidores o clústeres. Herramientas como Nginx y HAProxy pueden ayudar en este aspecto, este tipo de componentes se utilizan sobre todo cuando disponibilizamos API que puedan se consumidas por ejemplo el despliegue de un modelo de IA y/o un API de consulta de datos parecido a plataformas como Retaillink.

Pilar 3: Mantenibilidad

La mantenibilidad se trata de garantizar que su arquitectura de datos siga siendo eficiente y manejable a medida que evoluciona, para esto, algunas estrategias son:

  • 3.1 Automatización: Automatice tareas rutinarias como copias de seguridad, actualizaciones y escalabilidad para reducir el esfuerzo manual y minimizar el riesgo de errores humanos.
  • 3.2 Documentación: Mantenga una documentación completa de su arquitectura de datos, modelos de datos y procesos. Esto ayuda en la incorporación de nuevos miembros del equipo y en la solución de problemas, hoy en días es algo que se deja al ultimo lo cual representa un riesgo para las empresas ademas que la curva de nuevos recursos se vuelve mayor teniendo un impacto directo en el tiempo de onboardin y a su vez en temas economicos.
  • 3.3 Control de Versiones: Aplique los principios de control de versiones a los esquemas de datos y las configuraciones, lo que le permite realizar un seguimiento de los cambios y volver atrás cuando sea necesario eficientando los despligues a producción.

Pilar 4: Flexibilidad

En el entorno empresarial actual, la adaptabilidad es crucial. Su arquitectura de datos debe ser lo suficientemente flexible como para adaptarse a los requisitos cambiantes.

  • 4.1 Evolución de Esquemas: Permita cambios en los esquemas sin interrumpir las canalizaciones de datos. Técnicas como la versión de esquemas y el esquema "al leer" pueden ser valiosas asi mismo generando modelo de datos que permitan ir creciendo de forma incremental ayudando a que las nuevas integraciones sean más eficiente.
  • 4.2 Desacoplamiento: Desacople los componentes en su arquitectura de datos para reducir las interdependencias, lo que facilita la sustitución y/o actualización de partes individuales, otro de la beneficios de contar con una arquitectura Desacoplada es ahorro que se genera en la implementación de una Arquitectura de Datos Empresarial.

Pilar 5: Rendimiento

El rendimiento es un aspecto crítico de la arquitectura de datos, especialmente para aplicaciones en tiempo real y de alto rendimiento, este pilar se debe definir junto con los usuarios de la plataforma ya que ellos debran definir los SLAs que debe cumplir la misma. Enfoque en:

  • 5.1 Indexación: Implemente estrategias de indexación adecuadas para acelerar las operaciones de recuperación de datos, especialmente para conjuntos de datos grandes.
  • 5.2 Caché: Utilice mecanismos de caché para almacenar datos de acceso frecuente en la memoria, reduciendo la necesidad de recuperarlos de un almacenamiento más lento, este tipo de soluciones se usan cuanto tenemos aplicaciones que consumen nuestras plataformas de Big Data.
  • 5.3 Optimización de Consultas: Optimice las consultas de bases de datos para minimizar los tiempos de respuesta y el consumo de recursos.

En conclusión, una Arquitectura de Datos bien diseñada constituye la base de los productos de datos. Al priorizar la confiabilidad, la escalabilidad, la mantenibilidad, la flexibilidad y el rendimiento, las empresas pueden aprovechar todo el potencial de sus activos de datos. En una era en la que los datos son un activo estratégico, una sólida Arquitectura de Datos no es solo una opción; es una necesidad para un crecimiento y competitividad sostenibles.

Rodrigo (SACDOR) Casiano

Data Architect | Data Tech Lead | Data Management | IA Engineer

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
DESCUBRE BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY

+

DATA Engineering

+

GEN IA

+

Te puede interesar

Una estrategia analítica eficiente

diciembre 13, 2022
LEER MÁS

Desplegando una plataforma CI/CD escalable con Jenkins y Kubernetes

septiembre 22, 2021
LEER MÁS

Usando los Grandes Modelos de Lenguaje en información privada

marzo 11, 2024
LEER MÁS

El futuro del Cloud y GenIA en el Next ’23

septiembre 19, 2023
LEER MÁS

LakeHouse Streaming en AWS con Apache Flink y Hudi (Parte 2)

octubre 4, 2023
LEER MÁS

Data Mesh

julio 27, 2022
LEER MÁS

Publicado en: Blog, Tech

¿FELICIDAD EN EL TRABAJO?

julio 9, 2024 by Bluetab

¿FELICIDAD EN EL TRABAJO?

Un enfoque de gestión para grandes resultados

Gerardo Oscar Giamportoni

Business Development Director

El reto de ser los mejores, no conformarnos y sobreexceder las expectativas de nuestros clientes, en verdad nos quita el sueño en /bluetab. Esto solo es posible si nos cuestionamos y reevaluamos de manera continua nuestras capacidades técnicas y habilidades para dirigir equipos de alto de desempeño, en cada cliente y en cada proyecto. 

Existe la idea generalizada de que no es posible sentir bienestar y placer cumpliendo con nuestras obligaciones en el ámbito de nuestro trabajo o profesión. Al menos en la gran mayoría de los casos. Aun cuando haya cierta afinidad con las funciones asignadas, las obligaciones laborales se constituyen como un estricto intercambio de esfuerzo con un fin netamente económico y material, que coloca a nuestro trabajo en un concepto transaccional y frío
¿Ustedes que piensan?

Antes de explorar cualquier modelo de gestión de la felicidad en las organizaciones (desarrollados desde hace ya algunos años como parte de diversas corrientes de psicología positiva), debemos partir de un concepto aterrizado de “felicidad” para luego evaluar su impacto potencial en los resultados empresariales y el bienestar de sus trabajadores:

Aristóteles, por ejemplo, considera “la felicidad como el supremo bien y el fin último del hombre. Es la máxima aspiración humana y resulta del todo posible lograrla conjugando los bienes externos, los del cuerpo y los del alma. Es una actividad de acuerdo con la razón y, mejor aún, es la autorrealización misma del sujeto, que actuando bien se hace a sí mismo excelente y, con ello, feliz”.

Por otra parte, para Sócrates “la felicidad es el último bien del hombre y se logra con la práctica de la virtud. No se trata de la felicidad lograda de los placeres sensibles y fugaces, sino aquella serena y estable que proviene de la contemplación de la verdad y que se logra con la práctica de la virtud”.

En esta línea de pensamiento, existe una definición de felicidad que apunta más a la realización del ser humano y las emociones derivadas de ello, y no tanto a lo material, tangible o de alegría pasajera, al menos lo primero es esencial para poder disfrutar de todo el resto.

¿Qué pasaría si aplicamos esto en nuestra vida y nuestro entorno? ¿Creen que conseguiríamos más y mejores objetivos en cualquiera de los ámbitos en los que vivimos?

¿QUÉ ES LA FELICIDAD?

Se ha aprendido de generación en generación que alcanzar ciertos “objetivos de la vida” es lo más importante para obtener felicidad, misma que vamos postergando hasta alcanzar cada uno de ellos: cuando tengas tu título profesional, cuando tengas tu carro, cuando hagas ese viaje anhelado, cuando tengas pareja, cuando tengas tu casa, cuando te cases, cuando tengas hijos, y así la lista es interminable ya que al lograr un objetivo nace uno nuevo y el sentimiento de felicidad parece durar muy poco.  Esto se ve exacerbado en esta era digital, donde el consumo de bienes, tecnología y experiencias se viraliza llegando a todos los rincones del planeta creando nuevas necesidades que, incluso, ni conocíamos.

Si invertimos esta fórmula, entendemos que el éxito en estos objetivos no son los que nos darán la felicidad sino al revés, siendo “personas felices” podemos alcanzar los objetivos de éxito que nos propongamos. Es más, llegarán de forma natural. Sería ese entonces el bien mayor y último de una persona, su autorrealización en función de la virtud y la excelencia, como comentan los filósofos citados.

¿QUÉ REQUERIMOS PARA SER FELICES?

Existe mucha bibliografía al respecto con algunas similitudes y definiciones clave. De un análisis general de una de las corrientes, podemos destacar como elementos indispensables para alcanzar la FELICIDAD a los siguientes:

  1. Desarrollar tus pasiones: marca la importancia de dedicar tiempo a crecer y perfeccionarse en los ámbitos y actividades en donde somos virtuosos. A veces nos enfocamos tanto en trabajar las brechas en nuestras habilidades (los famosos gaps), en vez de apuntar a desarrollar más aún aquellas áreas en las que somos buenos y en lo que más nos gusta hacer. De aquí la frase de “todo lo que hagas hazlo con pasión”. Por ello, elije trabajar en tus pasiones.
  2. Establecer relaciones profundas: apunta a generar en nuestros entornos familiares, personales, laborales y en general, relaciones comprometidas y de mucha entrega. No necesariamente son relaciones largas, pero si habla de hacer vínculos sólidos, mismos que procuraremos y alimentaremos con mucha atención. Si nos relacionamos con alguien, es porque sentimos genuinamente que vale la pena y daremos lo mejor en dicha relación. 
  3. Alto nivel de gratitud: se basa en la idea de ser una persona agradecida desde lo más profundo de nuestro ser, ya que eso nos da paz y un bienestar que se produce al estar en armonía constante con mis semejantes y con el universo. La gratitud plena nos da una calma positiva y más motivos para agradecer.
  4. Alto nivel de perdón: se entiende este elemento como una conciliación con todas aquellas personas o eventos que nos han generado disgusto, incomodidad, frustración o diferencias en el pasado y que, al perdonar de corazón, lo dejamos atrás y nos desprendemos de ello, permitiendo construir una nueva realidad de bienestar y tranquilidad. Es una reconciliación con el mundo que nos beneficia en el tiempo presente.

¿CÓMO SE RELACIONA ESTA FELICIDAD CON NUESTRO TRABAJO?

En que podemos perfeccionar nuestras competencias para ser mejores aún, compartirlo con los demás, estrechar vínculos, enseñar lo que nos apasiona, alcanzar metas en equipo y obtener ese reconocimiento que nos hace sentir motivados y satisfechos por el trabajo bien hecho y su misión social con nuestros clientes. Así lo vemos en bluetab al menos.

Lo simple parece convertirse en lo más esencial de la vida y de nuestro trabajo. Esto nos lleva a pensar en un liderazgo diferente, uno emocional, donde gerenciamos una “transformación empresarial de alto impacto” poniendo el foco en que cada miembro de nuestra familia laboral sea feliz y experimente un bienestar real y a largo plazo, ayudándolo a crecer profesionalmente, a perfeccionarse, a brindarse a los demás y generando para sus funciones nuevos desafíos.

Como lo formuló Frederick Herzberg en su “teoría de los dos factores​ de 1959”: “para proporcionar motivación en el trabajo, se debe lograr el “enriquecimiento de tareas”, también llamado “enriquecimiento del cargo”, el cual consiste en la sustitución de las tareas más simples y elementales del cargo por tareas más complejas, que ofrezcan condiciones de desafío y satisfacción personal, para que así el empleado continúe con su crecimiento personal”.

¿CÓMO LOGRAR LA TRANSFORMACIÓN?

En conclusión, toda organización que aspire a un cambio radical en sus resultados de negocio, mejorar el rendimiento de sus empleados, elevar el compromiso colectivo y lograr un crecimiento sostenible en el tiempo, debe prestar atención a la felicidad de quienes hacen la empresa día a día, impulsando dentro de su agenda estratégica iniciativas que atiendan de manera integral los siguientes tres factores de transformación desde la gente:

  1. Superación personal: ayudar a que alcancen una mejor versión de sí mismos, como resultado del autocompromiso y un esfuerzo planeado y consciente. Ser mejor profesional y persona produce felicidad y motiva a seguir en ese camino. Capacitarse y obtener certificaciones del conocimiento adquirido es crucial para lograrlo. Los ayudará a expandir su mente con nuevas habilidades, tomar buenas decisiones, vencer sus miedos y, sobre todo, a ser mejores.
    • En /bluetab por ejemplo, incentivamos el crecimiento con bonos por certificaciones, cubriendo el costo del 100% de las mismas, junto a cursos gratuitos en la plataforma Udemy para todos nuestros consultores y clases de inglés para seguir fortaleciendo habilidades. 
  2. Ser parte de: somos seres sociales por naturaleza. Formar parte de un grupo de personas con intereses y metas comunes nos hace sentir más fuertes y promueve acciones de mejora que benefician al conjunto y al individuo a la vez. Fomentar la pertenencia a algo más grande ayudará a dar un sentido de trascendencia a lo que hacemos. Estar en comunidad nos permite enfrentar desafíos más grandes que los que podemos enfrentar solos. 
    • En /bluetab generamos espacios de integración con reuniones mensuales y por equipos, siendo transparentes y haciendo parte del crecimiento de la compañía a todos los colaboradores. Adicionalmente celebramos aniversarios y fechas especiales para agasajar a nuestros bluetabers y, en diciembre, nuestro infaltable evento de fin de año.
  3. Reconocimiento social: desde que damos nuestros primeros pasos sentimos la necesidad de que alguien más apruebe mis buenas acciones. Tener el reconocimiento a nuestro esfuerzo por parte de padres, familia, empresa y amigos es vital y nos motiva a ir por más retos de crecimiento. No es que dependemos de él, pero si nos impulsa a ir por más. En definitiva, el reconocimiento social dentro de las organizaciones fomenta entre las personas el cómo reconocen tu trabajo y ayuda a aumentar la autoestima, la motivación y, por ende, el desarrollo y compromiso con el grupo al que pertenecemos.
    • Los BlueStar son un premio de reconocimiento que brindamos en /bluetab cada tres meses a los colaboradores que han realizado un óptimo trabajo, fruto de la valoración de nuestros clientes y su manager. Este reconocimiento viene acompañado con un espacio de integración en la oficina junto con sus líderes. Además, cada mes se publican por correo los reconocimientos por “trabajo sobresaliente” en cada uno de los equipos de la operación (nuestros capos bluetab).

Sin duda hablamos de una filosofía de gestión organizacional basada en personas y, como todo modelo, debemos vivir nuestra experiencia al ponerlo en práctica, medir sus resultados y mejorarlo de manera continua. Alentamos a nuestros clientes y colegas a echarlo a andar con su gente.

Gerardo Oscar Giamportoni

Business Development Director

¿Quieres saber más de lo que ofrecemos y ver otros casos de éxito?
DESCUBRE BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY
DATA FABRIC
AUGMENTED ANALYTICS

Te puede interesar

LakeHouse Streaming en AWS con Apache Flink y Hudi

abril 11, 2023
LEER MÁS

CDKTF: Otro paso en el viaje del DevOps, introducción y beneficios.

mayo 9, 2023
LEER MÁS

Mitos y verdades de los ingenieros de software

junio 13, 2022
LEER MÁS

5 errores comunes en Redshift

diciembre 15, 2020
LEER MÁS

MICROSOFT FABRIC: Una nueva solución de análisis de datos, todo en uno

octubre 16, 2023
LEER MÁS

Potencia Tu Negocio con GenAI y GCP: Simple y para Todos

marzo 27, 2024
LEER MÁS

Publicado en: Casos

MDM as a Competitive Advantage in Organizations

junio 18, 2024 by Bluetab

MDM as a Competitive Advantage in Organizations

Maryury García

Cloud | Data & Analytics

Just like natural resources, data acts as the driving fuel for innovation, decision-making, and value creation across various sectors. From large tech companies to small startups, digital transformation is empowering data to become the foundation that generates knowledge, optimizes efficiency, and offers personalized experiences to users.

Master Data Management (MDM) plays an essential role in providing a solid structure to ensure the integrity, quality, and consistency of data throughout the organization.

Despite this discipline existing since the mid-90s, some organizations have not fully adopted MDM. This could be due to various factors such as a lack of understanding of its benefits, cost, complexity, and/or maintenance.

According to a Gartner survey, the global MDM market was valued at $14.6 billion in 2022 and is expected to reach $24 billion by 2028, with a compound annual growth rate (CAGR) of 8.2%.

Figura 01: CAGR en el mercado global MDM

Before diving into the world of MDM, it is important to understand some relevant concepts. To manage master data, the first question we ask is: What is master data? Master data constitutes the set of shared, essential, and critical data for business execution. It has a lifecycle (validity period) and contains key information for the organization’s operation, such as customer data, product information, account numbers, and more.

Once defined, it is important to understand their characteristics, as master data is unique, persistent, and integral, with broad coverage, among other qualities. This is vital to ensure consistency and quality.

Therefore, it is essential to have an approach that considers both organizational aspects (identification of data owners, impacted users, matrices, etc.) as well as processes (related to policies, workflows, procedures, and mappings). Hence, our proposal at Bluetab on this approach is summarized in each of these dimensions.

Figura 02: Caso de Uso: Enfoque Datos Maestros

Another aspect to consider from our experience with master data, which is key to starting an organizational implementation, is understanding its «lifecycle.» This includes:

  • The business areas inputting the master data (referring to the areas that will consume the information).
  • The processes associated with the master data (that create, block, report, update the master data attributes—in other words, the treatment that the master data will undergo).
  • The areas outputting the master data (referring to the areas that ultimately maintain the master data).
  • All of this is intertwined with the data owners and supported by associated policies, procedures, and documentation.
Figura 03: Caso de Uso: Matriz del ciclo de vida del Dato Maestro

Master Data Management (MDM) is a «discipline,» and why? Because it brings together a set of knowledge, policies, practices, processes, and technologies (referred to as a technological tool to collect, store, manage, and analyze master data). This allows us to conclude that it is much more than just a tool.

Below, we provide some examples that will help to better understand the contribution of proper master data management in various sectors:

  • Retail Sector: Retail companies, for example, a bakery, would use MDM to manage master data for product catalogs, customers, suppliers, employees, recipes, inventory, and locations. This creates a detailed customer profile to ensure a consistent and personalized shopping experience across all sales channels.
  • Financial Sector: Financial institutions could manage customer data, accounts, financial products, pricing, availability, historical transactions, and credit information. This helps improve the accuracy and security of financial transactions and operations, as well as verify customer identities before opening an account.
  • Healthcare Sector: In healthcare, the most important data is used to manage patient data, procedure data, diagnostic data, imaging data, medical facilities, and medications, ensuring the integrity and privacy of confidential information. For example, a hospital can use MDM to generate an EMR (Electronic Medical Record) for each patient.
  • Telecommunications Sector: In telecommunications, companies use MDM to manage master data for their devices, services, suppliers, customers, and billing.

In Master Data Management, the following fundamental operations are performed: data cleaning, which removes duplicates; data enrichment, which ensures complete records; and the establishment of a single source of truth. The time it may take depends on the state of the organization’s records and its business objectives. Below, we can visualize the tasks that are carried out:

Figura 04: Tareas claves MDM

Now that we have a clearer concept, it’s important to keep in mind that the strategy for managing master data is to keep it organized: up-to-date, accurate, non-redundant, consistent, and integral.

What benefits does implementing an MDM provide?

  • Data Quality and Consistency: Improves the quality of master data by eliminating duplicates and correcting errors, ensuring the integrity of information throughout the organization.
  • Efficiency and Resource Savings: Saves time and resources by automating tasks of data cleaning, enrichment, and updating, freeing up staff for more strategic tasks.
  • Informed Decision-Making: Allows the identification of patterns and trends from reliable data, driving strategic and timely decision-making.
  • Enhanced Customer Experience: Improves the customer experience by providing a 360-degree view of the customer, enabling more personalized and relevant interactions.
  • At Bluetab, we have helped clients from various industries with their master data strategy, from the definition, analysis, and design of the architecture to the implementation of an integrated solution. From this experience, we share these 5 steps to help you start managing master data:

List Your Objectives and Define a Scope

First, identify which data entities are of commercial priority within the organization. Once identified, evaluate the number of sources, definitions, exceptions, and volumes that the entities have.

Define the Data You Will Use

Which part of the data is important for decision-making? It could simply be all or several fields of the record to fill in, such as name, address, and phone number. Get support from governance personnel for the definition.

Establish Processes and Owners

Who will be responsible for having the rights to modify or create the data? For what and how will this data be used to reinforce or enhance the business? Once these questions are formulated, it is important to have a process for how the information will be handled from the master data registration to its final sharing (users or applications).

Seek Scalability

Once you have defined the processes, try to ensure they can be integrated with future changes. Take the time to define your processes and avoid making drastic changes in the future.

Find the Right Data Architecture, Don’t Take Shortcuts

Once the previous steps are defined and generated, it’s time to approach your Big Data & Analytics strategic partner to ensure these definitions are compatible within the system or databases that house your company’s information.

Figura 05: Primeros Pasos MDM

Final Considerations

Based on our experience, we suggest considering the following aspects when assessing/defining the process for each domain in master data management, subject to the project scope:

  • Management of Routes:
    • Consider how the owner of the creation of master data registers it (automatically and eliminating manual data entry from any other application) and how any current process of an area/person centralizes the information from other areas involved in the master data manually (emails, calls, Excel sheets, etc.). This should be automated in a workflow.
  • Alerts & Notifications:
    • It is recommended to establish deadlines for the completeness of the data for each area and the responsible party updating a master data.
    • The time required to complete each data entry should be agreed upon among all involved areas, and alerts should be configured to communicate the updated master data.
  • Blocking and Discontinuation Processes:
    • A viable alternative is to make these changes operationally and then communicate them to the MDM through replication.
  • Integration:
    • Evaluate the possibility of integrating with third parties to automate the registration process for clients, suppliers, etc., and avoid manual entry: RENIEC, SUNAT, Google (coordinates X, Y, Z), or other agents, evaluating suitability for the business.
  • Incorporation of Third Parties:
    • Consider the incorporation of clients and suppliers at the start of the master data creation flows and at the points of updating.
Figura 06: Aspectos a considerar MDM

In summary, master data is the most important common data for an organization and serves as the foundation for many day-to-day processes at the enterprise level. Master data management helps ensure that data is up-to-date, accurate, non-redundant, consistent, integral, and properly shared, providing tangible benefits in data quality, operational efficiency, informed decision-making, and customer experience. This contributes to the success and competitiveness of the organization in an increasingly data-driven digital environment.

If you found this article interesting, we appreciate you sharing it. At Bluetab, we look forward to hearing about the challenges and needs you have in your organization regarding master and reference data.

Maryury García

Cloud | Data & Analytics

Do you want to learn more about what we offer and see other success stories?
DISCOVER BLUETAB

SOLUCIONES, SOMOS EXPERTOS

DATA STRATEGY
DATA FABRIC
AUGMENTED ANALYTICS

Te puede interesar

Los Incentivos y el Desarrollo de Negocio en las Telecomunicaciones

octubre 9, 2020
LEER MÁS

Databricks sobre Azure – Una perspectiva de Arquitectura (parte 2)

marzo 24, 2022
LEER MÁS

Starburst: Construyendo un futuro basado en datos.

mayo 25, 2023
LEER MÁS

¿Existe el Azar?

noviembre 10, 2021
LEER MÁS

Data-Drive Agriculture; Big Data, Cloud & AI aplicados

noviembre 4, 2020
LEER MÁS

Características esenciales que debemos tener en cuenta al adoptar un paradigma en la nube

septiembre 12, 2022
LEER MÁS

Publicado en: Blog, Tech

  • Página 1
  • Página 2
  • Página 3
  • Páginas intermedias omitidas …
  • Página 41
  • Ir a la página siguiente »

Footer

LegalPrivacidadPolítica de cookies
LegalPrivacy Cookies policy

Patrono

Patron

Sponsor

Patrocinador

© 2025 Bluetab Solutions Group, SL. All rights reserved.