AWS Glue

AWS Glue: Transforma tus datos con facilidad

octubre 8, 2023 9 min lectura José Miguel

En la era actual de datos masivos y análisis empresariales, la capacidad de gestionar y transformar datos de manera eficiente es esencial. AWS Glue es un servicio de AWS (Amazon Web Services) diseñado para la preparación y transformación de datos, brinda a las organizaciones las herramientas necesarias para aprovechar al máximo sus datos de manera sencilla y eficaz. En este artículo, te presentaremos las características y ventajas de AWS Glue que te inspirarán a adentrarte en el emocionante mundo de la gestión de datos en la nube.

¿Qué es AWS Glue?

AWS Glue es un servicio completamente administrado que permite descubrir, transformar y mover datos fácilmente. Está diseñado para ayudar a las organizaciones a preparar sus datos para análisis, machine learning y otras aplicaciones sin la necesidad de administrar infraestructura subyacente. AWS Glue automatiza muchas tareas tediosas relacionadas con la gestión de datos, permitiéndote centrarte en lo que realmente importa: obtener información valiosa de tus datos.

Componentes principales de AWS Glue

Antes de profundizar en las características, es importante conocer los componentes que conforman el ecosistema de AWS Glue:

Componente	Descripción	Uso principal
Data Catalog	Repositorio centralizado de metadatos que almacena definiciones de tablas, esquemas y ubicaciones de datos.	Descubrimiento y organización de datos.
Crawlers	Procesos que escanean fuentes de datos (S3, RDS, Redshift, etc.) y registran automáticamente los esquemas en el Data Catalog.	Catalogación automática de datos.
ETL Jobs	Scripts de transformación escritos en PySpark o Scala que procesan los datos.	Limpieza, enriquecimiento y movimiento de datos.
Triggers	Mecanismos para iniciar jobs de forma programada, bajo demanda o en respuesta a eventos.	Orquestación de pipelines de datos.
Connections	Configuraciones de conexión a fuentes de datos externas (JDBC, S3, Kafka, etc.).	Acceso seguro a almacenes de datos.

Características destacadas de AWS Glue

Descubrimiento automático de datos

AWS Glue utiliza el descubrimiento automático para analizar tus fuentes de datos y crear un catálogo centralizado de metadatos. Esto simplifica la identificación y comprensión de tus datos, lo que ahorra tiempo y esfuerzo en la preparación de datos.

Por ejemplo, cuando creas un Crawler y lo ejecutas contra un bucket de S3, AWS Glue analiza los archivos, infiere el esquema y registra las tablas en el Data Catalog automáticamente. Puedes configurar un crawler desde la consola o mediante un script de boto3:

import boto3

glue_client = boto3.client('glue', region_name='us-east-1')

response = glue_client.create_crawler(
    Name='mi-crawler-ventas',
    Role='arn:aws:iam::123456789012:role/AWSGlueServiceRole',
    DatabaseName='mi_base_de_datos',
    Targets={
        'S3Targets': [
            {
                'Path': 's3://mi-bucket/datos/ventas/'
            }
        ]
    },
    Schedule='cron(0 8 * * ? *)',  # Ejecutar diariamente a las 8:00 AM UTC
    SchemaChangePolicy={
        'UpdateBehavior': 'UPDATE_IN_DATABASE',
        'DeleteBehavior': 'LOG'
    }
)

print(f"Crawler creado: {response['ResponseMetadata']['HTTPStatusCode']}")

Una vez ejecutado el crawler, puedes consultar las tablas descubiertas directamente desde Amazon Athena o desde cualquier servicio que se integre con el Data Catalog.

Transformaciones ETL (Extract, Transform, Load)

El servicio permite realizar transformaciones ETL de manera sencilla, lo que significa que puedes limpiar, enriquecer y estructurar tus datos antes de cargarlos en almacenes de datos o utilizarlos en aplicaciones analíticas.

AWS Glue utiliza el concepto de DynamicFrame, una estructura similar al DataFrame de PySpark pero optimizada para datos semi-estructurados y con manejo nativo de esquemas inconsistentes. A continuación, un ejemplo básico de un Glue Job en PySpark:

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

# Inicializar el contexto de Glue
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glue_context = GlueContext(sc)
spark = glue_context.spark_session
job = Job(glue_context)
job.init(args['JOB_NAME'], args)

# Leer datos desde el Data Catalog
dynamic_frame = glue_context.create_dynamic_frame.from_catalog(
    database="mi_base_de_datos",
    table_name="ventas_raw"
)

# Aplicar transformaciones
# 1. Eliminar campos nulos
dynamic_frame_limpio = DropNullFields.apply(frame=dynamic_frame)

# 2. Mapear y renombrar campos
dynamic_frame_mapeado = ApplyMapping.apply(
    frame=dynamic_frame_limpio,
    mappings=[
        ("id_venta", "long", "venta_id", "long"),
        ("fecha", "string", "fecha_venta", "string"),
        ("monto", "double", "monto_total", "double"),
        ("cliente", "string", "nombre_cliente", "string")
    ]
)

# 3. Escribir los datos transformados en S3 en formato Parquet
glue_context.write_dynamic_frame.from_options(
    frame=dynamic_frame_mapeado,
    connection_type="s3",
    connection_options={
        "path": "s3://mi-bucket/datos/ventas_transformadas/"
    },
    format="parquet"
)

job.commit()

Este job lee los datos crudos del Data Catalog, los limpia, renombra las columnas y los escribe en formato Parquet en S3 — todo de forma distribuida y serverless.

Trabajo sin servidor (Serverless)

AWS Glue es completamente sin servidor, lo que significa que no tienes que preocuparte por la infraestructura subyacente. Puedes concentrarte en definir y ejecutar tus jobs de datos sin preocuparte por el aprovisionamiento de recursos.

Cuando lanzas un job, AWS Glue asigna automáticamente los recursos necesarios (llamados DPUs — Data Processing Units) y los libera al finalizar. Solo pagas por el tiempo de ejecución real. Puedes configurar el número de DPUs según la complejidad de tu job:

response = glue_client.create_job(
    Name='mi-job-etl-ventas',
    Role='arn:aws:iam::123456789012:role/AWSGlueServiceRole',
    Command={
        'Name': 'glueetl',
        'ScriptLocation': 's3://mi-bucket/scripts/etl_ventas.py',
        'PythonVersion': '3'
    },
    DefaultArguments={
        '--job-language': 'python',
        '--TempDir': 's3://mi-bucket/temp/'
    },
    GlueVersion='4.0',
    NumberOfWorkers=10,
    WorkerType='G.1X'  # Opciones: Standard, G.1X, G.2X, G.025X
)

Integración con otros servicios de AWS

AWS Glue se integra perfectamente con otros servicios de AWS, como Amazon S3, Amazon Redshift, Amazon RDS y muchos más. Esto facilita la creación de flujos de trabajo de datos completos que abarcan toda la plataforma de AWS.

Algunos ejemplos de integraciones comunes:

S3 → Glue → Redshift: Leer archivos CSV/JSON/Parquet de S3, transformarlos y cargarlos en un data warehouse de Redshift.
RDS → Glue → S3: Extraer datos de una base de datos relacional (MySQL, PostgreSQL) y almacenarlos en un data lake en S3.
Kinesis → Glue Streaming → S3: Procesar flujos de datos en tiempo real con Glue Streaming ETL.
S3 → Glue → Athena: Catalogar datos con un Crawler y consultarlos directamente con SQL desde Athena.

Por ejemplo, para escribir los datos transformados directamente en Amazon Redshift:

glue_context.write_dynamic_frame.from_jdbc_conf(
    frame=dynamic_frame_mapeado,
    catalog_connection="mi-conexion-redshift",
    connection_options={
        "dbtable": "ventas_procesadas",
        "database": "mi_datawarehouse"
    },
    redshift_tmp_dir="s3://mi-bucket/temp-redshift/"
)

Programación de jobs

Puedes programar tus jobs de AWS Glue para que se ejecuten de manera regular, lo que garantiza que tus datos estén siempre actualizados y listos para su análisis.

Los Triggers de AWS Glue permiten definir ejecuciones programadas (cron), basadas en eventos o bajo demanda:

# Trigger programado: ejecutar el job todos los días a las 6:00 AM UTC
glue_client.create_trigger(
    Name='trigger-diario-ventas',
    Type='SCHEDULED',
    Schedule='cron(0 6 * * ? *)',
    Actions=[
        {
            'JobName': 'mi-job-etl-ventas'
        }
    ],
    StartOnCreation=True
)

Ventajas de AWS Glue

Eficiencia

AWS Glue automatiza muchas tareas relacionadas con la gestión de datos, lo que ahorra tiempo y recursos. Esto permite a los equipos centrarse en la generación de ideas y en la toma de decisiones informadas en lugar de en la manipulación manual de datos.

Escalabilidad

El servicio se escala automáticamente para manejar grandes volúmenes de datos, lo que significa que no tienes que preocuparte por la capacidad cuando tus necesidades de datos crezcan.

Facilidad de uso

AWS Glue está diseñado para ser fácil de usar, incluso para personas sin experiencia técnica avanzada en la gestión de datos. Las interfaces gráficas y las plantillas predefinidas facilitan la creación de flujos de trabajo de datos.

Seguridad y conformidad

AWS Glue ofrece características de seguridad avanzadas, como control de acceso basado en políticas y cifrado de datos en tránsito y en reposo. Esto garantiza que tus datos estén protegidos y cumplan con las regulaciones de seguridad.

Buenas prácticas al trabajar con AWS Glue

Para sacar el máximo provecho de AWS Glue, considera las siguientes recomendaciones:

Usa particiones en S3: Organiza tus datos en S3 utilizando una estructura de particiones (por ejemplo, año/mes/día). Esto permite que los crawlers y los jobs procesen solo los datos necesarios, reduciendo costos y tiempos de ejecución.
Prefiere Parquet o ORC sobre CSV/JSON: Los formatos columnares como Parquet y ORC son significativamente más eficientes en lectura, compresión y costo cuando se consultan desde Athena o Redshift Spectrum.
Habilita Job Bookmarks: Los bookmarks permiten que un job procese solo los datos nuevos o modificados desde la última ejecución, evitando reprocesamiento innecesario.
Monitorea con CloudWatch: Configura métricas y alarmas en Amazon CloudWatch para supervisar la duración, el consumo de DPUs y los errores de tus jobs.
Versiona tus scripts: Almacena los scripts de tus jobs en un repositorio de código (Git) y referencia la ubicación en S3 para mantener trazabilidad y control de cambios.

Errores comunes y cómo evitarlos

Error	Causa	Solución
`AnalysisException: cannot resolve column`	El esquema del Data Catalog no coincide con los datos reales en S3.	Ejecuta el Crawler de nuevo o usa `resolveChoice` para manejar ambigüedades de tipo.
Job tarda demasiado o falla por timeout	Los datos no están particionados o se están procesando archivos muy pequeños.	Particiona los datos y usa la opción `groupFiles` para agrupar archivos pequeños.
`AccessDeniedException` al leer/escribir S3	El IAM Role del job no tiene los permisos necesarios.	Revisa la política IAM asociada al role de Glue y agrega los permisos de `s3:GetObject` y `s3:PutObject`.
Crawler no detecta el esquema correctamente	Los archivos tienen formatos mixtos o headers inconsistentes.	Estandariza el formato de los archivos fuente y usa un único tipo por carpeta.

Conclusión

AWS Glue es una herramienta poderosa que puede revolucionar la forma en que tu organización maneja y utiliza los datos. Ya sea que estés buscando simplificar la preparación de datos, acelerar tus análisis o habilitar proyectos de machine learning, AWS Glue puede ayudarte a lograrlo de manera eficiente y sin problemas.

José Miguel Moya Curbelo

Senior Data Engineer & Big Data Instructor

MSc Applied Mathematics · AWS Cloud Practitioner · SCRUM Master. Especializado en arquitecturas de datos de alto rendimiento con Apache Spark, Snowflake, Python y Scala.

Conectar en LinkedIn

AWS Glue: Transforma tus datos con facilidad

¿Qué es AWS Glue?

Componentes principales de AWS Glue

Características destacadas de AWS Glue

Descubrimiento automático de datos

Transformaciones ETL (Extract, Transform, Load)

Trabajo sin servidor (Serverless)

Integración con otros servicios de AWS

Programación de jobs

Ventajas de AWS Glue

Eficiencia

Escalabilidad

Facilidad de uso

Seguridad y conformidad

Buenas prácticas al trabajar con AWS Glue

Errores comunes y cómo evitarlos

Conclusión

Artículos Relacionados

Deja un comentario Cancelar respuesta

¿Qué es AWS Glue?

Componentes principales de AWS Glue

Características destacadas de AWS Glue

Descubrimiento automático de datos

Transformaciones ETL (Extract, Transform, Load)

Trabajo sin servidor (Serverless)

Integración con otros servicios de AWS

Programación de jobs

Ventajas de AWS Glue

Eficiencia

Escalabilidad

Facilidad de uso

Seguridad y conformidad

Buenas prácticas al trabajar con AWS Glue

Errores comunes y cómo evitarlos

Conclusión

Artículos Relacionados

AWS Glue triggers

Introducción a Data Catalog y crawlers en AWS Glue

Deja un comentario Cancelar respuesta