Introducción a Data Catalog y crawlers en AWS Glue

En este artículo estaremos dando una introducción al Data Catalog de AWS Glue y a los crawlers. Además, mostraremos el flujo general de trabajo de cómo un crawler llena el Data Catalog de AWS Glue.

El Data Catalog de AWS Glue contiene referencias a datos que se utilizan como orígenes y destinos de nuestros jobs de extracción, transformación y carga en AWS Glue. Para crear nuestro data warehouse o data lake, debemos catalogar estos datos. AWS Glue Data Catalog es un índice que contiene la ubicación, el esquema y las métricas de tiempo de ejecución de nuestros datos. Podemos utilizar la información del Data Catalog para crear y supervisar nuestros jobs de ETL. La información en el Data Catalog se almacena en tablas de metadatos, donde cada tabla especifica un único data store. Por lo general, deberemos ejecutar un crawler para realizar un inventario de los datos en nuestros data stores, pero existen otras formas de agregar tablas de metadatos a nuestro Data Catalog.

El siguiente diagrama muestra cómo los crawlers de AWS Glue interactúan con los data stores y otros elementos para completar el Data Catalog.

A continuación vamos a explicar el flujo general de trabajo de cómo un crawler llena el Data Catalog de AWS Glue.

Flujo general de trabajo de cómo un crawler llena el Data Catalog

En el primer paso, un crawler ejecuta cualquier clasificador personalizado que elijamos para inferir el formato y el esquema de nuestros datos. Nosotros podemos proporcionar el código para los clasificadores personalizados y estos se ejecutarán en el orden que especifiquemos. ¿Cómo funciona la jerarquía aquí? El primer clasificador personalizado que reconozca con éxito la estructura de nuestros datos se utiliza para crear un esquema y por tanto se omiten los clasificadores personalizados que se encuentran más abajo en la lista.
Si ningún clasificador personalizado coincide con el esquema de nuestros datos, los clasificadores integrados (representados en la imagen por built-in) intentan reconocer el esquema de nuestros datos. Un ejemplo de un clasificador integrado pudiera ser, por ejemplo, uno que reconoce un JSON.
El crawler se conecta al data store. Aquí debemos tener en cuenta que algunos data store requieren propiedades de conexión para el acceso del crawler.
En el siguiente paso, el esquema inferido se crea para nuestros datos.
Y por último, el crawler escribe los metadatos en Data Catalog. La definición de una tabla en el Data Catalog contiene metadatos sobre los datos en nuestro data store. La tabla se escribe en una base de datos, que no es más que un contenedor de tablas en el Data Catalog. Los atributos de una tabla incluyen la clasificación, que es una etiqueta creada por el clasificador que infirió el esquema de la tabla.

Si desea profundizar más en estos temas que se han mencionado en este flujo de trabajo le recomendamos que se inscriba a nuestro curso: