En Spark SQL, existen dos formas principales de trabajar con datos estructurados: RDDs y DataFrames. Mientras que los RDDs representan el enfoque tradicional, los DataFrames son la abstracción de datos preferida en versiones más recientes de Spark. RDDs (Resilient Distributed Datasets) Los RDDs son colecciones de elementos distribuidos en los nodos de un clúster, sobre […]
Aprende a manipular datos con Polars y Python
Anuncio con gran entusiasmo la publicación del repositorio de GitHub de mi curso «Aprende a manipular datos con Polars y Python», el cual próximamente estará disponible en la plataforma de Udemy. ¿Qué es «Aprende a manipular datos con Polars y Python»? Este curso te brindará las herramientas y conocimientos necesarios para dominar Polars, una biblioteca de Python […]
Diferentes formas de crear un RDD en PySpark
Archivos pom y settings en Apache Maven
¿Qué es Polars?
Leer y Escribir DataFrames de pyspark en AWS S3: Guía Completa
Descubre cómo leer y escribir DataFrames de pyspark en AWS S3 con este tutorial paso a paso. ¿Por qué es importante? Trabajar con grandes volúmenes de datos requiere soluciones robustas y escalables. AWS S3 ofrece una plataforma segura y accesible para almacenar tus datos, mientras que pyspark te permite manipularlos con facilidad. Este video te […]
AWS Glue triggers
En este artículo analizaremos los aspectos fundamentales que debemos conocer sobre los triggers en AWS Glue. En AWS Glue, podemos crear objetos en el Data Catalog llamados triggers, que podemos usar para iniciar manual o automáticamente uno o más crawlers o ETL. Con los triggers, podemos diseñar una cadena de jobs y crawlers dependientes. Cuando […]
Introducción a Data Catalog y crawlers en AWS Glue
En este artículo estaremos dando una introducción al Data Catalog de AWS Glue y a los crawlers. Además, mostraremos el flujo general de trabajo de cómo un crawler llena el Data Catalog de AWS Glue. El Data Catalog de AWS Glue contiene referencias a datos que se utilizan como orígenes y destinos de nuestros jobs […]
Scastie: tu entorno de programación Scala en el navegador
¿Alguna vez has deseado tener un entorno de programación Scala que sea accesible desde cualquier lugar y en cualquier momento? Scastie es la respuesta a tus necesidades. En este artículo, te presentaré las características principales de Scastie, una herramienta en línea que te permite escribir y ejecutar código Scala de manera rápida y sencilla directamente […]
AWS Glue: Transforma tus datos con facilidad
En la era actual de datos masivos y análisis empresariales, la capacidad de gestionar y transformar datos de manera eficiente es esencial. AWS Glue es un servicio de AWS (Amazon Web Services) diseñado para la preparación y transformación de datos, brinda a las organizaciones las herramientas necesarias para aprovechar al máximo sus datos de manera […]