José Miguel, autor en Josemtech

Descubre cómo leer y escribir DataFrames de pyspark en AWS S3 con este tutorial paso a paso. ¿Por qué es importante? Trabajar con grandes volúmenes de datos requiere soluciones robustas y escalables. AWS S3 ofrece una plataforma segura y accesible para almacenar tus datos, mientras que pyspark te permite manipularlos con facilidad. Este video te […]

AWS Glue triggers

AWS Gluenoviembre 15, 2023

En este artículo analizaremos los aspectos fundamentales que debemos conocer sobre los triggers en AWS Glue. En AWS Glue, podemos crear objetos en el Data Catalog llamados triggers, que podemos usar para iniciar manual o automáticamente uno o más crawlers o ETL. Con los triggers, podemos diseñar una cadena de jobs y crawlers dependientes. Cuando […]

Introducción a Data Catalog y crawlers en AWS Glue

AWS Glueoctubre 25, 2023

En este artículo estaremos dando una introducción al Data Catalog de AWS Glue y a los crawlers. Además, mostraremos el flujo general de trabajo de cómo un crawler llena el Data Catalog de AWS Glue. El Data Catalog de AWS Glue contiene referencias a datos que se utilizan como orígenes y destinos de nuestros jobs […]

Scastie: tu entorno de programación Scala en el navegador

Scalaoctubre 17, 2023

¿Alguna vez has deseado tener un entorno de programación Scala que sea accesible desde cualquier lugar y en cualquier momento? Scastie es la respuesta a tus necesidades. En este artículo, te presentaré las características principales de Scastie, una herramienta en línea que te permite escribir y ejecutar código Scala de manera rápida y sencilla directamente […]

AWS Glue: Transforma tus datos con facilidad

AWS Glueoctubre 8, 2023octubre 8, 2023

En la era actual de datos masivos y análisis empresariales, la capacidad de gestionar y transformar datos de manera eficiente es esencial. AWS Glue es un servicio de AWS (Amazon Web Services) diseñado para la preparación y transformación de datos, brinda a las organizaciones las herramientas necesarias para aprovechar al máximo sus datos de manera […]

Maven clean plugin

Apache Mavenmayo 19, 2023

Cuando trabajamos con Maven en muchas ocasiones necesitamos agregar y configurar complementos(plugins) al archivo pom y usarlos para realizar tareas de compilación esenciales. Maven tiene una arquitectura de plugins y, a excepción de las funcionalidades principales, todas las tareas en Maven se realizan mediante plugins. En este artículo nos centraremos en Maven clean plugin. Cuando […]

Manejo de números en Scala

Scalaabril 25, 2023

En este artículo vamos a aprender sobre el manejo de números en Scala. En Scala, los tipos Byte, Short, Int, Long y Char se conocen como tipos integrales porque están representados por enteros o números enteros. Los tipos integrales junto con Double y Float comprenden los tipos numéricos de Scala. Estos tipos numéricos amplían el […]

Tipos de transformaciones en un RDD en Apache Spark

Apache Sparkmarzo 4, 2023

En este artículo vamos a hablar de los diferentes tipos de transformaciones que podemos aplicar a un RDD en Apache Spark. Los RDD son inmutables y cada operación crea un nuevo RDD. Las dos operaciones principales que se pueden realizar en un RDD son transformaciones y acciones. En este caso nos centraremos en las transformaciones, y en […]

Autor: José Miguel

Archivos pom y settings en Apache Maven

¿Qué es Polars?

Leer y Escribir DataFrames de pyspark en AWS S3: Guía Completa