José Miguel, autor en Josemtech

Apache Spark

diciembre 1, 2024 11 min lectura

Desmitificando el Optimizador Catalyst de Apache Spark

Desmitificando el Optimizador Catalyst de Apache Spark El procesamiento de grandes volúmenes de datos es una tarea crítica en el campo de la ingeniería de…

Apache Spark

noviembre 28, 2024 11 min lectura

Optimización de PySpark para el procesamiento de datos masivos

Optimización de PySpark para el procesamiento de datos masivos En la era del big data, manejar volúmenes masivos de información es crucial para las empresas…

Apache Spark

noviembre 20, 2024 10 min lectura

RDDs y DataFrames en Spark SQL

RDDs y DataFrames en Spark SQL En Spark SQL, existen dos formas principales de trabajar con datos estructurados: RDDs y DataFrames. Mientras que los RDDs…

Diferentes formas de crear un RDD en PySpark

Apache Spark

marzo 19, 2024 10 min lectura

Diferentes formas de crear un RDD en PySpark

Diferentes formas de crear un RDD en PySpark Los RDD (Resilient Distributed Datasets) son la estructura de datos fundamental de Apache Spark. Aunque hoy en…

Leer y Escribir DataFrames de pyspark en AWS S3 Guía Completa

Apache Spark

febrero 27, 2024 10 min lectura

Leer y Escribir DataFrames de pyspark en AWS S3: Guía Completa

Trabajar con grandes volúmenes de datos requiere soluciones de almacenamiento robustas y escalables. AWS S3 (Simple Storage Service) es una de las opciones más utilizadas…

AWS Glue

noviembre 15, 2023 7 min lectura

AWS Glue triggers

En este artículo analizaremos los aspectos fundamentales que debemos conocer sobre los triggers en AWS Glue. ¿Qué son los triggers en AWS Glue? En AWS…

AWS Glue

octubre 25, 2023 8 min lectura

Introducción a Data Catalog y crawlers en AWS Glue

Introducción a Data Catalog y crawlers en AWS Glue En este artículo estaremos dando una introducción al Data Catalog de AWS Glue y a los…

AWS Glue

octubre 8, 2023 9 min lectura

AWS Glue: Transforma tus datos con facilidad

En la era actual de datos masivos y análisis empresariales, la capacidad de gestionar y transformar datos de manera eficiente es esencial. AWS Glue es…

Apache Maven

mayo 19, 2023 11 min lectura

Maven clean plugin

Cuando trabajamos en Maven es muy habitual necesitar agregar y configurar complementos (plugins) al mismo para poder usarlos para realizar tareas de compilación necesarias. Maven…

Scala

abril 25, 2023 9 min lectura

Manejo de números en Scala

Introducción En este artículo vamos a aprender sobre el manejo de números en Scala. En Scala, los tipos Byte, Short, Int, Long y Char se…