En Spark SQL, existen dos formas principales de trabajar con datos estructurados: RDDs y DataFrames. Mientras que los RDDs representan el enfoque tradicional, los DataFrames son la abstracción de datos preferida en versiones más recientes de Spark. RDDs (Resilient Distributed Datasets) Los RDDs son colecciones de elementos distribuidos en los nodos de un clúster, sobre […]
Leer y Escribir DataFrames de pyspark en AWS S3: Guía Completa
Descubre cómo leer y escribir DataFrames de pyspark en AWS S3 con este tutorial paso a paso. ¿Por qué es importante? Trabajar con grandes volúmenes de datos requiere soluciones robustas y escalables. AWS S3 ofrece una plataforma segura y accesible para almacenar tus datos, mientras que pyspark te permite manipularlos con facilidad. Este video te […]
Tipos de transformaciones en un RDD en Apache Spark
En este artículo vamos a hablar de los diferentes tipos de transformaciones que podemos aplicar a un RDD en Apache Spark. Los RDD son inmutables y cada operación crea un nuevo RDD. Las dos operaciones principales que se pueden realizar en un RDD son transformaciones y acciones. En este caso nos centraremos en las transformaciones, y en […]
Almacenamiento en caché
El almacenamiento en caché permite que Spark conserve los datos en todos los cálculos y operaciones. De hecho, esta es una de las técnicas más importantes de Spark para acelerar los cálculos, especialmente cuando se trata de cálculos iterativos. El almacenamiento en caché funciona almacenando el RDD tanto como sea posible en la memoria. Si […]
Particionado en Apache Spark
Los RDD operan con datos no como una sola masa de datos, sino que administran y operan los datos en particiones repartidas por todo el clúster. Por lo tanto, el concepto de partición de datos es fundamental para el correcto funcionamiento de los Jobs de Apache Spark y puede tener un gran efecto en el rendimiento […]
Diferentes formas de crear un RDD
En este artículo veremos las diferentes formas de crear un RDD en Apache Spark utilizando Scala. Resilient Distributed Dataset (RDD) es la abstracción principal de Spark. Los RDD son una colección de elementos particionados a través de los nodos del clúster los cuales pueden ser operados en paralelo. Existen tres características vitales asociadas con un […]
Acumuladores en Spark-Scala
Los acumuladores son variables compartidas entre ejecutores que normalmente se utilizan para agregar contadores a su programa Spark. Spark admite de forma predeterminada la creación de acumuladores de cualquier tipo numérico y proporciona la capacidad de agregar tipos de acumuladores personalizados. Los acumuladores se pueden usar para implementar contadores (como en MapReduce) o sumas. Spark admite […]
Instalar Apache Spark en Google Colaboratory
¿Qué es Google Colaboratory? Colaboratory, o «Colab» para abreviar, es un producto de Google Research. Permite a cualquier usuario escribir y ejecutar código arbitrario de Python en el navegador. Es especialmente adecuado para tareas de aprendizaje automático, análisis de datos y educación. Desde un punto de vista más técnico, Colab es un servicio alojado de […]
¿Cómo crear una cuenta gratuita en Databricks?
Databricks Community Edition Databricks Community Edition es la versión gratuita de la plataforma de Big Data basada en la nube Databricks. Los usuarios de Databricks Community Edition pueden acceder a un microclúster, así como a un administrador de clústeres y a notebooks con varias configuraciones. Todos los usuarios pueden compartir sus notebooks y alojarlos de […]