En este artículo veremos las diferentes formas de crear un RDD en Apache Spark utilizando Scala. Resilient Distributed Dataset (RDD) es la abstracción principal de Spark. Los RDD son una colección de elementos particionados a través de los nodos del clúster los cuales pueden ser operados en paralelo. Existen tres características vitales asociadas con un […]
Perfiles en Apache Maven
Apache Maven está diseñado para crear compilaciones portátiles que se espera que funcionen en diferentes plataformas y en varios entornos de tiempo de ejecución. Puede haber situaciones en las que necesite construir el mismo proyecto de manera diferente. Por ejemplo, es posible que deba crear un proyecto de manera diferente con el fin de la puesta […]
Acumuladores en Spark-Scala
Los acumuladores son variables compartidas entre ejecutores que normalmente se utilizan para agregar contadores a su programa Spark. Spark admite de forma predeterminada la creación de acumuladores de cualquier tipo numérico y proporciona la capacidad de agregar tipos de acumuladores personalizados. Los acumuladores se pueden usar para implementar contadores (como en MapReduce) o sumas. Spark admite […]
Crear un JAR con dependencias con Apache Maven
¿Qué es un JAR con dependencias? Un requisito típico de los proyectos es agregar la salida junto con sus dependencias, módulos y otros archivos en un solo archivo distribuible. Un uber-JAR, también conocido como fat-JAR o JAR con dependencias, es un archivo JAR que no solo contiene un programa Java o Scala, sino que […]
Instalar Apache Spark en Google Colaboratory
¿Qué es Google Colaboratory? Colaboratory, o «Colab» para abreviar, es un producto de Google Research. Permite a cualquier usuario escribir y ejecutar código arbitrario de Python en el navegador. Es especialmente adecuado para tareas de aprendizaje automático, análisis de datos y educación. Desde un punto de vista más técnico, Colab es un servicio alojado de […]
¿Cómo crear una cuenta gratuita en Databricks?
Databricks Community Edition Databricks Community Edition es la versión gratuita de la plataforma de Big Data basada en la nube Databricks. Los usuarios de Databricks Community Edition pueden acceder a un microclúster, así como a un administrador de clústeres y a notebooks con varias configuraciones. Todos los usuarios pueden compartir sus notebooks y alojarlos de […]