¿Qué es Google Colaboratory?
Colaboratory, o «Colab» para abreviar, es un producto de Google Research.
Permite a cualquier usuario escribir y ejecutar código arbitrario de Python en el navegador.
Es especialmente adecuado para tareas de aprendizaje automático, análisis de datos y educación. Desde un punto de vista más técnico, Colab es un servicio alojado de Jupyter Notebook que no requiere configuración y que ofrece acceso gratuito a recursos informáticos, como GPUs. Colab es un producto sin costo.
Limitaciones de Colab
Los recursos de Colab no están garantizados ni son ilimitados y, en ocasiones, los límites de uso fluctúan. Esto es necesario para que Colab pueda brindar recursos sin costo.
El código se ejecuta en una máquina virtual exclusiva para tu cuenta. Las máquinas virtuales se borran cuando están inactivas durante un tiempo prolongado y tienen una vida útil máxima determinada por el sistema de Colab. Esto significa que cuaquier dato que se suba a la máquina virtual desaparecerá una vez que la máquina virtual sea borrada y solo se guardarán las celdas de código y/o markdown que se tengan en el notebook.
Instalando Apache Spark en Google Colaboratory
Para poder instalar Spark en Colab vamos necesitar descargar e instalar el sdk de Java y además descargar Apache Spark dentro de la máquina virtual.
# Instalar Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# Descargar Spark
!wget -q http://apache.osuosl.org/spark/spark-3.2.2/spark-3.2.2-bin-hadoop3.2.tgz
# Descomprimir Spark
!tar xf spark-3.2.2-bin-hadoop3.2.tgz
El siguiente paso que vamos a necesitar realizar es establecer las variables de entorno de JAVA_HOME y SPARK_HOME.
Big Data y Spark: ingeniería de datos con Python y pyspark
En este curso aprenderás a trabajar con Spark a través de la librería PySpark de Python en Google Colaboratory.
# Establecer las variables de entorno
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.2-bin-hadoop3.2"
El siguiente paso será instalar la librería findspark.
# Instalar findspark
!pip install -q findspark
Si todo ha ido bien hasta este paso, ya deberíamos tener Spark listo para empezar a trabajar con él en Colab. Por tanto, lo siguiente que vamos a realizar es crear una sesión de Spark y crear un DataFrame sencillo que nos ayudará a comprobar si la descarga y configuración de Spark fue exitosa.
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
spark.range(10).toDF('id').show()
Listo! Ya tenemos Apache Spark instalado en Google Colaboratory. Lo que resta ahora es utilizar Spark para trabajar con RDDs, DataFrames, realizar Machine Learning o cualquier otra de las tareas para la cual está diseñado. Un buen punto de partida puede ser mi curso Big Data y Spark: ingeniería de datos con Python y pyspark donde te enseñaré a trabajar con RDDs y DataFrames justamente en Colab para que bien puedas construir tus primeras aplicaciones con Apache Spark, o bien, optimizar aquellas que ya tengas construidas.