Aprende a manipular datos con Polars y Python

Anuncio con gran entusiasmo la publicación del repositorio de GitHub de mi curso «Aprende a manipular datos con Polars y Python», el cual próximamente estará disponible en la plataforma de Udemy. ¿Qué es «Aprende a manipular datos con Polars y Python»? Este curso te brindará las herramientas y conocimientos necesarios para dominar Polars, una biblioteca de Python […]

Almacenamiento en caché

El almacenamiento en caché permite que Spark conserve los datos en todos los cálculos y operaciones. De hecho, esta es una de las técnicas más importantes de Spark para acelerar los cálculos, especialmente cuando se trata de cálculos iterativos. El almacenamiento en caché funciona almacenando el RDD tanto como sea posible en la memoria. Si […]

Particionado en Apache Spark

Los RDD operan con datos no como una sola masa de datos, sino que administran y operan los datos en particiones repartidas por todo el clúster. Por lo tanto, el concepto de partición de datos es fundamental para el correcto funcionamiento de los Jobs de  Apache Spark y puede tener un gran efecto en el rendimiento […]

¿Cómo crear una cuenta gratuita en Databricks?

Databricks Community Edition Databricks Community Edition es la versión gratuita de la plataforma de Big Data basada en la nube Databricks. Los usuarios de Databricks Community Edition  pueden acceder a un microclúster, así como a un administrador de clústeres y a notebooks con varias configuraciones. Todos los usuarios pueden compartir sus notebooks y alojarlos de […]

Comienza escribiendo tu búsqueda y pulsa enter para buscar. Presiona ESC para cancelar.

Volver arriba