Python archivos - Josemtech

Optimización de PySpark para el procesamiento de datos masivos

Apache Spark, Pythonnoviembre 28, 2024noviembre 28, 2024

En la era del big data, manejar volúmenes masivos de información es crucial para las empresas que desean transformar datos en valor. PySpark, la interfaz de Python para Apache Spark, se ha posicionado como una herramienta esencial para el procesamiento distribuido de datos. En este artículo, exploraremos cómo PySpark optimiza cada etapa del flujo de […]

Aprende a manipular datos con Polars y Python

Polars, Pythonmayo 7, 2024mayo 7, 2024

Anuncio con gran entusiasmo la publicación del repositorio de GitHub de mi curso «Aprende a manipular datos con Polars y Python», el cual próximamente estará disponible en la plataforma de Udemy. ¿Qué es «Aprende a manipular datos con Polars y Python»? Este curso te brindará las herramientas y conocimientos necesarios para dominar Polars, una biblioteca de Python […]

¿Qué es Polars?

Polars, Pythonfebrero 29, 2024febrero 29, 2024

Leer y Escribir DataFrames de pyspark en AWS S3: Guía Completa

Apache Spark, Pythonfebrero 27, 2024

Descubre cómo leer y escribir DataFrames de pyspark en AWS S3 con este tutorial paso a paso. ¿Por qué es importante? Trabajar con grandes volúmenes de datos requiere soluciones robustas y escalables. AWS S3 ofrece una plataforma segura y accesible para almacenar tus datos, mientras que pyspark te permite manipularlos con facilidad. Este video te […]

Almacenamiento en caché

Apache Spark, Python, Scaladiciembre 8, 2022

El almacenamiento en caché permite que Spark conserve los datos en todos los cálculos y operaciones. De hecho, esta es una de las técnicas más importantes de Spark para acelerar los cálculos, especialmente cuando se trata de cálculos iterativos. El almacenamiento en caché funciona almacenando el RDD tanto como sea posible en la memoria. Si […]

Particionado en Apache Spark

Apache Spark, Python, Scalanoviembre 17, 2022

Los RDD operan con datos no como una sola masa de datos, sino que administran y operan los datos en particiones repartidas por todo el clúster. Por lo tanto, el concepto de partición de datos es fundamental para el correcto funcionamiento de los Jobs de Apache Spark y puede tener un gran efecto en el rendimiento […]

Instalar Apache Spark en Google Colaboratory

Apache Spark, Pythonnoviembre 2, 2022noviembre 5, 2022

¿Qué es Google Colaboratory? Colaboratory, o «Colab» para abreviar, es un producto de Google Research. Permite a cualquier usuario escribir y ejecutar código arbitrario de Python en el navegador. Es especialmente adecuado para tareas de aprendizaje automático, análisis de datos y educación. Desde un punto de vista más técnico, Colab es un servicio alojado de […]

¿Cómo crear una cuenta gratuita en Databricks?

Apache Spark, Python, Scalanoviembre 1, 2022noviembre 1, 2022

Databricks Community Edition Databricks Community Edition es la versión gratuita de la plataforma de Big Data basada en la nube Databricks. Los usuarios de Databricks Community Edition pueden acceder a un microclúster, así como a un administrador de clústeres y a notebooks con varias configuraciones. Todos los usuarios pueden compartir sus notebooks y alojarlos de […]