Cómo ejecutar scripts en Spark §

Ejecutar Spark en Google Cloud §

Esta es la manera más fácil. Pulsando en el siguiente botón, se creará un contenedor con el repositorio de la clase y todos los archivos de datos que se necesitan.

Ejecutar Spark mediante Docker §

Preferiblemente en Linux/Mac. Clona el repositorio en tu PC en un directorio sin espacios:

git clone https://github.com/luisbelloch/data_processing_course.git
cd data_processing_course/spark
./spark compras_con_mas_de_un_descuento.py

El script ./spark es equivalente a hacer:

docker run --rm -ti -w /upv \
  -v $(pwd):/upv -v $(pwd)/../data:/upv/data \
  luisbelloch/spark spark-submit /upv/compras_con_mas_de_un_descuento.py

Ejecutar PySpark usando un notebook de Jupyter §

Después de clonar el repositorio, ejecuta:

docker run -v $(pwd)/data:/home/jovyan/data -p 8888:8888 -p 4040:4040 jupyter/pyspark-notebook

Luego navega a http://127.0.0.1:8888/lab. El token para acceder se muestra al arrancar el contenedor.

Cómo ejecutar scripts en Spark §

Ejecutar Spark en Google Cloud §

Ejecutar Spark mediante Docker §

Ejecutar PySpark usando un notebook de Jupyter §

Más información §

Otras formas de ejecutar Spark §

Guías Adicionales §