Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Сборка образов

Spark cluster

Сборка и запуск

Структура директорий и файлы для сборки и запуска лежат в spark_cluster.zip

...

скачает с docker hub нужные образы, соберет из них образ spark-а (версия 3.1.2) и запустит кластер.

Запуск с удаленной машины

Чтобы запустить spark application на удаленном кластере создаем SparkSession:

...

Информация
  1. В качестве cluster_ip указываем ip адрес хост машины, где поднят кластер. При деплое этого job-а нужно будет убрать эту строку кода
  2. В качестве узла драйвера указывается наша локальная машина. При деплое этого job-а нужно будет убрать эту строку кода.


Деплой spark job-а на кластер

Для этого нужно скопировать jar-ник с spark job-ом на развернутый кластер.

...

Блок кода
/opt/spark/bin/spark-submit \
    --master spark://spark-master:7077 \
    --driver-memory 4G --executor-memory 4G \
    --class full_qualified_class_name \
    /opt/spark-apps/file_name_of_your_jar.jar


Hadoop cluster