Сравнение версий

Ключ

  • Эта строка добавлена.
  • Эта строка удалена.
  • Изменено форматирование.

...

Блок кода
/opt/spark/bin/spark-submit \
    --master spark://spark-master:7077 \
    --driver-memory 4G --executor-memory 4G \
    --class full_qualified_class_name \
    /opt/spark-apps/file_name_of_your_jar.jar


Hadoop cluster

Сборка и запуск

Структура директорий и файлы для сборки и запуска лежат в hadoop3.zip

docker-compose.yml содержит инструкции и для сборки и для запуска. Команда 

Блок кода
docker-compose up

скачает с docker hub нужные образы, соберет из них образ и запустит hadoop кластер. Кластер содержит развернутый hadoop 3.2.0, hive 3.1.0, spark 3.1.2

Работа с компонентами кластера

Работать с компонентами кластера предполагается из командой строки. Сборки и данные можно выкладывать в директорию config. Директория примонтирована на путь /var/input.

Блок кода
#запуск консоли hive
docker exec -it spark3_hive3_1 /bin/bash
hive

#засабмитить spark job
docker exec -it spark3_hive3_1 /bin/bash
spark-submit \
    --driver-memory 4G --executor-memory 4G \
    --class full_qualified_class_name \
    /var/input/file_name_of_your_jar.jar