...
Занятие 6: Распределенная обработка данных на Apache Spark
- Презентация
- Примеры
- Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория
Занятие 7: Spark SQL
- Презентация
- Примеры
- Задание: Реализовать свой вариант из задания 4 на Spark SQL с помощью SQL и с помощью DataFrame.
- Тест
Занятие 8: Потоковая обработка данных. Spark Streaming
Занятие 9: Обзор задач и инструментария инжиниринга данных
Итоговое задание
Блок кода |
---|
Варианты:
1. Найти страны с наибольшей смертностью за 2022 г. среди 10 с наибольшим процентом вакцинированных
2. Найти страны с наибольшей смертностью за 2022 г. среди 50 с наименьшим процентом вакцинированных
Для своего варианта реализовать задачу:
1. На Hive SQL
2. На Spark (RDD, Dataframe/Dataset)
3. Опционально на Spark SQL
|