Занятие 1: Понятие «больших данных». Обзор экосистемы Apорhe Hadoop и дистрибутива Cloudera Hadoop
Занятие 2: Платформа Apache Hadoop. Файловая система HDFS. Форматы хранения данных. Компрессия данных.
Занятие 3: Планировщик выполнения задач на кластере Apache YARN
Занятие 4: SQL интерфейс к данным Apache Hive
- Презентация
Задание
1. Взять CSV файлы со статистикой коронавируса из https://covid19.who.int/data 2. Создать папку на HDFS в /user/stud/covid/landing/<имя датасета> 3. Загрузить файл в соответствующую папку 4. Создать внешнюю таблицу в hive, берущую данные из созданной папки 5. Проверить корректность загруженных данных через SQL-запрос (количество строк, корректность всех столбцов). 6. Реализовать SQL запрос согласно варианту. Вариант 1: - Датасет Daily cases and deaths by date reported to WHO - запрос: вывести top 10 стран с наибольшей смертностью за 2022 год. Вариант 2: - Датасет Latest reported counts of cases and deaths - запрос: вывести top 10 стран с наибольшим коэффициентом смертности на 100 000 жителей за последние 7 дней. Вариант 3: - Датасет Vaccination data - запрос: вывести top 10 стран с наибольшим процентом вакцинированных жителей на текущий момент. Вариант 4: Vaccination metadata - Датасет Vaccination data - запрос: - вывести страны, в которых доступно наибольшее количество вакцин - вывести top 5 вакцин по количеству стран, где они применяются
Занятие 5: Паттерны распределенной обработки данных Map Reduce
Занятие 6: Распределенная обработка данных на Apache Spark
- Презентация
- Примеры
- Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория
Занятие 7: Spark SQL
- Презентация
- Примеры
- Задание: Реализовать свой вариант из задания 4 на Spark SQL с помощью SQL и с помощью DataFrame.
- Тест
Занятие 8: Потоковая обработка данных. Spark Streaming
Занятие 9: Обзор задач и инструментария инжиниринга данных
Итоговое задание
Варианты: 1. Найти страны с наибольшей смертностью за 2022 г. среди 10 с наибольшим процентом вакцинированных 2. Найти страны с наибольшей смертностью за 2022 г. среди 50 с наименьшим процентом вакцинированных Для своего варианта реализовать задачу: 1. На Hive SQL 2. На Spark (RDD, Dataframe/Dataset) 3. Опционально на Spark SQL