Хранение и обработка больших данных

Занятие 1: Понятие «больших данных». Обзор экосистемы Apорhe Hadoop и дистрибутива Cloudera Hadoop

Занятие 2: Платформа Apache Hadoop. Файловая система HDFS. Форматы хранения данных. Компрессия данных.

Занятие 3: Планировщик выполнения задач на кластере Apache YARN

Презентация

Занятие 4: SQL интерфейс к данным Apache Hive

Презентация

Задание

1. Взять CSV файлы со статистикой коронавируса из https://covid19.who.int/data
2. Создать папку на HDFS в /user/stud/covid/landing/<имя датасета>
3. Загрузить файл в соответствующую папку
4. Создать внешнюю таблицу в hive, берущую данные из созданной папки
5. Проверить корректность загруженных данных через SQL-запрос (количество строк, корректность всех столбцов).
6. Реализовать SQL запрос согласно варианту.

Вариант 1:
- Датасет Daily cases and deaths by date reported to WHO
- запрос: вывести top 10 стран с наибольшей смертностью за 2022 год.

Вариант 2:
- Датасет Latest reported counts of cases and deaths
- запрос: вывести top 10 стран с наибольшим коэффициентом смертности на 100 000 жителей за последние 7 дней.

Вариант 3:
- Датасет Vaccination data
- запрос: вывести top 10 стран с наибольшим процентом вакцинированных жителей на текущий момент.

Вариант 4: Vaccination metadata
- Датасет Vaccination data
- запрос:
- вывести страны, в которых доступно наибольшее количество вакцин
- вывести top 5 вакцин по количеству стран, где они применяются

Занятие 5: Паттерны распределенной обработки данных Map Reduce

Презентация

Занятие 6: Распределенная обработка данных на Apache Spark

Презентация
Примеры
Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория

Занятие 7: Spark SQL

Презентация
Примеры
Задание: Реализовать свой вариант из задания 4 на Spark SQL с помощью SQL и с помощью DataFrame.
Тест

Занятие 8: Потоковая обработка данных. Spark Streaming

Занятие 9: Обзор задач и инструментария инжиниринга данных

Итоговое задание

Варианты:
1. Найти страны с наибольшей смертностью за 2022 г. среди 10 с наибольшим процентом вакцинированных
2. Найти страны с наибольшей смертностью за 2022 г. среди 50 с наименьшим процентом вакцинированных

Для своего варианта реализовать задачу:
1. На Hive SQL
2. На Spark (RDD, Dataframe/Dataset)
3. Опционально на Spark SQL

Дерево страниц