Хранение и обработка больших данных

Занятие 1: Понятие «больших данных». Обзор экосистемы Apорhe Hadoop и дистрибутива Cloudera Hadoop

Занятие 2: Платформа Apache Hadoop. Файловая система HDFS. Форматы хранения данных. Компрессия данных.

Занятие 3: Планировщик выполнения задач на кластере Apache YARN

Презентация

Занятие 4: SQL интерфейс к данным Apache Hive

Презентация

Задание

1. Взять CSV файлы со статистикой коронавируса из https://covid19.who.int/data
2. Создать папку на HDFS в /user/stud/covid/landing/<имя датасета>
3. Загрузить файл в соответствующую папку
4. Создать внешнюю таблицу в hive, берущую данные из созданной папки
5. Проверить корректность загруженных данных через SQL-запрос (количество строк, корректность всех столбцов).
6. Реализовать SQL запрос согласно варианту.

Вариант 1:
- Датасет Daily cases and deaths by date reported to WHO
- запрос: вывести top 10 стран с наибольшей смертностью за 2022 год.

Вариант 2:
- Датасет Latest reported counts of cases and deaths
- запрос: вывести top 10 стран с наибольшим коэффициентом смертности на 100 000 жителей за последние 7 дней.

Вариант 3:
- Датасет Vaccination data
- запрос: вывести top 10 стран с наибольшим процентом вакцинированных жителей на текущий момент.

Вариант 4: Vaccination metadata
- Датасет Vaccination data
- запрос:
- вывести страны, в которых доступно наибольшее количество вакцин
- вывести top 5 вакцин по количеству стран, где они применяются

Занятие 5: Паттерны распределенной обработки данных Map Reduce

Презентация

Занятие 6: Распределенная обработка данных на Apache Spark

Презентация
Примеры
Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория

Занятие 7: Spark SQL

Презентация
Примеры
Задание: Реализовать свой вариант из задания 4 на Spark SQL с помощью SQL и с помощью DataFrame.
Тест

Занятие 8: Потоковая обработка данных. Spark Streaming

Итоговое задание

Варианты:
1. Найти страны с наибольшей смертностью за 2022 г. среди 10 с наибольшим процентом вакцинированных
2. Найти страны с наибольшей смертностью за 2022 г. среди 50 с наименьшим процентом вакцинированных
3. Найти наиболее эффективные вакцины (наименьший процент заболевших во время вакцинации пропорционально количеству вакцинированных)
4. Найти наименее эффективные вакцины (наибольший процент заболевших во время вакцинации пропорционально количеству вакцинированных)

Для своего варианта реализовать задачу:
1. На Hive SQL
2. На Spark (RDD, Dataframe/Dataset)
3. Опционально на Spark SQL

Дерево страниц