Занятие 1: Понятие «больших данных». Обзор экосистемы Apорhe Hadoop и дистрибутива Cloudera Hadoop

Занятие 2: Платформа Apache Hadoop. Файловая система HDFS. Форматы хранения данных. Компрессия данных.

Занятие 3: Планировщик выполнения задач на кластере Apache YARN

Занятие 4: SQL интерфейс к данным Apache Hive

  • Презентация
  • Задание 

    1. Взять CSV файлы со статистикой коронавируса из https://covid19.who.int/data
    2. Создать папку на HDFS в /user/stud/covid/landing/<имя датасета>
    3. Загрузить файл в соответствующую папку
    4. Создать внешнюю таблицу в hive, берущую данные из созданной папки
    5. Проверить корректность загруженных данных через SQL-запрос (количество строк, корректность всех столбцов).
    6. Реализовать SQL запрос согласно варианту.
    
    
    Вариант 1:
    - Датасет Daily cases and deaths by date reported to WHO
    - запрос:  вывести top 10 стран с наибольшей смертностью за 2022 год.
    
    Вариант 2:
    - Датасет Latest reported counts of cases and deaths
    - запрос: вывести top 10 стран с наибольшим коэффициентом смертности на 100 000 жителей за последние 7 дней.
    
    Вариант 3: 
    - Датасет Vaccination data
    - запрос: вывести top 10 стран с наибольшим процентом вакцинированных жителей на текущий момент.
    
    Вариант 4: Vaccination metadata
    - Датасет Vaccination data
    - запрос: 
    	- вывести страны, в которых доступно наибольшее количество вакцин
    	- вывести top 5 вакцин по количеству стран, где они применяются

Занятие 5: Паттерны распределенной обработки данных Map Reduce

Занятие 6: Распределенная обработка данных на Apache Spark

  • Презентация
  • Примеры
  • Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория

Занятие 7: Spark SQL

Занятие 8: Потоковая обработка данных. Spark Streaming

Занятие 9: Обзор задач и инструментария инжиниринга данных

Итоговое задание

Варианты:
1. Найти страны с наибольшей смертностью за 2022 г. среди 10 с наибольшим процентом вакцинированных
2. Найти страны с наибольшей смертностью за 2022 г. среди 50 с наименьшим процентом вакцинированных

Для своего варианта реализовать задачу:
1. На Hive SQL
2. На Spark (RDD, Dataframe/Dataset)
3. Опционально на Spark SQL




  • Нет меток