Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 4 Следующий »


Занятие 1: Понятие «больших данных». Обзор экосистемы Apорhe Hadoop и дистрибутива Cloudera Hadoop

Занятие 2: Платформа Apache Hadoop. Файловая система HDFS. Форматы хранения данных. Компрессия данных.

Занятие 3: Планировщик выполнения задач на кластере Apache YARN

Занятие 4: SQL интерфейс к данным Apache Hive

  • Презентация
  • Задание 

    1. Взять CSV файлы со статистикой коронавируса из https://covid19.who.int/data
    2. Создать папку на HDFS в /user/stud/covid/landing/<имя датасета>
    3. Загрузить файл в соответствующую папку
    4. Создать внешнюю таблицу в hive, берущую данные из созданной папки
    5. Проверить корректность загруженных данных через SQL-запрос (количество строк, корректность всех столбцов).
    6. Реализовать SQL запрос согласно варианту.
    
    
    Вариант 1:
    - Датасет Daily cases and deaths by date reported to WHO
    - запрос:  вывести top 10 стран с наибольшей смертностью за 2022 год.
    
    Вариант 2:
    - Датасет Latest reported counts of cases and deaths
    - запрос: вывести top 10 стран с наибольшим коэффициентом смертности на 100 000 жителей за последние 7 дней.
    
    Вариант 3: 
    - Датасет Vaccination data
    - запрос: вывести top 10 стран с наибольшим процентом вакцинированных жителей на текущий момент.
    
    Вариант 4: Vaccination metadata
    - Датасет Vaccination data
    - запрос: 
    	- вывести страны, в которых доступно наибольшее количество вакцин
    	- вывести top 5 вакцин по количеству стран, где они применяются

Занятие 5: Паттерны распределенной обработки данных Map Reduce

Занятие 6: Распределенная обработка данных на Apache Spark

  • Презентация
  • Примеры
  • Задание: Реализовать свой вариант из задания 4 на Apache Spark на базе примеров из репозитория
  • Нет меток