- 1. Что такое "Большие данные". Отличия реляционных от нереляционных баз данных.
- 2. Знакомство с платформой и дистрибутивами Hadoop
- 3. Платформа Apache Hadoop: файловая система HDFS. Форматы хранения данных. Компрессия данных.
- 4. MapReduce и планировщик задач YARN
- 5. Паттерны обработки данных с помощью MapReduce
- 6. Apache Hive
- 7. Apache Spark: RDD, DataFrame/DataSet
- 8. Профилирование и анализ качества данных
- Архив
- Задания
Материалы
Исходные коды с примерами: https://bitbucket.org/eugav/hadoop-test/src
Задания по Hadoop
Полный вариант (MR+Hive+Spark) - Hadooop Tasks.docx
Вариант для МАИ 806 (Hive + Spark) - Hadooop Tasks_MAI