Материалы

Форматы данных:

Формат plain text storage - text, csv, tsv, с фиксированной длиной и другие текстовые форматы
Формат sequence files: https://wiki.apache.org/hadoop/SequenceFile
Формат данных parquet: https://parquet.apache.org/documentation/latest/
Формат данных orc: https://orc.apache.org/specification/ORCv1/
Формат данных avro: http://avro.apache.org/docs/current/spec.html

Проект: lession13.zip

Работа с Apache Spark

Дистрибутив Apache Spark можно скачать с официальной страницы: https://spark.apache.org/downloads.html

Мы будем работать с версией 2.3.0 скомпилированной под Hadoop 2.7

Нужно скачать дистрибутив и распаковать в директорию установки.