Материалы
Документация Spark: https://spark.apache.org/docs/2.3.0/sql-programming-guide.html
Форматы данных:
- Формат plain text storage - text, csv, tsv, с фиксированной длиной и другие текстовые форматы
- Формат sequence files: https://wiki.apache.org/hadoop/SequenceFile
- Формат данных parquet: https://parquet.apache.org/documentation/latest/
- Формат данных orc: https://orc.apache.org/specification/ORCv1/
- Формат данных avro: http://avro.apache.org/docs/current/spec.html
Проект: lession13.zip