Вы просматриваете старую версию данной страницы. Смотрите текущую версию.

Сравнить с текущим просмотр истории страницы

« Предыдущий Версия 3 Следующий »

Материалы

Документация Spark: https://spark.apache.org/docs/2.3.0/sql-programming-guide.html

Форматы данных:

  1. Формат plain text storage - text, csv, tsv, с фиксированной длиной и другие текстовые форматы
  2. Формат sequence files: https://wiki.apache.org/hadoop/SequenceFile
  3. Формат данных parquet: https://parquet.apache.org/documentation/latest/
  4. Формат данных orc: https://orc.apache.org/specification/ORCv1/
  5. Формат данных avro: http://avro.apache.org/docs/current/spec.html

Проект: lession13.zip


Работа с Apache Spark

Установка

Дистрибутив Apache Spark можно скачать с официальной страницы: https://spark.apache.org/downloads.html

Мы будем работать с версией 2.3.0 скомпилированной под Hadoop 2.7

Нужно скачать дистрибутив и распаковать в директорию установки.

Работа с REPL (read-eval-print loop)

Минимальный проект на Spark

Загрузка, сохранение данных в разных форматах



  • Нет меток