Требуется реализовать прототип распределенной платформы для микроблогов
В качестве основной базы данных предлагается использовать MongoDB:
- сохранения сообщений с лайками
- сохранения и обновления аккаунтов пользователей (авторов сообщений) с подписчиками и тех, на кого пользователь подписан
Для отображения ленты и поиска сообщений предлагается использовать OpenSearch:
- полнотекстовый поиск сообщений
- аналитика трендов: агрегация по тегам за указанную дату
Для быстрого отображения ленты новостей предлагается использовать распределенный кэш Hazelcast:
- ключ: userId
- значение: заранее подготовленный и отсортированный по дате список последних постов от авторов, на которых подписан пользователь.
- обновление: асинхронное, при публикации нового поста все подписчики получают обновление в своей закэшированной ленте
- Также можно использовать для кэша счетчика лайков для постов и других агрегатов
Данные аккаунтов и сообщения можно взять из дампа stackoverflow (или выкачать из твиттера).
За основу можно взять шаблон приложения на Spring Boot.
Предлагаемый план работ:
- Обсудить и согласовать модель данных предметной области (User, Post)
- Реализация
- Класс - сервис для работы с MongoDB для Post(сохранение, получение по ID, управление подписчиками)
- Класс - сервис для работы с OpenSearch (индексация, поиск по тексту, агрегация по тегам)
- Класс - сервис для работы с MongoDB для User (сохранение, получение по ID)
- Реализация кэширования в Hazelcast
- Реализация загрузки данных из stackoverflow в систему с использованием реализованных сервисов (например, используя Apache Spark)
- Реализация REST API для классов из a,c
- Реализация REST API для классов из b (полнотекстового поиска)
- Интеграция
- Загрузка полного объема данных в кластер (не менее нескольких миллионов сообщений)
- Функциональное тестирование и исправление ошибок
- Тест на отключение отдельных узлов и восстановление связи с узлом
- Краткий отчет (постановка задачи, архитектура решения, результаты тестирования)