Техническое задание: Настройка облачного парсера LinkedIn
Цель проекта
Автоматизация ежедневного сбора актуального контента из социальной сети LinkedIn для последующего анализа и использования.
Основные требования к системе
- Источники данных: Парсер должен собирать посты по трём типам критериев:
- По указанным хештегам (тегам)
- По заданным ключевым словам
- Из конкретных, предоставленных заказчиком, аккаунтов (профилей/компаний)
- Режим работы: Полностью автоматический. Система должна самостоятельно находить и загружать 2-3 новых поста в день по каждому активному критерию или источнику.
- Формат вывода: Все собранные данные должны структурироваться и сохраняться в JSON-формате.
- Доступ к результатам: Обеспечить возможность беспрепятственного забора готовых JSON-файлов. Предпочтительный вариант - настройка доступа через облачное API или размещение файлов в указанном облачном хранилище (например, FTP, S3, Google Drive API).
Технические и организационные пожелания
- Решение должно быть развернуто в облачной среде (например, AWS, Google Cloud, Yandex.Cloud) для обеспечения стабильной работы и масштабируемости.
- Важно соблюдение политики использования данных LinkedIn и обеспечение устойчивости парсера к изменениям в структуре сайта.
- Необходима документация по работе с настроенным парсером и API для забора данных.