Разработка парсера статей с Дзен для сайта
Требуется создать автоматизированную систему на Python для сбора контента с платформы Дзен с последующей его публикацией на сайте.
Основные задачи проекта
- Автоматический парсинг: Разработка скрипта, который по заданным ключевым словам (фильтру) автоматически находит и парсит тематические статьи с Дзен. Результаты парсинга должны сохраняться в базу данных.
- Обработка и уникализация контента:
- Заголовки и описания статей необходимо уникализировать, например, с использованием Google Переводчик или аналогичных сервисов.
- Картинки из статей также требуют уникализации (например, обработка через фильтры, изменение формата или размеров).
- Веб-интерфейс для управления: Создание веб-админки (панели управления) для скрипта. В админке должны быть страницы для настройки и управления процессом парсинга (добавление/изменение фильтров, запуск/остановка, просмотр результатов).
Требования к реализации
- Основной язык разработки: Python.
- Парсер должен быть устойчивым к изменениям в структуре сайта-источника.
- Система должна быть модульной и легко расширяемой.
- Код должен быть хорошо документирован.