Задача: Разработка системы парсинга и управления контентом
Проект включает создание двух автономных скриптов на Python и их интеграцию в существующую веб-админку на Django для централизованного управления.
Задача 1: Парсер статей с платформы Дзен
Основной функционал:
- Автоматический отбор: Скрипт должен фильтровать статьи по заданным ключевым словам или тематикам.
- Сбор данных: Парсинг заголовка, текста статьи, описания и изображений.
- Уникализация контента:
- Заголовки и описания обрабатываются через API Google Translate для перевода и перефразирования.
- Изображения проходят техническую уникализацию (изменение характеристик файла).
- Сохранение: Все полученные данные сохраняются в базу данных.
- Управление: Интерфейс для настройки и запуска парсера должен быть реализован в Django-админке (отдельная страница).
Задача 2: Скрипт сбора данных о Telegram-каналах и группах
Основной функционал:
- Поиск по критериям: Поиск каналов и групп (открытых и закрытых) по ключевым словам с привязкой к выбранной стране.
- Сбор метрик: Для каждого найденного источника необходимо сохранить:
- URL
- Название
- Тип (канал или группа)
- Описание
- Количество подписчиков
- Дата последней публикации
- Сохранение: Результаты сохраняются в базу данных.
- Управление: Панель управления скриптом (настройка ключевых слов, стран, запуск) интегрируется в Django-админку.
Общие требования к реализации
- Оба скрипта должны быть написаны на Python.
- Управление скриптами, настройка фильтров (ключевых слов, стран) и просмотр результатов осуществляются через веб-интерфейс Django-админки.
- Необходимо обеспечить корректную обработку ошибок и устойчивую работу парсеров.
- Архитектура БД должна быть продумана для хранения всех указанных данных.