Техническое задание: Парсер сайтов с интеграцией в Telegram
Цель проекта
Разработка автоматизированной системы для мониторинга онлайн-площадок. Система должна отслеживать появление новых объявлений по предоставленным ссылкам, собирать по ним исчерпывающую информацию и автоматически публиковать оформленные карточки в указанную Telegram-группу.
Основные функциональные требования
1. Сбор данных
- Мониторинг списка: Постоянный обход заданных страниц для выявления новых объявлений.
- Глубокий парсинг карточки: Для каждого нового объявления обязателен переход на его страницу и сбор всех доступных данных.
2. Извлекаемая информация (полный набор)
- Заголовок объявления.
- Цена, валюта, информация о скидках.
- Полное текстовое описание.
- Все таблицы характеристик и параметров.
- Дата и время публикации и последнего обновления.
- Все фотографии/изображения (с загрузкой на локальный сервер или в облако).
- Любые другие поля, присутствующие в карточке.
3. Антибан и стабильность работы
- Работа через мобильные прокси для имитации реальных пользователей.
- Реализация ротации IP-адресов.
- Настройка лимитов запросов, случайных задержек между запросами.
- Механизм повторных попыток (retry) при сбоях.
4. Интеграция и вывод
- Автоматическая публикация собранных данных в Telegram-группу в удобочитаемом формате (текст + медиа).
- Система должна публиковать только новые, ранее не обработанные объявления.
Технические пожелания
- Язык реализации: Python.
- Возможность как разработки решения "с нуля", так и доработки/интеграции готового надежного парсера.