Техническое задание: Парсер для анализа дроп-доменов
Цель проекта
Разработать программное решение для автоматизированного анализа архивных копий доменов, освободившихся для регистрации (дроп-доменов). Основная задача - выявление доменов с "чистой" историей, не содержавшей спам-контента, что критически важно для их безопасного последующего использования.
Основные функциональные требования
- Язык разработки: Python или Node.js (на выбор исполнителя с обоснованием).
- Интеграция с Wayback Machine: Реализация работы с API сервиса Wayback Machine для получения списка доступных исторических снимков (снимков) домена.
- Парсинг контента: Загрузка и анализ HTML-кода архивных страниц.
- Система фильтрации: Реализация проверки текстового контента по заданному списку стоп-слов и фраз, характерных для спама, мошенничества или низкокачественного контента.
- Экспорт данных: Вывод результатов анализа в структурированном CSV-файле, включая URL домена, даты снимков, результат проверки и найденные стоп-слова.
Детализация и ожидаемый результат
Этапы работы скрипта
- Получение на вход списка доменных имен для проверки.
- Запрос к API Wayback Machine для получения информации о доступных снимках за последние N лет (параметр должен быть настраиваемым).
- Последовательная загрузка и парсинг HTML-контента для каждого из ключевых снимков.
- Извлечение текста и его анализ на наличие стоп-слов из предоставленного или конфигурируемого списка.
- Формирование итогового отчета: для каждого домена указывается общий вердикт ("чистый" / "потенциально спамный") и детализация по снимкам.
Технические аспекты
- Код должен быть читаемым, документированным и готовым к развертыванию.
- Необходима обработка ошибок (отсутствие снимков, проблемы с API, недоступность контента).
- Список стоп-слов должен быть легко редактируемым (вынесен в отдельный файл или конфигурацию).
Требования к исполнителю
В отклике, пожалуйста, укажите:
- Ваш опыт работы с парсингом архивных данных или API исторических веб-архивов.
- Предложения по улучшению и расширению функционала данного ТЗ (например, дополнительные источники данных, метрики анализа, оптимизация скорости работы).
- Оценку сроков реализации и бюджета проекта.