Описание задачи
Необходимо выполнить разовый сбор данных с веб-страниц справочника компаний и организаций. Заказчик предоставит отдельные ссылки для каждого раздела (например, категории услуг). Полученная информация должна быть обработана без сохранения названий фирм, личных имен, контактных телефонов и других персональных данных - они автоматически маскируются или удаляются.
Требования к результату
- Информация должна быть разделена по разделам (каждый раздел соответствует отдельному списку ссылок).
- Формат итогового файла (предположительно таблица: csv/xlsx). Уточняется с заказчиком.
- Запрещено сохранять в результате следующие данные: названия компаний и публичные имена, номера телефонов, email, точные URL сайтов или IP-адреса.
- Допускается сохранение: сферы деятельности, описания услуг, реквизитов, юридических статусов, лицензий, адресов (на уровне города), режима работы.
Рекомендуемый стек и замечания
Заказчик использует свободные технологии (например, Python + requests + BeautifulSoup, или иные доступные инструменты). Конкретная парадигма парсинга: строго единоразовый, не создавать постоянно работающего сервиса или скрипта. Вся работа выполняется локально сторонним исполнителем, бота или клиент-серверных решений не требуется.
Объём работ
Итоговые блоки:
- Получение сырой информации: сбор страниц заданных разделов по полученным спискам ссылок.
- Очистка: удаление чувствительных данных.
- Структурирование: сохранение в выбранном формате.
- Выдача Заказчику: передать конечный файл / файлы.
Формат желаемых заголовков-полей: уточняется в переписке.