Описание задачи

Необходимо выполнить разовый сбор данных с веб-страниц справочника компаний и организаций. Заказчик предоставит отдельные ссылки для каждого раздела (например, категории услуг). Полученная информация должна быть обработана без сохранения названий фирм, личных имен, контактных телефонов и других персональных данных - они автоматически маскируются или удаляются.

Требования к результату

  • Информация должна быть разделена по разделам (каждый раздел соответствует отдельному списку ссылок).
  • Формат итогового файла (предположительно таблица: csv/xlsx). Уточняется с заказчиком.
  • Запрещено сохранять в результате следующие данные: названия компаний и публичные имена, номера телефонов, email, точные URL сайтов или IP-адреса.
  • Допускается сохранение: сферы деятельности, описания услуг, реквизитов, юридических статусов, лицензий, адресов (на уровне города), режима работы.

Рекомендуемый стек и замечания

Заказчик использует свободные технологии (например, Python + requests + BeautifulSoup, или иные доступные инструменты). Конкретная парадигма парсинга: строго единоразовый, не создавать постоянно работающего сервиса или скрипта. Вся работа выполняется локально сторонним исполнителем, бота или клиент-серверных решений не требуется.

Объём работ

Итоговые блоки:

  1. Получение сырой информации: сбор страниц заданных разделов по полученным спискам ссылок.
  2. Очистка: удаление чувствительных данных.
  3. Структурирование: сохранение в выбранном формате.
  4. Выдача Заказчику: передать конечный файл / файлы.

Формат желаемых заголовков-полей: уточняется в переписке.

Обработка Excel таблицы и построение графиков

Требуется обработать данные из шести вкладок Excel, с различной периодичностью измерений, и построить итоговые средние значения по дням, а затем визуализировать их в линейных графиках. В каждой вкладке уже есть пример заполнения.