Техническое задание: Автоматизация сбора контактных данных компаний
Цель проекта
Необходимо разработать решение, которое автоматически дополняет существующий Excel-файл с каталогом компаний недостающими контактными данными, полученными из открытых онлайн-источников.
Основные задачи
- Разработать парсер для одного или нескольких публичных каталогов компаний.
- Реализовать поиск и извлечение данных по идентификаторам (ИНН) из предоставленного списка.
- Собрать следующие данные, если они доступны: ФИО директора (или ответственного лица), контактные телефоны, адреса электронной почты, адрес официального сайта.
- Автоматически добавить полученные данные в соответствующие колонки существующего Excel-файла.
- Обеспечить обработку списка, состоящего из нескольких десятков записей.
Технические требования и ожидания
- Решение должно быть надежным и корректно обрабатывать случаи отсутствия данных или ошибок при запросах.
- Важно избегать блокировок со стороны источников данных (необходимо предусмотреть задержки, ротацию user-agent и другие методы вежливого парсинга).
- Исходный Excel-файл служит основой, его структура должна быть сохранена.
- Готовое решение должно быть передано в виде рабочего скрипта/программы с краткой инструкцией по запуску.
Что предоставляет заказчик
- Файл в формате Excel (.xlsx) с колонкой, содержащей идентификаторы (ИНН) компаний.
- Подробное описание требуемых к добавлению колонок с контактами.