Техническое задание: Сбор и структурирование данных о компаниях
Цель проекта
Собрать полную доступную информацию о компаниях из двух заданных онлайн-каталогов для дальнейшего использования в клиентских базах.
Источники данных
- Первый веб-ресурс: раздел с профилями компаний.
- Второй веб-ресурс: раздел с агентствами.
Требования к сбору данных
Объем данных
- Необходимо обработать все геолокации (города/регионы), представленные на сайтах.
- Собрать данные по всем компаниям в указанных разделах.
Извлекаемые поля
- Имя контактного лица
- Фамилия контактного лица
- Номер телефона (включая WhatsApp, если указан)
- Адрес электронной почты
- Физический адрес компании
- Все остальные существующие и доступные поля в карточках компаний (например, сайт, специализация, описание услуг и т.д.)
Требования к результату
Форматы файлов
- Данные должны быть предоставлены в двух форматах: Microsoft Excel (.xlsx или .xls) и CSV (Comma-Separated Values).
Структура данных
- Столбцы и структура файлов должны строго соответствовать общепринятому формату для импорта клиентских данных в популярные CRM и e-commerce платформы (в качестве ориентира предоставлена документация по импорту клиентов одной из таких платформ).
- Данные должны быть чистыми, структурированными и готовыми к загрузке в систему.
Технические примечания
- При парсинге необходимо обеспечить устойчивость к потенциальным блокировкам и обход ограничений по запросам.
- Код или скрипт для сбора данных должен быть документирован.
- Важно сохранить целостность и точность извлеченной информации.