Задача:
Обработать таблицу данных, которая содержит список из 680 адресов сайтов (без названий компаний и явных контактов). Требуется заполнить первую колонку таблицы адресом электронной почты, характерным для рабочего отдела организации:
- Сначала найти почту на странице "Контакты" (Contact Us, Support).
- Если явного email нет - проверить страницу "Реклама" (Advertise, Partners) в поисках контактных данных для коммерческого отдела.
- Крайняя мера: если email на страницах отсутствует, но существует форма обратной связи (Contact Form), нужно сохранить ссылку на эту форму (URL).
- Если сайт полностью закрыт (нет ни почты, ни формы) - полученную ячейку оставить пустой, как "не заглушку".
Требования к выполнению:
- Качество: Точное соблюдение форматов (полный и валидный email-адрес; URL как есть, без слепого домена). В первом варианте разрешается только один контакт на строку - приоритет строится по указанному правилу (вложения строго не допускаются).
- Оперативность: Минимизация времени при ручной работе (разумные лимиты на сайты одинаковой структуры). Рекомендуется параллельная нагрузка 4-6 адресов одновременно и строгий алгоритм для быстрого принятия решения.
- Точность сохранения: Входные ссылки защищены от случайного повреждения. Оригинальный файл не изменяется за исключением первой колонки.
- Передача данных: Итоговую версию таблицу составить в исходном формате XLSX (в качестве можно также CSV). Только целевые изменения ; отдельно никаких комментариев от левого поля не требуется.
Правила для корректного извлечения:
- Брать за основу открытую (нетитульную) информацию в виде живого видимого из Росии текста с соблюдением защиты простых данных: имена разделов перевести как рутину ожидать + официальные.
- Не исключать - искать капсом "Info IT director" и прочеe указывая точный Local-part (подтасовка недопустима). Подстановко четко 1-ной варианст для 1-й фирмы.
- Не брать адреса бесплатной раздачи форма grab по паттерну .filter('price')? все прохода даны только через структуры "Cont","mail @ media", etc.
- Письмо на вывод в результате 150СE: строгий encoding @ ISO-8859 на чистом тексте.