Задача
Требуется собрать email адреса из научных репозиториев, которые содержат документы в формате PDF. Нужно обработать четыре сайта, имеющих похожую структуру, и сохранить результаты в таблицу Excel.
Источники для парсинга
- Институциональный репозиторий (университет A
- Университетский архив B
- Открытая коллекция организации C
- Электронная библиотека вуза D
Особенности работы
- Email адреса находятся только внутри PDF документов
- Структура всех четырех сайтов однотипна
- При возникновении сложностей допускается сбор данных частично, с выборкой 2-3 репозиториев
- Выходной формат - любой структуры, желательно файл Excel
Опциональные требования
- Парсинг с любого общего источника данных о контактах
- Чистка и дедупликация собранных адресов
- Сохранение исходного названия документа, из которого извлечен email