Техническое задание: Парсинг и структурирование данных о захоронениях
Цель проекта
Разработать сборщик данных (парсер) с трех указанных геоинформационных порталов, посвященных ритуальным услугам и поиску захоронений. На выходе должна получиться единая база данных в формате Excel, структурированная по кладбищам.
Источники данных (упоминание удалено)
Данные необходимо собрать с трех веб-сайтов, предоставляющих доступ к геоданным о местах захоронений на территории России.
Требования к структуре Excel-файла (карточка кладбища)
В итоговом файле каждый объект (захоронение) должен быть представлен одной строкой, включающей:
- Участок / Ряд / Место (расположение на кладбище)
- ФИО погребенного (полностью)
- Дата рождения и дата смерти (или годы жизни)
- Ссылка на оригинальный источник в карточке
- Примечания (наличие, статус, дополнительная информация)
- Фотография (при наличии, можно ссылкой или указанием имени файла)
Основные условия
- ФИО, даты и место должны быть разделены по отдельным колонкам.
- Поле с источником обязательно, даже если это один и тот же сайт.
- Наличие фотографии для каждого объекта необязательно, но данные должны собираться и сохраняться там, где они доступны.
Вес файла с ТЗ снижен для безопасности (ссылки удалены). Все собранные данные должны быть проверены и не содержать пустых строк среди основных полей.
Готовый файл должен быть предоставлен в распространенном расширении XLSX.