Разработка геопространственной базы данных для агрегации данных о недвижимости
Цель проекта - создать централизованную и интеллектуальную систему, которая объединит разрозненные публичные данные о недвижимости в единую геопривязанную базу. Ключевая особенность - возможность точной идентификации и сопоставления объектов недвижимости на основе частичных данных, таких как приблизительные координаты, текстовые описания или фотографии с улицы.
Основные задачи и область работ
1. Сбор и нормализация данных из публичных источников
- История продаж недвижимости (DVF): Загрузка и структурирование данных о сделках.
- Кадастровые данные (Cadastre): Интеграция геометрии участков и кадастровой информации.
- Национальный реестр адресов (BAN): Нормализация и верификация адресных данных.
- Данные об энергоэффективности (ADEME / DPE): Интеграция энергетических сертификатов объектов.
- Архив онлайн-объявлений: Сбор и обработка данных с площадок объявлений за последние 1-2 года.
- Геотегированные уличные фотографии (Mapillary / аналог): Связывание фотоархивов с географическими координатами для визуальной верификации.
2. Разработка логики сопоставления объектов
- Создание алгоритмов для корректного связывания записей из разных источников в один уникальный объект недвижимости.
- Реализация механизмов обработки неполных, приблизительных или противоречивых входных данных (например, только адрес, только координаты, только описание).
- Обеспечение высокой точности идентификации объектов.
3. Проектирование и реализация базы данных
- Разработка структуры (схемы) геопространственной базы данных, оптимизированной для хранения, связывания и быстрого поиска разнородных данных.
- Реализация ETL-процессов (Extract, Transform, Load) для регулярного обновления данных из источников.
- Обеспечение масштабируемости и производительности системы.