Требуется разработать
Скрипт для парсинга HTML-файлов, который позволяет:
- Выполнять поиск по полям: название организации и регион (одновременно, т.к. название может быть неуникальным)
- Находить соответствующий блок данных внутри файла по совпадению комбинации (название + регион -> уникальный идентификатор компании)
- Извлекать данные из идентифицированного блока в структурированном виде
- Генерировать результат сразу в базу данных (через бэтч-загрузку: 100-200 файлов за запуск)
Особенности работы
- Каждый файл соответствует одному поисковому запросу
- Скрипт должен корректно работать на сервере (планировщик или разово) с сетевыми файловыми ресурсами
- Предусмотреть обработку отсутствия/частичных совпадений
Технические требования
- Язык: JavaScript, Python, Go - на усмотрение разработчика
- Поддержка регулярных выражений или XPath (гибкий поиск по DOM-элементам)
- Вывод дублей и ошибок в лог-файл