Техническое задание: Геокодирование городов в регионах РФ

Суть задачи

Имеется большой файл в формате CSV или Excel (около 70 000 строк). В первом столбце этого файла содержатся названия населенных пунктов (городов). Данные могут быть неидеальными: встречаются опечатки, общепринятые сокращения (например, "СПб", "Нск"), неполные или альтернативные названия.

Требуемый результат

Для каждой строки файла необходимо определить и добавить информацию о том, к какому субъекту Российской Федерации (региону) относится указанный город.

Ключевые особенности и сложности

  • Объем данных: Обработка значительного массива информации (70 000 записей).
  • «Грязные» данные: Названия городов требуют нормализации из-за возможных опечаток, сокращений и неточностей.
  • Точность сопоставления: Алгоритм должен корректно определять регион даже при неполном или искаженном написании названия города.
  • Актуальность справочника: Необходимо использовать актуальный, официальный перечень субъектов РФ и их населенных пунктов.

Ожидаемый подход к решению

Исполнителю предлагается предложить и реализовать метод решения. Возможные варианты включают:

  • Использование сторонних API для геокодирования.
  • Применение локальных справочников и алгоритмов нечеткого поиска (fuzzy matching) для сопоставления.
  • Разработка скрипта на Python, R или другом подходящем языке для автоматической обработки файла.

В решении важно предусмотреть обработку исключений и случаев, когда однозначное сопоставление невозможно.

Разработка ПО для автоматизации браузеров через RDP

Требуется создать программу на C или C# для управления реальными браузерами (Chrome, Firefox, Edge) через RDP-соединения. Основная задача - эмуляция поведения пользователей в поисковой системе Bing: выполнение поиска, анализ результатов, переходы по ссылкам и клики по расписанию.

Ежедневная публикация рерайтинговых новостей с помощью ИИ

Требуется исполнитель для ежедневной обработки новостей с иностранного сайта: создание уникального рерайта текстов и изображений, добавление внутренних ссылок и публикация в админке. Работа с ИИ и чистым HTML обязательна.