Техническое задание: Система нормализации данных из PDF в SQL

Цель проекта

Разработать автономное программное решение для преобразования неструктурированных данных из PDF-файлов в нормализованную реляционную базу данных SQL.

Основные задачи

1. Извлечение данных из PDF-файлов

  • Разработать парсер для обработки предоставленных PDF-документов
  • Реализовать надежное извлечение следующих сущностей:
    • Сельскохозяйственные культуры
    • Действующие вещества (ДВ)
    • Препараты (средства защиты растений)
    • Регламенты применения (включая нормы расхода, способы обработки, сроки ожидания и другие параметры)

2. Нормализация и структурирование данных

  • Спроектировать схему реляционной базы данных (SQL) для хранения извлеченной информации
  • Определить связи между сущностями: Культура → Препарат → Действующее вещество → Регламент применения
  • Обеспечить устранение дубликатов и противоречий в данных

3. Создание базы данных и наполнение

  • Реализовать скрипты для автоматического создания таблиц в SQL-СУБД
  • Разработать процесс загрузки очищенных и нормализованных данных в соответствующие таблицы
  • Обеспечить целостность данных и соблюдение связей между таблицами

Ключевые требования

  • Решение должно быть автономным (без интеграции со сторонними сервисами или API)
  • Процесс должен быть воспроизводимым и конфигурируемым для обработки новых PDF-файлов аналогичного формата
  • Исходный код должен быть хорошо документирован
  • Необходимо предоставить инструкцию по развертыванию и использованию

Перенос и оформление карточек товаров для сайта

Требуется перенести и адаптировать около 130 товарных карточек (декоры столешниц) с сайта-донора. Часть карточек уже существует и нуждается в корректировке. Необходимо создать рерайт описаний и структурировать информацию.