Техническое задание: Система нормализации данных из PDF в SQL
Цель проекта
Разработать автономное программное решение для преобразования неструктурированных данных из PDF-файлов в нормализованную реляционную базу данных SQL.
Основные задачи
1. Извлечение данных из PDF-файлов
- Разработать парсер для обработки предоставленных PDF-документов
- Реализовать надежное извлечение следующих сущностей:
- Сельскохозяйственные культуры
- Действующие вещества (ДВ)
- Препараты (средства защиты растений)
- Регламенты применения (включая нормы расхода, способы обработки, сроки ожидания и другие параметры)
2. Нормализация и структурирование данных
- Спроектировать схему реляционной базы данных (SQL) для хранения извлеченной информации
- Определить связи между сущностями: Культура → Препарат → Действующее вещество → Регламент применения
- Обеспечить устранение дубликатов и противоречий в данных
3. Создание базы данных и наполнение
- Реализовать скрипты для автоматического создания таблиц в SQL-СУБД
- Разработать процесс загрузки очищенных и нормализованных данных в соответствующие таблицы
- Обеспечить целостность данных и соблюдение связей между таблицами
Ключевые требования
- Решение должно быть автономным (без интеграции со сторонними сервисами или API)
- Процесс должен быть воспроизводимым и конфигурируемым для обработки новых PDF-файлов аналогичного формата
- Исходный код должен быть хорошо документирован
- Необходимо предоставить инструкцию по развертыванию и использованию