Техническое задание: Подготовка данных реестра СЗР для загрузки в SQL
1. Цель работы
На основе предоставленных PDF-файлов Государственного реестра средств защиты растений (СЗР) необходимо создать структурированный файл формата Excel (XLSX). Результирующая таблица должна быть готова к загрузке в реляционную базу данных (SQL). Программой парсинга предоставляется заказчиком дополнительно.
2. Требования к входным данным и результату
- Исходные данные: Набор PDF-файлов реестра СЗР.
- Формат результата: Один или несколько файлов формата
.xlsx. - Объем: Реестр содержит сотни позиций, необходим полный перенос записей.
- Разметка: Важно четко выделить отдельные записи и их атрибуты (наименование, действующее вещество, регистрант, срок действия и т.д.). Все данные должны быть разделены по столбцам согласно метаданным реестра.
3. Ожидаемый формат таблицы
- Первая строка должна содержать заголовки столбцов (переведенные на понятный английский/русский язык для разработчиков).
- Каждый следующий ряд - это одна карточка препарата из реестра.
- Ячейки не должны содержать переносов строк, лишних пробелов (TRIM) или пустых строк между данными.
- При наличии табличных данных на выгрузке в PDF, структура должна быть полностью повторена.
4. Важные уточнения
Исполнителю будут переданы три файла реестра для заполнения. Тестовый вариант (семпл) предоставляется до начала основной работы для утверждения макета таблицы.