Техническое задание: Парсер PDF-резюме
Необходимо разработать программное решение для автоматической обработки большого количества PDF-файлов с резюме кандидатов и переноса извлечённых данных в структурированную базу данных.
Цель проекта
Автоматизировать ручной ввод данных из резюме, обеспечив высокую точность извлечения информации из файлов разного качества и структуры.
Функциональные требования
Обработка файлов
- Скрипт должен поддерживать массовую обработку файлов из указанной папки или архива.
- Обработка должна выполняться последовательно, файл за файлом.
Поддержка типов PDF
- Текстовые PDF (с возможностью копирования текста).
- Сканированные PDF (изображения), для которых необходимо применение технологии оптического распознавания символов (OCR).
Извлечение данных
Система должна анализировать содержимое и извлекать следующие данные с максимальной точностью и без потерь:
- Основная информация: ФИО, контактные данные (телефон, email, мессенджеры), город/страна, желаемая должность, ключевые навыки.
- Опыт работы: Название компании, должность, период работы, описание обязанностей и достижений.
- Образование: Учебные заведения, специальности, годы обучения.
- Дополнительно: Владение языками, сертификаты, дополнительная информация.
Структура данных и вывод
- Извлечённые данные должны раскладываться по заранее согласованной реляционной структуре.
- Результат должен предоставляться на выбор: прямая загрузка в базу данных MySQL или формирование SQL-дампа.
- Обязательна поддержка кодировки UTF-8.
Технические требования
- Точность: 100% соответствие данным, указанным в исходном PDF-документе.
- Надёжность: Корректная обработка документов с различным оформлением и структурой.
- Интеграция OCR: Использование надёжного движка OCR для работы со сканированными документами.
Объём и сроки
- Средний объём обрабатываемого документа: 1-3 страницы.
- Сроки и стоимость выполнения проекта обсуждаются с исполнителем.
Требования к исполнителю
При отклике просьба указать:
- Опыт работы с парсингом данных, обработкой PDF и технологиями OCR.
- Примеры реализованных похожих проектов.
- Стек технологий и инструментов, которые планируется использовать.
- Предполагаемые сроки и стоимость работы.