Исходные материалы

В наличии: PDF-файл с текстом, размещённым в таблицах.

Цель задания

Получить Word-документ (формат .docx), в котором:

  • Сохранена структура текста (все строки остаются в пределах таблиц);
  • Все элементы расположены так же, как в оригинале;
  • Очищен от технического mбиения (лишние кракозябры, сдвоенные символы);
  • Исправлены орфографические ошибки, вызванные некачественным OCR.

Технические требования

  • Итоговый документ должен открываться и редактироваться в Microsoft Word или LibreOffice Writer;
  • Таблицы в точности повторяют исходную сетку по каждой ячейке.

Формат сдачи

Файл с расширением .docx (одна версия).

Парсинг медиафайлов с веб-сайта и их структурированное переименование

Требуется разработать скрипт для скачивания изображений и аудиофайлов с заданной веб-страницы. Все загруженные материалы необходимо систематизировать и переименовать по заданному шаблону, связанному с именами персонажей.