Техническое задание: Парсинг и структурирование контента блога
Необходимо разработать решение для автоматического сбора и систематизации материалов из корпоративного блога.
Основные задачи
- Полностью собрать текстовый контент всех статей из целевого блога.
- Реализовать автоматическую классификацию статей по типам (например, аналитические обзоры, кейсы, новости).
- Реализовать автоматическое определение тематических разделов для каждой статьи.
- Структурировать и сохранить полученные данные в удобном формате (например, JSON, CSV).
Требования к результату
- Скрипт или программа должны обрабатывать все страницы блога.
- Для каждой статьи необходимо извлечь: заголовок, основной текст, дату публикации, автора (если указан).
- Алгоритм должен определять категорию (тип) статьи на основе анализа её содержимого или метаданных.
- Должна быть предусмотрена обработка пагинации и навигации по блогу.
- Код должен быть чистым, с комментариями.
Дополнительно
Конкретный адрес блога и примеры категорий будут предоставлены исполнителю после согласования условий.