Парсинг текстового контента с финансовых сайтов

Основная задача

Требуется разработать скрипт для автоматического сбора информации с конкретных страниц, указанных в предоставленном списке. Сбор данных должен быть выполнен в строго определённой структуре.

Источники данных

Парсинг необходимо выполнить со следующих ресурсов:

  • Три финансовых информационных портала (названия скрыты по требованию заказчика).
  • Конкретные URL-адреса страниц для обработки предоставлены в отдельном документе.

Требования к данным

Структура конечной таблицы

Каждая извлечённая сущность (текстовый блок) должна содержать следующие поля:

  • URL - адрес страницы-источника.
  • Блок - тип текстового блока согласно классификации.
  • Заголовок H2 (H1) - основной заголовок секции.
  • Заголовок H3 - подзаголовок секции.
  • Текст - основное текстовое содержимое блока.

Обработка и формат вывода

  • Итоговые данные должны быть представлены в формате Excel или текстовом файле с разделителем «точка с запятой» (CSV).
  • Важно: Все символы точки с запятой, встречающиеся внутри текстов, необходимо заменить на запятую, чтобы не нарушать структуру CSV-файла.
  • Необходимо спарсить полную иерархию текстовых блоков (заголовки и связанный с ними текст) с каждой указанной страницы.

Референсы и примеры

Для уточнения деталей задачи заказчик предоставил:

  • Список целевых страниц в отдельном документе.
  • Пояснение по классификации типов блоков в отдельном документе.
  • Пример результата парсинга одной из страниц в виде таблицы.

Критерии выполнения

Задание требует оперативного выполнения. В ответе укажите сроки и стоимость работы.

Разработка библиотеки блоков и шаблонов для WordPress на базе GeneratePress

Требуется найти существующую или разработать с нуля библиотеку готовых блоков и шаблонов для быстрого создания сайтов и интернет-магазинов на WordPress с использованием темы GeneratePress. Работа рассчитана на 2-3 недели.

Приглашение в WhatsApp и Telegram группы с плавным инвайтингом по тематическим базам

Требуется плавное приглашение участников в Telegram-канал и WhatsApp-чат по тематическим базам данных. Также интересует приобретение самих баз. Необходимо обсудить стратегии роста и другие предложения по развитию сообществ.