Оптимизация сетевых запросов при парсинге

Текущая ситуация

Python-скрипт на фреймворке Playwright выполняет HTTP-запросы к целевым сайтам и осуществляет сбор (парсинг) определенной информации. Для обхода ограничений используется прокси с автоматической ротацией IP-адресов. Сервер прокси тарифицируется по объему переданного трафика.

Проблема

Каждый отдельный запрос расходует примерно 2.4 МБ трафика. Это создает высокий финансовый расход на текущем плане использования прокси.

Задачи для исполнителя

  • Проанализировать логи/сеть и выявить избыточное потребление данных в рамках одного запроса. Предложить и внедрить методы оптимизации трафика (например: отключить загрузку изображений, фоновых шрифтов, блокировать ненужные медиа-файлы и лишние XHR-запросы через interception).
  • Настроить сессию в Playwright таким образом, чтобы минимизировать передаваемый объем при операции парсинга, без потери нужных данных. Либо доказать, что 2.4 МБ - трейт выполнения и снижение невозможно, и нужно предложить альтернативный прокси-сервис (от поставщика с имеющейся моделью оплаты за количество запросов или другого посредника).

Требования к результату

  • Снижение объема трафика на один сеанс (в идеале не выше 0.5-1.0 МБ).
  • Сохранение работоспособности бота/парсера с полным объемом собираемых данных.
  • Создание интеграции с новым прокси (если выбор пал на него. Без указания конкретной финансовой оплаты только техническая интеграция.
  • Краткий отчет: что именно изменено, количество сэкономленного трафика обновление логи)

Сравнение таблиц Excel для сверки остатков товаров

Требуется обработать три документа: два акта сверки и оборотно-сальдовую ведомость (ОСВ). Цель - привести номенклатуру в актах к единому формату и выявить расхождения по перечню, количеству и стоимости товаров для внесения итоговых данных в ОСВ.