Техническое задание

Аппаратная платформа

  • Процессор: AMD Epyc 9654QS
  • ОЗУ: ~300 ГБ, несимметричная конфигурация (планки 16 ГБ и 32 ГБ вместе)
  • Диск: NVMe Samsung HHHL корпоративного класса
  • BIOS и микрокод ЦП обновлены до актуальных версий
  • Установлен дистрибутив Proxmox последней стабильной версии

Виртуальная среда

На сервере запускаются 12 идентичных виртуальных машин под управлением Windows Server. В каждой ВМ установлено 3 экземпляра приложения, каждый работает с 30 потоками. В ресурсной конфигурации каждой машины: 24 ГБ ОЗУ (динамическая память отключена), 16 ядер CPU, NUMA пул = 1. Также имеется ручная привязка ядер ВМ к CCD процессора.

Наблюдаемая проблема

На части ВМ (теоретически полностью клонированных с базовой конфигурацией) происходят стабильные вылеты пользовательского софта с сопутствующими ошибками, связанными с памятью. Оставшаяся половина ВМ работает без сбоев при идентичных настройках приложений (отличается только порядковый номер инстансов).

Поставленная задача

  • Провести диагностику проблемных ВМ на предмет нестабильной работы приложений и памяти
  • Выявить причину отказов, связанную с конфигурацией Proxmox, NUMA, привязкой ядер или конфигурацией оперативной памяти, а также настройками софта
  • Предложить оптимальную конфигурацию виртуализации (ина с распределением CCD, топологией ядер), драйверы и специальные паравиртуализированные параметры (virtio, пасстхру памяти и т.д.)
  • Выполнить настройку сервера для достижения стабильной работы всех 12 машин, а также при необходимости проконсультировать заказчика по методике поддержания кластера в высоконагруженном режиме

Дополнительные требования

  • Опыт работы с Ryzen/Epyc, Proxmox, Windows Server под прожкой нагрузки в режиме паравиртуализации
  • Предоставление пошагового отчета по выполненным работам с итоговой схемой привязки единиц и настройками, рекомендации по дальнейшей эксплуатации
  • Контакт/консультация - в рамках переписки или удаленной сессии (по согласованию)