Анализ bottleneck и performance report

Performance report должен отвечать, выдержала ли система цель, где деградировала, почему это вероятно случилось и что делать дальше. Просто набор графиков без вывода не помогает команде принимать решения.

Что важно понять

  • Связь между ростом нагрузки, latency, error rate и ресурсами.
  • Первые признаки насыщения: очередь, connections, CPU, locks, GC, throttling.
  • Разницу между клиентской ошибкой генератора и ошибкой системы.
  • Поведение после снятия нагрузки: восстановление, backlog, delayed errors.

Рабочий порядок

  1. Сравните run с baseline.
  2. Найдите момент первой деградации и сопоставьте графики.
  3. Проверьте логи и traces вокруг точки деградации.
  4. Сформулируйте выводы: passed/failed, bottleneck, recommended actions.

Что отдавать команде

  • Performance report с executive summary.
  • Графики с отмеченными точками деградации.
  • Backlog рекомендаций и повторных тестов.

Частые провалы

  • Писать система медленная без условия нагрузки.
  • Смотреть только p50 вместо p95/p99.
  • Не проверять восстановление после окончания теста.

Практика

Возьмите графики теста и отметьте три момента: начало деградации p95, рост ошибок, насыщение ресурса. Напишите один вывод и одно действие.