Анализ bottleneck и performance report

Performance report должен отвечать, выдержала ли система цель, где деградировала, почему это вероятно случилось и что делать дальше. Просто набор графиков без вывода не помогает команде принимать решения.

Что важно понять

Связь между ростом нагрузки, latency, error rate и ресурсами.
Первые признаки насыщения: очередь, connections, CPU, locks, GC, throttling.
Разницу между клиентской ошибкой генератора и ошибкой системы.
Поведение после снятия нагрузки: восстановление, backlog, delayed errors.

Рабочий порядок

Сравните run с baseline.
Найдите момент первой деградации и сопоставьте графики.
Проверьте логи и traces вокруг точки деградации.
Сформулируйте выводы: passed/failed, bottleneck, recommended actions.

Что отдавать команде

Performance report с executive summary.
Графики с отмеченными точками деградации.
Backlog рекомендаций и повторных тестов.

Частые провалы

Писать система медленная без условия нагрузки.
Смотреть только p50 вместо p95/p99.
Не проверять восстановление после окончания теста.

Практика

Возьмите графики теста и отметьте три момента: начало деградации p95, рост ошибок, насыщение ресурса. Напишите один вывод и одно действие.