Тестирование LLM и AI-продуктов

LLM-продукт вероятностный: один и тот же запрос может давать разные ответы. QA здесь строит evaluation-набор, проверяет safety, jailbreak-устойчивость, качество retrieval, UX fallback и мониторинг после релиза.

Что важно понять

Качество ответа: точность, полнота, формат, полезность, тон.
Safety: запрещённые темы, утечки данных, prompt injection, jailbreak.
RAG: релевантность источников, свежесть, цитирование, поведение при отсутствии ответа.
Product UX: latency, streaming, retry, fallback, сохранение контекста.

Рабочий порядок

Соберите eval dataset из реальных и синтетических запросов.
Определите rubric оценки и примеры хороших/плохих ответов.
Проверьте safety и prompt injection отдельно от обычного качества.
Сравнивайте версии модели на одном наборе и фиксируйте regressions.

Что отдавать команде

Evaluation suite.
Rubric и результаты по категориям.
Список safety regressions и product limitations.

Частые провалы

Проверять LLM вручную на пяти случайных вопросах.
Не версионировать prompts и eval dataset.
Не тестировать отсутствие знания и отказ от ответа.

Практика

Создайте 30 запросов для AI-ассистента: 10 обычных, 10 пограничных, 5 prompt injection, 5 с отсутствующей информацией. Оцените ответы по rubric.