Тестирование LLM и AI-продуктов
LLM-продукт вероятностный: один и тот же запрос может давать разные ответы. QA здесь строит evaluation-набор, проверяет safety, jailbreak-устойчивость, качество retrieval, UX fallback и мониторинг после релиза.
Что важно понять
- Качество ответа: точность, полнота, формат, полезность, тон.
- Safety: запрещённые темы, утечки данных, prompt injection, jailbreak.
- RAG: релевантность источников, свежесть, цитирование, поведение при отсутствии ответа.
- Product UX: latency, streaming, retry, fallback, сохранение контекста.
Рабочий порядок
- Соберите eval dataset из реальных и синтетических запросов.
- Определите rubric оценки и примеры хороших/плохих ответов.
- Проверьте safety и prompt injection отдельно от обычного качества.
- Сравнивайте версии модели на одном наборе и фиксируйте regressions.
Что отдавать команде
- Evaluation suite.
- Rubric и результаты по категориям.
- Список safety regressions и product limitations.
Частые провалы
- Проверять LLM вручную на пяти случайных вопросах.
- Не версионировать prompts и eval dataset.
- Не тестировать отсутствие знания и отказ от ответа.
Практика
Создайте 30 запросов для AI-ассистента: 10 обычных, 10 пограничных, 5 prompt injection, 5 с отсутствующей информацией. Оцените ответы по rubric.