Тестирование LLM и AI-продуктов

LLM-продукт вероятностный: один и тот же запрос может давать разные ответы. QA здесь строит evaluation-набор, проверяет safety, jailbreak-устойчивость, качество retrieval, UX fallback и мониторинг после релиза.

Что важно понять

  • Качество ответа: точность, полнота, формат, полезность, тон.
  • Safety: запрещённые темы, утечки данных, prompt injection, jailbreak.
  • RAG: релевантность источников, свежесть, цитирование, поведение при отсутствии ответа.
  • Product UX: latency, streaming, retry, fallback, сохранение контекста.

Рабочий порядок

  1. Соберите eval dataset из реальных и синтетических запросов.
  2. Определите rubric оценки и примеры хороших/плохих ответов.
  3. Проверьте safety и prompt injection отдельно от обычного качества.
  4. Сравнивайте версии модели на одном наборе и фиксируйте regressions.

Что отдавать команде

  • Evaluation suite.
  • Rubric и результаты по категориям.
  • Список safety regressions и product limitations.

Частые провалы

  • Проверять LLM вручную на пяти случайных вопросах.
  • Не версионировать prompts и eval dataset.
  • Не тестировать отсутствие знания и отказ от ответа.

Практика

Создайте 30 запросов для AI-ассистента: 10 обычных, 10 пограничных, 5 prompt injection, 5 с отсутствующей информацией. Оцените ответы по rubric.