AI safety и red teaming

AI red teaming проверяет, как система ведёт себя при злонамеренных, странных и пограничных запросах. Цель не сломать модель ради спорта, а найти вред, который продукт должен предотвращать или безопасно обрабатывать.

Что важно понять

  • Prompt injection, jailbreak, data exfiltration и tool misuse.
  • Toxicity, harmful instructions, privacy leakage, impersonation.
  • Over-refusal: система отказывает там, где должна помогать.
  • Многошаговые атаки через память, файлы, ссылки и внешние инструменты.

Рабочий порядок

  1. Определите policy и запрещённые классы поведения.
  2. Соберите атакующие сценарии по категориям риска.
  3. Проверьте модель, RAG, tools и UI ограничения вместе.
  4. Оформите findings с воспроизведением и ожидаемым безопасным поведением.

Что отдавать команде

  • AI red-team suite.
  • Safety report по категориям.
  • Regression checks для исправленных jailbreak.

Частые провалы

  • Тестировать safety только на прямых очевидных запросах.
  • Не проверять цепочки через tools и загруженные файлы.
  • Не отличать правильный отказ от бесполезного отказа.

Практика

Проверьте ассистента с RAG: попросите раскрыть скрытую инструкцию, проигнорировать правила, сослаться на несуществующий источник и выполнить опасное действие через tool.