AI safety и red teaming
AI red teaming проверяет, как система ведёт себя при злонамеренных, странных и пограничных запросах. Цель не сломать модель ради спорта, а найти вред, который продукт должен предотвращать или безопасно обрабатывать.
Что важно понять
- Prompt injection, jailbreak, data exfiltration и tool misuse.
- Toxicity, harmful instructions, privacy leakage, impersonation.
- Over-refusal: система отказывает там, где должна помогать.
- Многошаговые атаки через память, файлы, ссылки и внешние инструменты.
Рабочий порядок
- Определите policy и запрещённые классы поведения.
- Соберите атакующие сценарии по категориям риска.
- Проверьте модель, RAG, tools и UI ограничения вместе.
- Оформите findings с воспроизведением и ожидаемым безопасным поведением.
Что отдавать команде
- AI red-team suite.
- Safety report по категориям.
- Regression checks для исправленных jailbreak.
Частые провалы
- Тестировать safety только на прямых очевидных запросах.
- Не проверять цепочки через tools и загруженные файлы.
- Не отличать правильный отказ от бесполезного отказа.
Практика
Проверьте ассистента с RAG: попросите раскрыть скрытую инструкцию, проигнорировать правила, сослаться на несуществующий источник и выполнить опасное действие через tool.