AI safety и red teaming

AI red teaming проверяет, как система ведёт себя при злонамеренных, странных и пограничных запросах. Цель не сломать модель ради спорта, а найти вред, который продукт должен предотвращать или безопасно обрабатывать.

Что важно понять

Prompt injection, jailbreak, data exfiltration и tool misuse.
Toxicity, harmful instructions, privacy leakage, impersonation.
Over-refusal: система отказывает там, где должна помогать.
Многошаговые атаки через память, файлы, ссылки и внешние инструменты.

Рабочий порядок

Определите policy и запрещённые классы поведения.
Соберите атакующие сценарии по категориям риска.
Проверьте модель, RAG, tools и UI ограничения вместе.
Оформите findings с воспроизведением и ожидаемым безопасным поведением.

Что отдавать команде

AI red-team suite.
Safety report по категориям.
Regression checks для исправленных jailbreak.

Частые провалы

Тестировать safety только на прямых очевидных запросах.
Не проверять цепочки через tools и загруженные файлы.
Не отличать правильный отказ от бесполезного отказа.

Практика

Проверьте ассистента с RAG: попросите раскрыть скрытую инструкцию, проигнорировать правила, сослаться на несуществующий источник и выполнить опасное действие через tool.