Data quality для AI

AI-система наследует проблемы данных: пропуски, дубли, неактуальность, неверную разметку, leakage и смещение. QA может находить эти риски через проверки pipeline, разметки, валидации и мониторинга.

Что важно понять

Schema validation, типы, диапазоны, уникальность и обязательность.
Label quality, inter-annotator agreement и спорные примеры.
Data leakage между train/test и признаками, недоступными в production.
Freshness, lineage, privacy и права на использование данных.

Рабочий порядок

Опишите путь данных от источника до модели.
Проверьте правила валидации и quarantine плохих записей.
Сделайте выборочный review разметки и спорных кейсов.
Настройте контроль drift и freshness после релиза.

Что отдавать команде

Data pipeline checklist.
Data quality report.
Список рисков разметки и leakage.

Частые провалы

Смотреть только на метрики модели без анализа данных.
Не проверять признаки, которые появятся только после события.
Игнорировать privacy и consent.

Практика

Возьмите небольшой dataset и проверьте: пропуски, дубли, outliers, подозрительные labels, утечку target в признаках.