Data quality для AI
AI-система наследует проблемы данных: пропуски, дубли, неактуальность, неверную разметку, leakage и смещение. QA может находить эти риски через проверки pipeline, разметки, валидации и мониторинга.
Что важно понять
- Schema validation, типы, диапазоны, уникальность и обязательность.
- Label quality, inter-annotator agreement и спорные примеры.
- Data leakage между train/test и признаками, недоступными в production.
- Freshness, lineage, privacy и права на использование данных.
Рабочий порядок
- Опишите путь данных от источника до модели.
- Проверьте правила валидации и quarantine плохих записей.
- Сделайте выборочный review разметки и спорных кейсов.
- Настройте контроль drift и freshness после релиза.
Что отдавать команде
- Data pipeline checklist.
- Data quality report.
- Список рисков разметки и leakage.
Частые провалы
- Смотреть только на метрики модели без анализа данных.
- Не проверять признаки, которые появятся только после события.
- Игнорировать privacy и consent.
Практика
Возьмите небольшой dataset и проверьте: пропуски, дубли, outliers, подозрительные labels, утечку target в признаках.