Data quality для AI

AI-система наследует проблемы данных: пропуски, дубли, неактуальность, неверную разметку, leakage и смещение. QA может находить эти риски через проверки pipeline, разметки, валидации и мониторинга.

Что важно понять

  • Schema validation, типы, диапазоны, уникальность и обязательность.
  • Label quality, inter-annotator agreement и спорные примеры.
  • Data leakage между train/test и признаками, недоступными в production.
  • Freshness, lineage, privacy и права на использование данных.

Рабочий порядок

  1. Опишите путь данных от источника до модели.
  2. Проверьте правила валидации и quarantine плохих записей.
  3. Сделайте выборочный review разметки и спорных кейсов.
  4. Настройте контроль drift и freshness после релиза.

Что отдавать команде

  • Data pipeline checklist.
  • Data quality report.
  • Список рисков разметки и leakage.

Частые провалы

  • Смотреть только на метрики модели без анализа данных.
  • Не проверять признаки, которые появятся только после события.
  • Игнорировать privacy и consent.

Практика

Возьмите небольшой dataset и проверьте: пропуски, дубли, outliers, подозрительные labels, утечку target в признаках.