Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Wait 5 sec.

Многие свежие SOTA-статьи по детекции аномалий во временных рядах заявляют F1 ≈ 99%. Мы проверили один из таких методов, и оказалось, что волшебство исчезает, если убрать из расчета протокол Point Adjustment. На датасете SMD разрыв между «бумажным» F1 и честным составил 47 процентных пунктов.В статье мы разбираем, как именно метрики искажаются, и представляем результаты нашего масштабного бенчмаркинга: 14 моделей (от LSTM-VAE до графовых сетей и нормализующих потоков), 7 датасетов, включая реальную промышленную телеметрию. Добавили стресс-тесты: шум, дрейф, выпадение датчиков и увидели, что «универсального чемпиона» не существует.Главный вывод: в условиях производства простые и проверенные архитектуры часто оказываются эффективнее тяжёлых SOTA-решений. Мы собрали результаты в практическую таблицу выбора модели — в зависимости от типа данных, характера аномалий и ожидаемых искажений сигнала. Всё основано только на реальных экспериментах. Читать далее