Бустим Transformer-модель через адаптивную TSCO-архитектуру

Wait 5 sec.

Как я получил Perplexity~26 на сверхмалой модели трансформерного типа собственной разработки (16M параметров, сверхмалый датасет) на тестовом корпусе и выжал Val Accuracy~0.982 на временных рядах (физических данных, EEG). Читать далее