← Предыдущая глава |Предположим, что мы обучаем классификатор при помощи обучения с учителем и замечаем, что он страдает от переобучения. Какие существуют основные подходы для уменьшения переобучения путем модификации или дополнения данных?Переобучение - достаточно широко распространенная проблема в машинном обучении, возникающая, когда модель слишком точно подстраивается под тренировочные данные. В результате она начинает учитывать шум и выбросы, а не взаимосвязи данных. Из-за этого модель хорошо работает на тренировочных данных, но плохо справляется с новыми или тестовыми. В идеале мы бы хотели полностью избежать переобучения, однако на практике это не всегда реально. Поэтому мы стараемся минимизировать его влияние на модель настолько, насколько это возможно.Наиболее успешные методы, направленные на уменьшение переобучения, основаны на сборе большего количества высококачественных размеченных данных. Однако, если затраты на получение дополнительных размеченных данных оказываются неоправданными, мы можем рассмотреть варианты, такие как аугментация существующих данных или использование неразмеченных данных для предварительного обучения. Читать далее