Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Wait 5 sec.

Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети. Читать далее