Мультимодальные модели тотально страдают селективным восприятием

Wait 5 sec.

Проводя свои текущие исследования для задач сегментации и распознавания объектов на изображениях, я задал простой вопрос многим мультимодальным моделям с целью оценить их способности к интерпретации деталей изображения.Результат был, мягко говоря, странным.С одной стороны, общее описание простой, на первый взгляд, картинки радует подробным и содержательным ответом.Но, с другой стороны, наблюдаются просто вопиющие утверждения, которые ни как нельзя оставить без внимания.Итак сам промпт:- Опиши детально, что ты видишь на этой картинке? Читать далее