Microsoft представила модель искусственного интеллекта Magma, способную одновременно обрабатывать визуальные данные, текст и управлять физическими объектами. Разработка стала результатом совместных усилий исследователей из Microsoft, KAIST, Университета Мэриленда, Университета Висконсин-Мэдисон и Университета Вашингтона. В отличие от существующих систем, таких как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, которые используют отдельные модели для восприятия и управления, Magma объединяет эти возможности в единую основу. Система способна не только анализировать мультимодальные данные, но и самостоятельно действовать на их основе – будь то навигация по пользовательскому интерфейсу или манипуляции с физическими предметами. Скриншот видео, на котором Magma управляет роботизированной рукой. Источник: Microsoft Research Модель основана на двух ключевых компонентах. Первый – Set-of-Mark – идентифицирует объекты, с которыми можно взаимодействовать, присваивая числовые метки интерактивным элементам. Второй компонент – Trace-of-Mark – изучает схемы движения на основе видеоданных. Благодаря этому Magma может выполнять такие задачи, как навигация по интерфейсам или управление роботизированными манипуляторами. По данным Microsoft, модель Magma-8B показывает впечатляющие результаты в тестовых испытаниях. В частности, она набрала 80,0 баллов в тесте VQAv2 (Visual Question Answering) — стандартном тесте, где система должна отвечать на вопросы о содержании изображений, что является важным показателем понимания визуальной информации. В тесте POPE (Popular Object in Common Environment), который проверяет способность модели точно определять наличие или отсутствие распространённых объектов на изображениях, система достигла результата 87,4, став лидером среди сравниваемых моделей. Такие показатели говорят о высокой точности визуального восприятия и анализа, превосходящей возможности GPT-4V (77,2 балла в VQAv2), хотя в некоторых тестах Magma всё же уступает другим системам, например LLaVA-Next (81,8 балла в VQAv2). Исследователь проекта Magma Цзяньвэй Ян пояснил, что название расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch). Microsoft планирует опубликовать код для Magma на GitHub, что позволит исследователям развивать эту технологию. Несмотря на многообещающие результаты, система всё ещё имеет ограничения в сложных многоступенчатых процессах принятия решений, над улучшением которых продолжается работа. Появление Magma отражает стремительное развитие моделей искусственного интеллекта, на сегодня это стандартное направление исследований, не вызывающее призывов к приостановке разработок в области ИИ.