Ученые Новосибирского филиала МНТК "Микрохирургия глаза" представили вице-премьеру России Дмитрию Григоренко новую разработку — автономный ИИ-помощник для слабовидящих людей, сообщает НГУ. Вице-премьер в понедельник ознакомился с ведущими разработками в сфере IT в Центре искусственного интеллекта Новосибирского госуниверситета и технопарке новосибирского Академгородка (Академпарке), а также провел встречу с представителями IT-компаний региона. Во время визита в НГУ ему представили базовую модель автономного интеллектуального помощника для слабовидящих и незрячих пациентов для облегчения их ориентации в пространстве. "Учитывая активное развитие технологий, связанных с возможностями искусственного интеллекта, родилась идея использовать слуховой анализатор мозга для ориентации человека в пространстве. Когда человек читает книгу или слушает аудиозапись, в его мозгу формируются определенные образы о предметах и так далее. Если дать слабовидящему или слепому пациенту через слуховой анализатор возможность определять расстояние до объекта (дверного проема, окна, транспортного средства), его размеры — это, безусловно, поможет ему в реальной жизни и адаптации в социальной среде", — рассказал директор новосибирского филиала МНТК "Микрохирургия глаза" Валерий Черных. Врачи решили объединить усилия с учеными Исследовательского центра в сфере искусственного интеллекта НГУ для создания такой технологии, которая должна быть автономной и не использовать интернет. Сейчас разработчики создают прототип прибора и обучают модель. После создания прототипа начнется работа по настройке устройства, установлению режимов, сбору базы данных и обучению ИИ. "Мы используем большие языковые модели, чтобы помочь данной категории пациентов в анализе окружающего пространства — создать им проводника, который мог бы дать концентрированное словесное описание всех объектов, находящихся перед пользователем. Принцип работы данной системы прост: "видеть" вместо человека будет видеокамера, информация с которой поступит в портативный компьютер, преобразующий ее в текст. Затем текстовое описание преобразуется голосовым помощником и подается через наушники непосредственно пациенту. Данное сообщение предоставляет основную информацию, которую пользователю необходимо знать, чтобы ориентироваться в пространстве", — пояснил руководитель проекта в Центре ИИ НГУ Алексей Окунев. При разработке устройства используется мультимодальная языковая модель, благодаря чему оно уже выдает достаточно качественное словесное описание окружающих помещений и предметов. В перспективе у пользователя появится возможность задавать уточняющие вопросы о наблюдаемой сцене и получать развернутые ответы на них. Также языковая модель распознает тексты, считывает надписи, указатели, предупреждения о препятствиях и так далее. "В настоящее время создана базовая модель, прототип устройства будет готов к концу 2025 года. Это компактная носимая система, состоящая из одноплатного 16-ядерного компьютера, размещенного в наплечной сумке, видеокамеры (например, GoPro) и наушников. Устройство будет снабжено аккумулятором, а все элементы будут соединены беспроводными каналами коммуникации. Видеокамеру пользователь будет держать в руке и наводить в желаемом направлении. Общий вес устройства с аккумулятором составит около одного килограмма", — сообщили в НГУ.