ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очков

Wait 5 sec.

Технология дополненной реальности позволит смарт-очкам заранее подгружать нужные интерфейсы Американские ученые совместно с инженерами Meta разработали алгоритм, который позволяет смарт-очкам работать на опережение. Новая технология способна прогнозировать траекторию человеческого внимания в 3D-среде на несколько секунд вперед.Об этом информирует РБК-Украина со ссылкой на материалы научного доклада с конференции CVPR в Денвере.Больше интересного: Microsoft показала гаджет будущего: что придет на смену Android и iPhoneНовая технология базируется на переходе от анализа двумерных статических изображений к полноценному моделированию поведения человека в реальной среде.Как это работает?Автором исследования стала Фиона Райан, аспирантка Школы интерактивных вычислений Georgia Tech. Она разработала первую 3D-платформу для прогнозирования так называемых "сканпатов" (траекторий движения глаз) на основе видео от первого лица."Поскольку человек живет в трехмерном мире и постоянно находится в движении, стандартные 2D-метрики анализа картинок не способны эффективно работать в переносном устройстве типа смарт-очков", - объясняет ученая.Новый алгоритм просчитывает вектор внимания как последовательность фиксаций взгляда, напрямую зависящих от актуальной цели человека. Например, если система фиксирует движение руки к чашке с кофе, она автоматически просчитывает следующий шаг оператора - поиск места, куда эта чашка будет поставлена.Визуализация работы алгоритма (скриншот: Techxsplore)Тестирование на базе данных MetaОсновную часть практической работы исследовательница выполнила во время стажировки в компании Meta.Для обучения ИИ использовался специализированный набор данных Aria Digital Twin. Этот датасет содержит тысячи часов видеозаписей от первого лица, на которых зафиксировано бытовое взаимодействие людей с предметами в пределах квартиры, совмещенное с высокоточной 3D-реконструкцией всего помещения.Благодаря этому разработчикам удалось получить идеальные координаты реального направления взгляда и сопоставить их с геометрией пространства.Практическая пользаСейчас ПО способно стабильно прогнозировать направление взгляда в среднем на 3 секунды вперед, а в отдельных простых сценариях этот показатель достигает 10 секунд.Этого времени вполне достаточно, чтобы графический процессор AR-очков заранее проактивно сгенерировал (отрендерил) необходимые виртуальные подсказки или элементы интерфейса в той зоне, куда человек только собирается посмотреть."Это полностью убирает эффект задержки картинки", - отмечает Фиона Райан.В будущем разработчики планируют интегрировать в модель контекстные сценарии (понимание того, чем именно занят человек в данный момент). Это позволит сузить варианты прогнозирования при длительной концентрации на одном предмете.Кроме потребительской электроники и смарт-очков, технология имеет высокий потенциал в робототехнике: ее используют для обучения алгоритмов роботов, чтобы те могли копировать естественное человеческое восприятие при выполнении бытовых или производственных задач.Еще больше интересного:NVIDIA меняет правила для роботов будущего: что может новый андроид Isaac GR00TРоботы уже воюют в Украине: что показали первые тесты гуманоидов Phantom MK-1 на фронте