Команда Сбербанка представила новую модель генерации изображений по тексту Kandinsky 4.1 Image. Как рассказали в пресс-службе, теперь она создаёт более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей. До и после редактирования в MALVINA. Иллюстрация: Сбер Для нейрохудожников появился ИИ-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям. MALVINA поможет удалить лишние объекты или текст с картинки, сменить цвет волос или возраст человека на изображении, отреставрировать и раскрасить старое фото, заменить фон, сменить лето на зиму, и так далее. При изменении модель старается сохранить все важные визуальные характеристики (фигуры, лица, фон), включая мелкие детали и текстуры оригинального кадра. До и после редактирования в MALVINA. Иллюстрация: Сбер На этапе предварительного обучения исследователи обработали более 10 млн примеров, а для этапа дообучения (SFT-фаза) применили свыше 1,5 млн разнообразных изображений — как реальных фотографий с ручной обработкой, так и синтетических данных, сгенерированных специальными моделями. Протестировать обновлённые нейросети Сбера можно в телеграм-ботах GigaChat и Kandinsky, а также в VK-боте Kandinsky. Напомним, Kandinsky — генеративная нейросеть от Сбера для создания изображений и видеороликов по текстовым описаниям. Модель отличается поддержкой русского языка, открытым исходным кодом и возможностью интеграции в сторонние интерфейсы. С момента первого релиза в 2022 году система активно развивается, добавляя новые функции для профессиональных дизайнеров и обычных пользователей.