Microsoft выпустила бесплатную нейросеть VibeVoice. Она создает аудио длиной 90 минут с диалогами на 4 человек

Wait 5 sec.

Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь. Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты. VibeVoice-1.5B поддерживает только английский и китайский языки. Пример работы нейросети...