OpenAI prepara GPT-Bidi-1, el nuevo modelo de voz bidireccional de ChatGPT, con integración de Codex y señales de superapp

Wait 5 sec.

OpenAI lleva semanas dejando pistas de que ChatGPT va a cambiar por dentro, y la última no tiene que ver con el texto sino con la voz. La compañía estaría probando un modelo de audio bidireccional llamado "GPT-Bidi-1", capaz de hablar, oír y escuchar al mismo tiempo, que ya habría empezado a llegar a un puñado de usuarios de la aplicación.Lo recoge Android Authority a partir de lo que rastreó TestingCatalog, que la semana pasada dio con referencias al modelo en el código interno de la aplicación. Ahí aparece descrito como "un gran salto en inteligencia" y como la próxima generación de Voice, una etiqueta que sugiere un lanzamiento cercano, quizá esta misma semana.Una conversación que deja de ir por turnos ChatGPT va a cambiar mucho en el futuro próximo si la filtración es cierta"Bidi" vendría de diseño bidireccional, y en esa palabra cabe el cambio entero. El modo de voz de ahora se comporta como un walkie-talkie: uno habla, el otro espera su turno con paciencia forzada. Bidi 1 borraría esa frontera para que las dos voces ocupen el mismo segundo, de manera que puedes cortar al asistente sin que la frase se le caiga al suelo.Los detalles que filtra el código son los que dan la medida real. El asistente devolvería pequeños gestos de escucha, un "vale" suelto cuando bajas el ritmo, sin atropellarte para tomar la palabra. Y reaccionaría a un cambio de rumbo en caliente: si le pides contar hasta diez y a mitad le mandas hacerlo al revés, rectifica sobre la marcha en vez de acabar primero lo que estaba haciendo.Donde más se nota el salto es en la memoria de la charla, el talón de Aquiles que el sistema de voz actual arrastra desde el primer día. Bidi 1 mantendría el hilo de una conversación larga sin soltar lo que se dijo cinco frases atrás, que es justo lo que hoy se evapora. Tampoco metería baza en los silencios, esos en los que el asistente cree que has terminado y te pisa.Hay también señales en la propia interfaz. El modelo asomaría en el selector de ajustes al lado de las opciones estándar y avanzada, y la burbuja de voz cambiaría a amarillo nada más activarlo. Cosas pequeñas, sí, pero que apuntan a un producto listo para tocar y no a un experimento escondido entre líneas de código.La voz como puerta principal de la IA Sam Altman es el máximo dirigente de OpenAI, la compañía detrás de ChatGPTNada de esto cae en el vacío. OpenAI ya venía cocinando una nueva familia de modelos de voz para conversar en tiempo real, y Bidi 1 sería el paso de un audio en una sola dirección a otro que va y viene. La intención, según el informe, es achicar la distancia entre unos modelos de texto muy capaces y una capa de voz que se había quedado atrás.Y el porqué tiene su lógica. En OpenAI parten de que la mayoría de la gente terminará hablándole a la IA en lugar de escribirle, así que Bidi 1 se suma a los planes de convertir ChatGPT en una superapp con Codex y agentes autónomos y servicios de terceros metidos dentro.Toca la prudencia de costumbre: la compañía no ha dicho nada en voz alta y un plan filtrado puede torcerse antes de salir. Aun así, repartir un modelo sin anunciarlo entre usuarios de carne y hueso es el tipo de prueba que las tecnológicas hacen cuando quieren ver cómo responde la gente antes de encender los focos.