Microsoft hace que GPT y Claude trabajen juntos: la nueva función Critique de Copilot usa un modelo para generar y otro para revisar, y mejora la precisión un 13,8%

Wait 5 sec.

Microsoft ha presentado Critique, una función para su herramienta Copilot Researcher (parte de Microsoft 365 Copilot) que combina los modelos de OpenAI y Anthropic en un flujo de trabajo donde GPT genera la respuesta y Claude la revisa antes de que el usuario la vea. El resultado: una mejora del 13,8% en el benchmark DRACO de calidad de investigación profunda frente al uso de un solo modelo.La lógica es simple pero potente: en lugar de confiar en un único modelo de IA (que puede alucinar, omitir datos o sesgar la respuesta), Critique trata a los modelos como un panel de expertos que se revisan mutuamente. GPT produce el borrador; Claude lo evalúa por precisión y calidad; el usuario recibe la versión refinada. Microsoft planea hacer el flujo bidireccional en el futuro (Claude genera, GPT revisa).Además de Critique, Microsoft ha lanzado Council, una función que permite ver respuestas de diferentes modelos lado a lado para comparar directamente sus resultados. Ambas novedades forman parte de Copilot Cowork, el nuevo producto agéntico de Microsoft que se despliega para los clientes del programa Frontier (acceso anticipado a funciones de IA avanzadas).Nicole Herskowitz, VP corporativa de Microsoft 365 y Copilot, resumió la estrategia: «Tener varios modelos de diferentes proveedores en Copilot es muy atractivo, pero estamos llevándolo al siguiente nivel, donde los clientes obtienen los beneficios de que los modelos trabajen juntos.»Mi valoración: Microsoft está haciendo con la IA lo que lleva décadas haciendo con el software empresarial: no apostar por un solo proveedor, sino orquestar múltiples herramientas bajo su plataforma. Critique valida una idea que la comunidad de IA ha teorizado durante años: la verificación multi-modelo reduce errores que ningún truco de prompt engineering puede eliminar por sí solo. El coste computacional se duplica (ejecutas dos modelos por cada consulta), pero para investigación donde la precisión importa más que la velocidad, el trade-off tiene sentido. También es un movimiento estratégico para reducir la dependencia de OpenAI: si Claude es co-protagonista de Copilot, Microsoft tiene leverage en ambas direcciones.Preguntas frecuentes¿Qué es Critique? Una función de Copilot Researcher que usa GPT para generar respuestas y Claude para revisarlas antes de mostrarlas al usuario. Mejora la precisión un 13,8%. ¿Qué es Council? Una función que muestra respuestas de diferentes modelos lado a lado para comparación directa. ¿Está disponible ya? En acceso anticipado para clientes del programa Frontier de Microsoft 365 Copilot.La noticia Microsoft hace que GPT y Claude trabajen juntos: la nueva función Critique de Copilot usa un modelo para generar y otro para revisar, y mejora la precisión un 13,8% fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.