OpenAI publica LifeSciBench: 750 tareas escritas por científicos para medir si la IA puede hacer investigación real en biología

Wait 5 sec.

OpenAI publicó el 17 de junio de 2026 LifeSciBench, un benchmark de evaluación de modelos de IA para tareas de investigación en ciencias de la vida escrito y revisado por científicos con doctorado y experiencia en biotecnología y farmacología. Es el primer benchmark diseñado específicamente para medir si un modelo de IA puede hacer el tipo de trabajo real que hacen los investigadores científicos: interpretar evidencia incompleta, diseñar experimentos, evaluar riesgo traslacional y tomar decisiones bajo incertidumbre. No preguntas de trivia biológica. Investigación aplicada real. El benchmark incluye 750 tareas, 1.062 artefactos (figuras, PDFs, tablas, secuencias, archivos de estructura molecular), contribuciones de 173 científicos y 19.020 criterios de rúbrica para evaluación. Lo publica el blog oficial de OpenAI el 17 de junio.Por qué LifeSciBench y por qué ahoraLos benchmarks existentes de ciencias de la vida miden principalmente recuperación de hechos y predicciones en dominios acotados: ¿cuál es la función de esta proteína? ¿Qué gen está mutado en esta enfermedad? Son válidos para medir un tipo de competencia, pero fallan en capturar lo que hace un investigador senior en la práctica diaria.OpenAI describe ese trabajo real con precisión: «Los investigadores interpretan evidencia incompleta, reconcilian resultados contradictorios, diseñan experimentos difíciles, resuelven problemas de ensayos, evalúan el riesgo traslacional y deciden qué hacer a continuación bajo incertidumbre.» Ningún benchmark anterior medía todo eso de forma sistemática.LifeSciBench cubre siete flujos de trabajo: manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traslación, y comunicación científica. Cubre también siete dominios biológicos. El 79% de las tareas requieren múltiples pasos de razonamiento o toma de decisiones (media de cuatro pasos), y el 53% exigen que el modelo interprete o sintetice información de al menos un artefacto externo (un gráfico, un PDF, un archivo de secuencias).Las tareas no tienen respuestas únicas que baste con verificar contra una lista. Las rúbricas son detalladas: el benchmark evalúa si la respuesta del modelo alcanza la conclusión correcta de forma científicamente válida y operativamente útil. Una respuesta que llega a la conclusión correcta pero omite una limitación crítica del ensayo o no menciona una consecuencia biológica importante puede puntuar bajo aunque la conclusión sea correcta.La revolución del código abierto en IA tiene en los benchmarks una de sus herramientas más potentes para calibrar el progreso real frente al progreso de marketing: sin métricas independientes y rigurosas, la comparación entre modelos es básicamente publicidad. LifeSciBench intenta llenar ese hueco en un dominio donde las apuestas son literalmente de salud y vidas.La metodología de construcción del benchmarkLas 173 tareas (número de tareas distinto del de contribuidores: fueron 173 científicos los que contribuyeron) fueron creadas bajo un proceso de revisión riguroso. Cada científico tenía formación doctoral y experiencia directa en programas de descubrimiento de fármacos en biotecnología o farmacéutica. Las tareas podían pasar por tantos ciclos de revisión como fuesen necesarios antes de la aceptación; las aceptadas promediaron seis ciclos de revisión automatizada y al menos dos rondas de revisión experta con al menos el 90% de acuerdo entre revisores del dominio relevante.Un ejemplo de tarea del benchmark ilustra la complejidad que se evalúa: se pide al modelo que haga una «crítica implacable» de un paquete de datos de un ensayo clínico en Fase 1b/2 con una terapia génica de micro-distrofina para la distrofia muscular de Duchenne, evaluando si esos datos apoyan la aprobación acelerada basada en un endpoint sustituto. La tarea incluye datos biométricos, resultados de Western blot, inmunofluorescencia, seguimiento funcional a 48 semanas, perfil de seguridad y biodistribución. La rúbrica evalúa si el modelo identifica correctamente cada debilidad del paquete, qué análisis adicionales cerrarían las brechas y qué cambios de diseño serían necesarios.WormGPT y las herramientas de IA generativa diseñadas específicamente para evadir salvaguardas de seguridad son el recordatorio de que los benchmarks de seguridad también importan. En el dominio de las ciencias de la vida, un modelo que da recomendaciones de diseño experimental incorrectas con alta confianza puede costar tiempo, dinero y en casos extremos seguridad de pacientes. LifeSciBench es, entre otras cosas, una herramienta para identificar esos modos de fallo antes de que los modelos se desplieguen en entornos reales.Mi valoraciónLo que más me convence de LifeSciBench es la construcción de las rúbricas. En investigación real, el proceso importa tanto como el resultado: una conclusión correcta por las razones equivocadas es potencialmente más peligrosa que una conclusión incorrecta que se identifique como tal. Las 19.020 rúbricas intentan capturar esa realidad.Lo que más me preocupa es el costo de evaluación. Con 750 tareas que requieren revisión experta y rúbricas de 25 criterios, evaluar un modelo nuevo en LifeSciBench es mucho más caro y lento que en un benchmark estándar de preguntas de opción múltiple. Eso puede limitar su adopción como referencia estándar.Lo más estructuralmente significativo es el origen del benchmark: OpenAI, no una institución académica independiente. Aunque el proceso de construcción involucra científicos externos y es riguroso, la empresa que publica el benchmark también tiene modelos que compiten en él. La comunidad científica tardará en adoptarlo como estándar de referencia hasta que existan auditorías independientes del proceso.La pregunta a 12 meses es si las principales farmacéuticas y laboratorios de descubrimiento de fármacos usan LifeSciBench como criterio de selección de modelos para sus flujos de trabajo. Mi predicción: al menos tres grandes pharmas habrán referenciado LifeSciBench en sus criterios de evaluación de IA para finales de 2026.Preguntas frecuentes¿En qué se diferencia LifeSciBench de otros benchmarks científicos como MedQA o MMLU?MedQA y MMLU miden conocimiento médico y científico mediante preguntas de opción múltiple con respuestas verificables. LifeSciBench mide si un modelo puede hacer el trabajo real de un investigador: interpretar evidencia ambigua, diseñar experimentos, evaluar riesgo traslacional y comunicar conclusiones con el nivel de detalle y cautela que un científico senior esperaría. Son dimensiones muy diferentes de competencia.¿Cómo se evalúan las respuestas en LifeSciBench si no hay siempre una respuesta única correcta?Las rúbricas detalladas desarrolladas por expertos desglosan cada respuesta en afirmaciones científicas específicas, cálculos, decisiones, justificaciones y caveats. Con un promedio de 25 criterios por tarea, el modelo puede puntuar alto en algunas dimensiones y bajo en otras. La puntuación final refleja no solo si se llegó a la conclusión correcta sino si el camino fue científicamente válido y operativamente útil.¿Está LifeSciBench disponible para que cualquier equipo evalúe sus modelos?Sí, el benchmark y el paper técnico asociado están disponibles públicamente. El PDF del paper está accesible en la web de OpenAI. Dado el costo de evaluación con revisores expertos para las rúbricas abiertas, es probable que OpenAI también proporcione herramientas de evaluación automatizada para una versión más accesible del benchmark, aunque esto no estaba confirmado al cierre de esta edición.La noticia OpenAI publica LifeSciBench: 750 tareas escritas por científicos para medir si la IA puede hacer investigación real en biología fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.