DeepSeek y las sospechas sobre el uso de datos de Gemini: lo que sabemos hasta ahora

Wait 5 sec.

La empresa china DeepSeek ha dado que hablar en el mundo de la inteligencia artificial tras lanzar su modelo R1-0528, una actualización del modelo de razonamiento R1. Este modelo ha destacado por su capacidad para resolver problemas matemáticos y de programación, mostrando resultados competitivos en pruebas especializadas.Sin embargo, el origen de los datos usados para entrenar este modelo está generando controversia.¿El modelo fue entrenado con datos de Gemini?Aunque DeepSeek no ha detallado públicamente las fuentes de datos utilizadas, varios desarrolladores e investigadores han señalado indicios de que el modelo podría haber sido entrenado con salidas generadas por Gemini, el modelo de lenguaje desarrollado por Google.Uno de los primeros en sugerir esto fue Sam Paeach, un desarrollador australiano que se especializa en evaluaciones de inteligencia emocional para IA. A través de un análisis comparativo, Paeach afirmó que R1-0528 utiliza expresiones y palabras muy similares a las de Gemini 2.5 Pro. Aunque esto no constituye una prueba definitiva, sí levanta dudas razonables.Similitudes en los «traces» del modeloOtro indicio lo aportó el creador anónimo de SpeechMap, una herramienta de evaluación de libertad de expresión en modelos de IA. Según él, las huellas internas o «traces» generadas por el modelo de DeepSeek mientras razona, recuerdan mucho a las de Gemini. Estas «traces» muestran cómo un modelo avanza paso a paso hacia una conclusión, y parecen seguir patrones similares a los generados por el modelo de Google.No es la primera vez que DeepSeek enfrenta acusacionesYa en diciembre de 2024, se observó que el modelo DeepSeek V3 a veces se identificaba erróneamente como ChatGPT, lo que llevó a la sospecha de que podría haber sido entrenado con registros de conversaciones de la plataforma de OpenAI.Más adelante, OpenAI confirmó haber encontrado indicios de que DeepSeek podría estar utilizando una técnica conocida como destilación, que consiste en generar un nuevo modelo a partir de las respuestas de modelos más grandes y avanzados. De hecho, Microsoft—socio cercano de OpenAI—detectó en 2024 una fuga masiva de datos desde cuentas de desarrolladores asociadas a OpenAI, las cuales habrían sido usadas por DeepSeek.¿Qué es la destilación de modelos y por qué es polémica?La destilación de modelos no es una técnica ilegal ni nueva. Es comúnmente utilizada para crear versiones más pequeñas y eficientes de modelos grandes. Sin embargo, lo que genera controversia es el uso de salidas de modelos de terceros protegidos por términos de servicio. OpenAI, por ejemplo, prohíbe expresamente que se utilicen sus resultados para entrenar modelos de competencia.Si DeepSeek está realmente haciendo esto, estaría infringiendo estas condiciones.El problema de los datos contaminadosLa situación se agrava porque la web se ha llenado de contenido generado por IA, desde artículos clickbait hasta comentarios en redes como Reddit o X (antes Twitter). Esta «contaminación» dificulta que las empresas filtren correctamente los datos que usan para entrenar sus modelos. Es muy fácil que modelos nuevos aprendan no de humanos, sino de otras IA.Este entorno facilita que aparezcan coincidencias en el lenguaje y estilo de diferentes modelos, lo que complica demostrar si hubo copia intencional o solo una coincidencia estadística.¿Qué dicen los expertos?Nathan Lambert, investigador del instituto AI2, no descarta que DeepSeek haya utilizado este tipo de datos: «Si yo fuera DeepSeek, generaría montones de datos sintéticos usando el mejor modelo API disponible. Tienen dinero, pero no suficientes GPUs. Así, optimizan su capacidad de cómputo». Su hipótesis sugiere que DeepSeek, al no tener los recursos computacionales para entrenar desde cero, habría optado por usar resultados generados por otros modelos.Nuevas medidas de seguridad en el sectorEmpresas como OpenAI, Google y Anthropic están respondiendo a este tipo de prácticas aumentando las medidas de seguridad:OpenAI ahora exige verificación de identidad con documentos oficiales para acceder a sus modelos avanzados, lo que excluye automáticamente a empresas ubicadas en países no admitidos, como China.Google ha comenzado a resumir los «traces» de sus modelos en su plataforma AI Studio, dificultando así el entrenamiento indirecto mediante copia de razonamientos.Anthropic anunció que también resumirá los trazos internos de sus modelos para proteger sus ventajas competitivas.Estas acciones buscan proteger la propiedad intelectual y limitar el uso indebido de modelos comerciales por parte de competidores que podrían aprovecharse sin tener que invertir en el entrenamiento desde cero.¿Hacia dónde vamos?Este caso pone sobre la mesa un dilema ético y técnico importante. Mientras que el entrenamiento de modelos se basa en datos disponibles públicamente, el creciente uso de contenido generado por otras IA complica la trazabilidad y el control. El sector tendrá que encontrar un equilibrio entre fomentar la innovación y proteger el trabajo original de cada laboratorio de IA.Por ahora, DeepSeek no ha confirmado ni desmentido las acusaciones, y Google aún no ha respondido a las consultas. Lo que está claro es que la carrera por crear modelos más potentes no solo depende de tener buenos algoritmos, sino también de tener acceso a datos de calidad y recursos computacionales considerables.La noticia DeepSeek y las sospechas sobre el uso de datos de Gemini: lo que sabemos hasta ahora fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.