La Inteligencia Artificial (IA) ha vuelto a ser el centro de atención con la confirmación de similitudes entre el modelo de IA DeepSeek y Gemini 2.5 Pro de Google, encendiendo un debate crucial en la comunidad. Este 28 de mayo, el laboratorio chino DeepSeek presentó su nueva versión, R1-0528, que ha demostrado un rendimiento excepcional en pruebas de matemáticas y programación. Sin embargo, lo que realmente ha capturado la atención de expertos y desarrolladores son las sorprendentes similitudes entre este modelo y el aclamado Gemini 2.5 Pro de Google. Este fenómeno no es solo una curiosidad tecnológica, sino que plantea preguntas fundamentales sobre la procedencia de los datos de entrenamiento, los riesgos y desafíos que implica el uso de técnicas como la destilación, y cómo esto puede afectar el desarrollo futuro de modelos de IA.
¿Qué une y qué separa a DeepSeek R1-0528 y Gemini 2.5 Pro?
En las últimas semanas, tanto usuarios experimentados como analistas técnicos han señalado que DeepSeek R1-0528 comparte numerosas expresiones y patrones de razonamiento con Gemini 2.5 Pro. Esto ha llevado a algunos a preguntarse si DeepSeek pudo haber entrenado su modelo utilizando salidas de Gemini.
Indicios de Similitud: Rastros y Expresiones Recurrentes
El desarrollador australiano Sam Paech, reconocido por su agudeza en el análisis de modelos de IA, ha detectado la presencia de expresiones recurrentes idénticas en ambos modelos. Esto sugiere una posible influencia directa en el entrenamiento de DeepSeek. De manera similar, el creador anónimo de la herramienta SpeechMap, especializada en el análisis de razonamientos internos de IA, ha reportado que los «traces» –los pasos lógicos que un modelo genera antes de ofrecer una respuesta– de DeepSeek se leen exactamente igual que los de Gemini. Estos hallazgos plantean la cuestión de si estamos ante una simple coincidencia o algo más deliberado.
La Opacidad de los Datos de Entrenamiento: ¿El Talón de Aquiles de la Transparencia?
Un factor crucial que alimenta la especulación es la falta de transparencia por parte de DeepSeek en relación con la procedencia de los datos utilizados para entrenar R1-0528. Esta opacidad ha abierto la puerta a la posibilidad de que se haya utilizado contenido generado por otros modelos comerciales, especialmente los de gran envergadura como Gemini. La comunidad de IA entiende que, si se entrena un modelo con las mejores salidas disponibles, se puede lograr un rendimiento superior, optimizando recursos técnicos y computacionales.
La Destilación: ¿Una Práctica Común o una Infracción Ética?
Las acusaciones de entrenamiento con contenido generado por rivales no son nuevas para DeepSeek. Ya en diciembre, desarrolladores notaron que versiones anteriores del modelo, como DeepSeek V3, se identificaban como ChatGPT, sugiriendo un posible entrenamiento con diálogos reales extraídos de OpenAI. Incluso se encontraron registros internos con sellos y referencias únicas de ChatGPT.
Destilación de Modelos: Un Atajo al Rendimiento Superior
La práctica de entrenar modelos con contenido generado por IA rival se conoce como destilación. Esta técnica consiste en extraer salidas de modelos punteros y utilizarlas como base para que un nuevo modelo imite su rendimiento. De hecho, OpenAI, a principios de este año, mencionó en una nota al Financial Times que habían detectado la práctica de destilación por parte de DeepSeek, lo que añade peso a las sospechas actuales.
Microsoft y las Presuntas Filtraciones de Datos
Otro elemento clave en este entramado es la investigación publicada por Bloomberg sobre Microsoft. En 2024, el gigante tecnológico, socio de OpenAI, descubrió que «enormes cantidades de información salían de cuentas de desarrolladores» supuestamente asociadas a DeepSeek. El objetivo aparente era la recolección de datos para mejorar modelos propios mediante destilación, incluso si esto contravenía los términos de OpenAI, que prohíben explícitamente este uso.

Contaminación de Datos y la Evolución de la IA
La mayoría de los modelos de IA actuales se nutren de la web abierta, un ecosistema cada vez más saturado de contenido generado automáticamente, como artículos clickbait, bots y publicaciones en plataformas como Reddit o X.
El Desafío de Filtrar Contenido Original vs. Output Artificial
Este fenómeno ha provocado una «contaminación» en los datos de entrenamiento, dificultando la distinción entre contenido original y replicado. A largo plazo, esto puede llevar a que los modelos coincidan en expresiones, respuestas y razonamientos. Nathan Lambert, investigador senior en AI2, considera plausible que DeepSeek use datos generados por rivales para maximizar el rendimiento con menos recursos computacionales. La dificultad de detectar si una frase fue creada por un humano o por otra IA, sumada a la creciente cantidad de datos contaminados, representa un reto significativo para las empresas.
Medidas de Seguridad de los Gigantes de la IA
Ante este panorama, empresas como OpenAI y Google están implementando medidas para proteger su trabajo. En abril de este año, OpenAI instauró un sistema de verificación de identidad estricto, exigiendo documentos oficiales para el uso de sus modelos top, excluyendo a países como China. Por su parte, Google ha comenzado a «resumir» los «traces», ofreciendo resúmenes en lugar de razonamientos detallados, para dificultar la copia de sus pasos lógicos. En mayo, Anthropic anunció una estrategia similar para blindar sus modelos. Estas barreras buscan dificultar la «copia» del «cerebro» de los modelos estrella mediante la descarga de sus razonamientos internos.
La controversia entre DeepSeek y los modelos de Google ilustra cómo la IA depende tanto de la fuerza computacional como del acceso inteligente y seguro a datos de entrenamiento. Las similitudes entre DeepSeek R1-0528 y Gemini 2.5 Pro no solo son una cuestión técnica, sino que reflejan las tensiones actuales en la industria por el uso de datos ajenos. Si se logra frenar la destilación, la comunidad podría entrar en una nueva fase de mayor transparencia y fiabilidad en la creación de modelos de IA. Por ahora, queda pendiente un comentario oficial de Google, y la comunidad de IA espera nuevas noticias para confirmar si existe una relación directa o si todo es un resultado de la creciente contaminación del entorno digital.
Si quieres probar Gemini o DeepSeek lo puedes hacer a través de: GEMINI y DEEPSEEK