El Misterio de GPT-IMAGE-2 ¿Será Hazel-gen, nuevo modelo en LMArena?

GPT-IMAGE-2, bajo el posible nombre en clave «Hazel-gen», ha llegado para revolucionar el panorama de la inteligencia artificial de generación de imágenes, y su reciente aparición en la plataforma LMArena, alrededor del martes 9 de diciembre de 2025, ha desatado una ola de especulaciones y entusiasmo en la comunidad tecnológica. Este modelo, supuestamente desarrollado por OpenAI, se perfila como el sucesor largamente esperado de GPT-Image-1, prometiendo un salto significativo en la calidad y precisión de la creación visual a partir de texto. El nombre «Hazel-gen» y las referencias a «Chestnut» y «Hazelnut» sugieren un sistema de codificación interna o variantes de prueba, habitual en los laboratorios de IA de vanguardia.

Las Pruebas que Definen la Nueva Frontera

La clave de la expectación en torno a Hazel-gen no reside solo en su supuesta filiación con OpenAI, sino en la manera en que supera pruebas de generación de imágenes que históricamente han sido el talón de Aquiles de los modelos de IA.

La Precisión Temporal: El Desafío del Reloj Analógico

Uno de los desafíos más notorios para los modelos anteriores ha sido la representación lógica y precisa de conceptos abstractos y relaciones espaciales complejas, como la hora en un reloj analógico. El prompt de prueba que ha corrido como la pólvora en la comunidad es: «una mesa con un reloj analógico que marca las 7:24 y una copa de vino completamente llena hasta el borde».

Mientras que el resultado de Hazel-gen marcó aproximadamente las 7:26, la capacidad de acercarse tanto a una indicación de tiempo tan específica, en un formato que la IA a menudo confunde (la posición de las manecillas en relación a la hora), es una prueba de fuego que el modelo «básicamente pasa», según los expertos. Este pequeño desfase, aunque existente, representa una mejora sustancial respecto a modelos más antiguos que a menudo fallaban completamente en la coherencia de las manecillas.

Coherencia y Detalles Finos: El Vino al Borde y el Rendimiento de Texto

Otro aspecto crucial de la prueba fue la copa de vino «completamente llena hasta el borde». Los modelos de generación de imágenes a menudo tienen dificultades con la física sutil y la coherencia de los objetos, como mantener un líquido precisamente a ras. La aparente superación de esta prueba por parte de Hazel-gen apunta a una comprensión más profunda de la escena y las propiedades de los objetos. Además, el modelo ha demostrado una buena representación del texto dentro de las imágenes generadas, un campo donde la mayoría de las herramientas de generación de imágenes previas (incluyendo DALL-E y otros competidores) han mostrado importantes debilidades. La capacidad de renderizar texto legible y contextualmente apropiado es un indicador de una arquitectura más robusta y un entrenamiento más refinado.

Posicionamiento en el Mercado: Comparación con la Competencia

Aunque los primeros testers indican que el estilo visual de Hazel-gen no es su punto más fuerte y algunos incluso lo consideran «horrible» para los estándares de finales de 2025, su rendimiento en pruebas de coherencia y manipulación de texto lo coloca en una posición competitiva única. La comparación con modelos como «Nano Banana Pro» sugiere que, aunque la calidad estilística puede estar ligeramente por debajo de la élite actual, su precisión y cumplimiento de instrucciones complejas lo sitúan «casi» a la par. Algunos usuarios lo prefieren incluso sobre el rival directo Gemini 3 Image Pro para tareas específicas como la edición.

La aparición de Hazel-gen en LMArena, una plataforma conocida por sus tablas de clasificación y batallas anónimas entre modelos (como el Text-to-Image Arena), sigue la práctica de OpenAI de probar nuevas iteraciones en entornos controlados, como ocurrió con sus predecesores. La identificación de versiones como «hazel-gen-2» y «hazel-gen-4» en la arena indica un proceso de desarrollo iterativo y continuo, buscando la optimización antes de un lanzamiento formal a una audiencia más amplia.

El Futuro Cerrado vs. Abierto y la Evolución de la IA de Imágenes

La identidad de Hazel-gen ha generado una pregunta crítica: ¿será un modelo abierto o cerrado? Dado que OpenAI es una organización con una clara inclinación hacia la distribución de sus modelos como productos propietarios, la expectativa es que GPT-IMAGE-2 siga el camino de GPT-4 y DALL-E 3, permaneciendo como un modelo cerrado accesible a través de su API o sus productos de consumo (como ChatGPT). La tecnología detrás de esta mejora en la coherencia temporal y espacial es un activo estratégico que OpenAI querrá proteger, especialmente ante la intensa competencia.

Implicaciones de un GPT-IMAGE-2 Propietario

Un modelo propietario (cerrado) como Hazel-gen permite a OpenAI mantener un control estricto sobre su uso, garantizando un ecosistema de seguridad y monetización. Este enfoque es común en los modelos más avanzados, ya que la inversión en entrenamiento y la complejidad de la arquitectura hacen que su divulgación completa sea improbable. Sin embargo, esto también significa que la comunidad de código abierto deberá esperar alternativas que repliquen estas capacidades avanzadas. La presencia de este modelo, que parece haber estado brevemente disponible a través de la API antes de ser retirado (según rumores), sugiere una fase de prueba muy avanzada, posiblemente previa a un lanzamiento más amplio que, según algunas fuentes, podría ocurrir en enero de 2026.

La evolución de la generación de imágenes ha avanzado a pasos agigantados desde el lanzamiento inicial de DALL-E, con la IA pasando de crear composiciones abstractas a comprender la física y la lógica de la escena. GPT-IMAGE-2 (Hazel-gen) representa un hito en esta trayectoria, demostrando que la IA está cada vez más cerca de dominar la representación de instrucciones sutiles y técnicamente desafiantes, un avance que transformará la ilustración, el diseño y la creación de contenido digital.

Si quieres usar ChatGPT, simplemente tienes que acceder al siguiente enlace: CHATGPT

Noticia Anterior