INTELLECT-3, modelo open source para el aprendizaje por refuerzo agentico
Inicio » Blog » INTELLECT-3, modelo open source para el aprendizaje por refuerzo agentico

INTELLECT-3 ha llegado al panorama de la Inteligencia Artificial para cambiar las reglas del juego. el lanzamiento de este modelo MoE (Mixture-of-Experts o Mezcla de Expertos) de 106 mil millones de parámetros, anunciado el 26 de noviembre de 2025 por el equipo de Prime Intellect, representa un hito crucial. No solo demuestra que la innovación de punta no es exclusiva de los gigantes tecnológicos, sino que también establece un nuevo estándar de rendimiento para los modelos de lenguaje a gran escala entrenados con Aprendizaje por Refuerzo (RL) agéntico. Este es un modelo que desafía frontalmente a los líderes cerrados de la industria, y su arquitectura y metodología de entrenamiento son tan fascinantes como sus resultados.

INTELLECT-3 no es solo otro LLM (Modelo de Lenguaje Grande); es la culminación de meses de trabajo centrado en escalar el RL para tareas complejas de razonamiento. Su diseño se enfoca específicamente en mejorar las capacidades de resolución de problemas en múltiples pasos, lo que lo convierte en una herramienta formidable para la nueva era de los agentes de IA. La comunidad de código abierto tiene ahora en sus manos una tecnología que compite con modelos comerciales de miles de millones de dólares, fomentando un futuro más transparente y accesible para el desarrollo de la IA.

INTELLECT-3 y el Poder de la Arquitectura de Expertos (MoE)

La razón principal detrás del rendimiento y la eficiencia de INTELLECT-3 radica en su elección de arquitectura: Mixture-of-Experts (MoE). Este diseño permite que el modelo posea un número masivo de parámetros (106 mil millones) mientras mantiene un costo de inferencia sorprendentemente bajo. En un modelo MoE, solo una pequeña fracción de los parámetros, concretamente 12 mil millones en este caso, se activa para procesar una entrada específica. Esto resulta en una velocidad y eficiencia que muchos modelos densos de tamaño similar no pueden igualar. Es la fórmula perfecta para lograr la potencia de un gigante con la agilidad de un modelo de tamaño medio.

<H3>El Salto Cuántico en Razonamiento, Matemáticas y Código</H3>

Los resultados de los benchmarks hablan por sí solos y sitúan a INTELLECT-3 como un modelo Estado del Arte (SOTA) para su tamaño en varias disciplinas clave. En evaluaciones rigurosas como AIM 2024 y AIM 2025, que miden la inteligencia artificial y el razonamiento, el modelo ha demostrado una capacidad superior de lógica y deducción.

Específicamente, en tareas de matemáticas avanzadas, como las del AIME, el modelo logró un rendimiento impresionante. Su destreza se extiende al ámbito de la programación, alcanzando un notable 69.3% en LiveCodeBench. Esta puntuación es crucial porque LiveCodeBench evalúa la capacidad real de un modelo para generar código funcional y resolver problemas complejos. Al superar a modelos de renombre como DeepSeek R1 y rivalizar con versiones de Grok y Claude Opus, INTELLECT-3 demuestra que el escalado de RL ha desbloqueado niveles de precisión sin precedentes en la resolución de problemas estructurados.

De GLM-4.5 AIR a un Gigante Entrenado con RL

El viaje de INTELLECT-3 comenzó con una base sólida: el modelo GLM-4.5 AIR, un modelo de lenguaje de 106 mil millones de parámetros. Sin embargo, el secreto de su rendimiento final no está solo en la base, sino en la fase de post-entrenamiento. El equipo de Prime Intellect lo sometió a un riguroso proceso que consta de dos etapas principales: primero, el Ajuste Fino Supervisado (SFT), y luego, una fase de Aprendizaje por Refuerzo a Gran Escala (RL).

La etapa de RL es donde el modelo realmente aprende a ser un agente de IA superior. En lugar de simplemente predecir la siguiente palabra, se le entrena para que tome decisiones secuenciales y genere pasos de razonamiento (o Tokens of Thought) para llegar a una solución óptima, de forma similar a cómo un humano resuelve un problema complejo. Esta aproximación agéntica es lo que le permite mantener una alta precisión incluso en tareas que requieren múltiples pasos lógicos, como las demostraciones vistas con números pares o la resolución de dilemas de ubicación.

La Ingeniería de Escalamiento Detrás de Prime Intellect

La proeza técnica de entrenar un modelo MoE de 106 mil millones de parámetros con RL a esta escala es, posiblemente, el mayor logro de Prime Intellect. El entrenamiento masivo con RL presenta desafíos de estabilidad y eficiencia que van más allá del entrenamiento estándar de LLMs. Para superar esto, el equipo no dependió de herramientas existentes, sino que construyó una pila de entrenamiento y una infraestructura de hardware dedicadas y optimizadas desde cero.

Prime RL: El Framework Asíncrono para Agentes

El corazón de este proceso fue Prime RL, su framework de entrenamiento de RL de escala de producción. Este entrenador asíncrono fue diseñado desde cero, construido sobre tecnologías de vanguardia como Torch FSDP2 y VLM, para ser compatible tanto con pequeños experimentos como con modelos MoE gigantes.

La clave del éxito fue la convicción del equipo de que la escalabilidad asíncrona es el único camino viable para potenciar los sistemas de RL agénticos. Esta arquitectura les permitió maximizar el uso de sus recursos de cómputo. Durante un periodo de dos meses, el modelo fue entrenado ininterrumpidamente en un cluster masivo de 512 unidades de GPU NVIDIA H200. Estos recursos, a menudo reservados para las corporaciones más grandes, fueron exprimidos al máximo gracias a una orquestación y capacidad de observación desarrolladas internamente y sometidas a un intenso stress test durante seis meses. La eficiencia de su infraestructura es una lección de ingeniería que establece un nuevo estándar para la optimización de los costos y tiempos de entrenamiento de IA a gran escala.

El Desafío Open Source a los Modelos Cerrados

El valor de INTELLECT-3 trasciende sus impresionantes cifras de rendimiento. Al ser un modelo de código abierto, Prime Intellect ha democratizado el acceso a un rendimiento de clase mundial. En un momento en que el debate sobre la transparencia en la IA está en su punto álgido, este lanzamiento ofrece a la comunidad de investigadores, desarrolladores y startups la posibilidad de inspeccionar, modificar y basarse en uno de los modelos de IA más potentes de la actualidad.

Esto tiene implicaciones profundas. Por primera vez, los proyectos de IA de código abierto tienen un competidor legítimo que desafía la hegemonía de modelos de caja negra como GPT-4, Claude o Gemini. El hecho de que un equipo relativamente joven haya logrado entrenar un modelo que rivaliza o incluso supera a modelos tres veces más grandes demuestra que el ingenio, la arquitectura eficiente y la optimización del RL pueden ser más importantes que el simple tamaño o el presupuesto ilimitado. INTELLECT-3 es, en esencia, un manifiesto que aboga por un futuro en el que el poder de la IA avanzada esté al alcance de todos, marcando un cambio tectónico en la dinámica de la investigación y el desarrollo de la Inteligencia Artificial global.

Si quieres usar Intellect-3, simplemente tienes que acceder al siguiente enlace: HUGGINGFACE INTELLECT-3