AutomatizaciónLatAm
← Inteligencia Artificial

DeepReinforce presenta Ornith-1.0: modelo de código abierto que autooptimiza su entrenamiento

Por Redacción Automatización LatAm · 25 de junio de 2026 · Fuente original: MarkTechPost

DeepReinforce presenta Ornith-1.0: modelo de código abierto que autooptimiza su entrenamiento — Inteligencia Artificial

Foto: Nesster · Openverse · CC BY 2.0

DeepReinforce lanzó Ornith-1.0, una familia de modelos de código abierto basada en Gemma 4 y Qwen 3.5 que aprende dinámicamente sus propias estructuras de refuerzo durante el entrenamiento. El modelo flagship alcanza 82.4 en SWE-Bench Verified con licencia MIT.

Contexto: La evolución del entrenamiento con refuerzo

El entrenamiento mediante refuerzo (RL) ha transformado la capacidad de los modelos de lenguaje para resolver tareas complejas. Sin embargo, el método tradicional requiere que los investigadores diseñen manualmente los “andamios” o estructuras que guían el aprendizaje del modelo. Este proceso es laborioso, específico de cada tarea y poco escalable. DeepReinforce ha identificado este cuello de botella y propone una solución innovadora.

El lanzamiento de Ornith-1.0

Ornith-1.0 es una familia de modelos de código abierto que rompre el paradigma convencional. En lugar de depender de estructuras predefinidas, el modelo aprende a generar sus propios scaffolds durante el proceso de refuerzo. Esto significa que la arquitectura de aprendizaje se adapta dinámicamente a la naturaleza específica de cada problema de codificación.

La familia está construida sobre dos bases sólidas: Gemma 4 de Google y Qwen 3.5 de Alibaba. El modelo flagship, con 397 mil millones de parámetros, alcanza un desempeño de 82.4 puntos en SWE-Bench Verified, un benchmark que evalúa la capacidad de resolver problemas de ingeniería de software del mundo real. Este resultado posiciona a Ornith-1.0 como uno de los modelos de código más competitivos disponibles actualmente.

Mecanismo técnico y ventajas

La capacidad central de Ornith-1.0 radica en su enfoque de “aprendizaje meta” aplicado al refuerzo. El modelo no solo resuelve problemas de codificación, sino que simultáneamente optimiza la estrategia mediante la cual encuentra soluciones. Esto reduce la dependencia de expertos humanos para diseñar la función de recompensa y los mecanismos de guía.

Al liberar los pesos bajo licencia MIT, DeepReinforce garantiza que cualquier investigador, empresa o desarrollador puede usar, modificar y comercializar el modelo sin restricciones. Esta apertura contrasta con muchos modelos propietarios y acelera la innovación colaborativa.

Implicaciones para Latinoamérica

En la región, donde el acceso a modelos de IA de punta frecuentemente está limitado por costos de licencia, la disponibilidad de Ornith-1.0 bajo MIT abre oportunidades inmediatas. Empresas de desarrollo de software, startups de edtech y centros de investigación pueden entrenar, ajustar y desplegar el modelo en sus infraestructuras sin depender de APIs propietarias.

Además, el hecho de que el modelo aprenda sus propios scaffolds sugiere que versiones futuras podrían adaptarse mejor a características lingüísticas y patrones de codificación regionalmente específicos. Esto es especialmente relevante para equipos que trabajan en dominios verticales como fintech, agricultura digital o energía.

El lanzamiento también establece un precedente: la IA de frontera no necesariamente requiere ser cerrada. El ecosistema abierto promovido por DeepReinforce puede inspirar a otros laboratorios a compartir sus avances en términos más equitativos.

Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →

Sigue leyendo